Avec Sora, OpenAI entre dans la course à la vidéo générée par IA

L'entreprise de Sam Altman a dévoilé les prouesses de son ChatGPT vidéo, qui bluffe par son photoréalisme et inquiète quant à sa capacité à générer de faux contenus.
(Crédits : CARLOS BARRIA)

Une femme déambulant dans les rues de Tokyo, deux bateaux pirates naviguant dans une tasse de café, des chiots labradors s'ébrouant dans la neige.... Jeudi soir sur X, de courtes vidéos (ne dépassant pas la minute) ont circulé sous l'œil fasciné et alarmé des utilisateurs. « Incroyable », « un nouveau monde », « le cinéma est mort », peut-on notamment lire en commentaires.

Ces images sont l'œuvre de Sora, la nouvelle intelligence artificielle d'OpenAI, le créateur de ChatGPT. A partir d'un simple prompt (un court texte descriptif), Sora peut générer en quelques minutes une séquence vidéo. Le modèle est également capable d'animer une image fixe ou de rallonger une vidéo existante de courte durée.

Un accès limité pour le moment

Pour le moment, ce programme n'est pas accessible au grand public. Seuls quelques artistes, designers et réalisateurs peuvent l'utiliser, précise OpenAI sur son site, ainsi que des experts spécialistes des biais et de la désinformation. Objectif, tester les garde-fous et détecter d'éventuelles failles. Mais pour montrer les performances de l'outil aux internautes, Sam Altman, le PDG d'OpenAI, a lancé un appel aux prompts sur le réseau social X le 15 février, proposant de publier ensuite les résultats.

Lire aussiIA : avec son nouveau centre de recherche à Paris, Google entend former 100.000 professionnels

Sora sera loin d'être le premier algorithme dit text-to-video (du texte à la vidéo) disponible sur le marché. Les premières expérimentations datent de fin 2022. Google avait notamment montré les premiers résultats de son outil Phenaki. Le rendu était flou, les formes un peu étranges, mais déjà une IA était capable de créer un petit film à partir d'un bout de texte. Quelques mois plus tard, des logiciels comme Gen2 de Runway, Stable Diffusion Video, ou Pika 1.0 de Pika Labs permettaient d'avoir des rendus plus léchés, bien que générant toujours des aberrations visuelles.

Lire aussiIntelligence artificielle : Anthropic, Google, Mistral... qui pour détrôner OpenAI en 2024 ?

Des résultats photoréalistes et fidèles au prompt

L'IA d'OpenAI impressionne dans son photoréalisme, la consistance du rendu et la fidélité par rapport au prompt entré. L'entreprise s'est appuyé sur des recherches effectuées précédemment pour la mise au point de GPT-4, son grand modèle de langage, et de DALL-E, son générateur d'images. Comme à son habitude, OpenAI (qui n'a décidement plus grand-chose d'« open ») ne dévoile pas le nombre et le type de vidéos nécessaires à l'entraînement de Sora (dont le nom vient du japonais « ciel », pour symboliser la création sans limite).

L'entreprise se targue d'être parvenue à relever certains défis techniques jusqu'ici difficilement surmontables. Par exemple, si le sujet de la vidéo disparaît un temps de l'image, lorsqu'il réapparait, il aura la même apparence. Toutefois, l'entreprise note des défauts : Sora confond la gauche et la droite, et n'est pas capable de bien réaliser certains détails (si une personne mange un biscuit, celui-ci n'aura pas forcément la trace de la morsure).

La capacité (inquiétante) de démocratiser cette technologie

Par ailleurs, OpenAI, dont le principal produit ChatGPT est déjà utilisé par 100 millions d'utilisateurs chaque semaine, a la capacité de véritablement démocratiser cette technologie. Cette diffusion à grande échelle soulève d'ailleurs des inquiétudes, notamment en matière de diffusion de la désinformation à l'approche de l'élection présidentielle américaine et des élections européennes. En novembre dernier, l'élection présidentielle argentine a fait office de terrain d'essais.

On y a vu beaucoup d'images de propagande générées par algorithme, mais aussi un deepfake montrant Javier Milei, le candidat finalement élu, faisant l'apologie de la vente d'organes. La technologie d'OpenAI est a priori moins adapté pour mettre en scène un candidat et lui faire prononcer un discours qu'il n'aurait jamais tenu, mais pourrait par exemple servir à produire des scènes n'ayant jamais eu lieu.

Lire aussiIntelligence artificielle : OpenAI veut lutter contre la désinformation pour la présidentielle américaine

Sujets les + lus

|

Sujets les + commentés

Commentaires 3
à écrit le 17/02/2024 à 8:54
Signaler
Bon ben ça va alors, ils osnt encore vraiment très loin du but ! LOL ! ^^

à écrit le 16/02/2024 à 18:18
Signaler
Rien n'oblige l'humanité à s'autodétruire ou à s'autoremplacer, excepté un projet politique mondial planifié depuis des décennies.

à écrit le 16/02/2024 à 16:44
Signaler
Fabuleux, un nouveau monde du cinéma est en marche, les scénaristes vont devenir les nouveaux maîtres du cinéma ,mais pour ce qui est des acteurs réalisateurs cameramen etc sale temps🤣

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.