Une femme déambulant dans les rues de Tokyo, deux bateaux pirates naviguant dans une tasse de café, des chiots labradors s'ébrouant dans la neige.... Jeudi soir sur X, de courtes vidéos (ne dépassant pas la minute) ont circulé sous l'œil fasciné et alarmé des utilisateurs. « Incroyable », « un nouveau monde », « le cinéma est mort », peut-on notamment lire en commentaires.
Ces images sont l'œuvre de Sora, la nouvelle intelligence artificielle d'OpenAI, le créateur de ChatGPT. A partir d'un simple prompt (un court texte descriptif), Sora peut générer en quelques minutes une séquence vidéo. Le modèle est également capable d'animer une image fixe ou de rallonger une vidéo existante de courte durée.
Un accès limité pour le moment
Pour le moment, ce programme n'est pas accessible au grand public. Seuls quelques artistes, designers et réalisateurs peuvent l'utiliser, précise OpenAI sur son site, ainsi que des experts spécialistes des biais et de la désinformation. Objectif, tester les garde-fous et détecter d'éventuelles failles. Mais pour montrer les performances de l'outil aux internautes, Sam Altman, le PDG d'OpenAI, a lancé un appel aux prompts sur le réseau social X le 15 février, proposant de publier ensuite les résultats.
Sora sera loin d'être le premier algorithme dit text-to-video (du texte à la vidéo) disponible sur le marché. Les premières expérimentations datent de fin 2022. Google avait notamment montré les premiers résultats de son outil Phenaki. Le rendu était flou, les formes un peu étranges, mais déjà une IA était capable de créer un petit film à partir d'un bout de texte. Quelques mois plus tard, des logiciels comme Gen2 de Runway, Stable Diffusion Video, ou Pika 1.0 de Pika Labs permettaient d'avoir des rendus plus léchés, bien que générant toujours des aberrations visuelles.
Des résultats photoréalistes et fidèles au prompt
L'IA d'OpenAI impressionne dans son photoréalisme, la consistance du rendu et la fidélité par rapport au prompt entré. L'entreprise s'est appuyé sur des recherches effectuées précédemment pour la mise au point de GPT-4, son grand modèle de langage, et de DALL-E, son générateur d'images. Comme à son habitude, OpenAI (qui n'a décidement plus grand-chose d'« open ») ne dévoile pas le nombre et le type de vidéos nécessaires à l'entraînement de Sora (dont le nom vient du japonais « ciel », pour symboliser la création sans limite).
L'entreprise se targue d'être parvenue à relever certains défis techniques jusqu'ici difficilement surmontables. Par exemple, si le sujet de la vidéo disparaît un temps de l'image, lorsqu'il réapparait, il aura la même apparence. Toutefois, l'entreprise note des défauts : Sora confond la gauche et la droite, et n'est pas capable de bien réaliser certains détails (si une personne mange un biscuit, celui-ci n'aura pas forcément la trace de la morsure).
La capacité (inquiétante) de démocratiser cette technologie
Par ailleurs, OpenAI, dont le principal produit ChatGPT est déjà utilisé par 100 millions d'utilisateurs chaque semaine, a la capacité de véritablement démocratiser cette technologie. Cette diffusion à grande échelle soulève d'ailleurs des inquiétudes, notamment en matière de diffusion de la désinformation à l'approche de l'élection présidentielle américaine et des élections européennes. En novembre dernier, l'élection présidentielle argentine a fait office de terrain d'essais.
On y a vu beaucoup d'images de propagande générées par algorithme, mais aussi un deepfake montrant Javier Milei, le candidat finalement élu, faisant l'apologie de la vente d'organes. La technologie d'OpenAI est a priori moins adapté pour mettre en scène un candidat et lui faire prononcer un discours qu'il n'aurait jamais tenu, mais pourrait par exemple servir à produire des scènes n'ayant jamais eu lieu.
Sujets les + commentés