Avec Sora, OpenAI entre dans la course à la vidéo générée par IA

L'entreprise de Sam Altman a dévoilé les prouesses de son ChatGPT vidéo, qui bluffe par son photoréalisme et inquiète quant à sa capacité à générer de faux contenus.

Marine Protais

16 Févr 2024, 13:13

Une femme déambulant dans les rues de Tokyo, deux bateaux pirates naviguant dans une tasse de café, des chiots labradors s'ébrouant dans la neige.... Jeudi soir sur X, de courtes vidéos (ne dépassant pas la minute) ont circulé sous l'œil fasciné et alarmé des utilisateurs. « Incroyable », « un nouveau monde », « le cinéma est mort », peut-on notamment lire en commentaires.

Ces images sont l'œuvre de Sora, la nouvelle intelligence artificielle d'OpenAI, le créateur de ChatGPT. A partir d'un simple prompt (un court texte descriptif), Sora peut générer en quelques minutes une séquence vidéo. Le modèle est également capable d'animer une image fixe ou de rallonger une vidéo existante de courte durée.

https://t.co/rPqToLo6J3 pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024

Un accès limité pour le moment

Pour le moment, ce programme n'est pas accessible au grand public. Seuls quelques artistes, designers et réalisateurs peuvent l'utiliser, précise OpenAI sur son site, ainsi que des experts spécialistes des biais et de la désinformation. Objectif, tester les garde-fous et détecter d'éventuelles failles. Mais pour montrer les performances de l'outil aux internautes, Sam Altman, le PDG d'OpenAI, a lancé un appel aux prompts sur le réseau social X le 15 février, proposant de publier ensuite les résultats.

Sora sera loin d'être le premier algorithme dit text-to-video (du texte à la vidéo) disponible sur le marché. Les premières expérimentations datent de fin 2022. Google avait notamment montré les premiers résultats de son outil Phenaki. Le rendu était flou, les formes un peu étranges, mais déjà une IA était capable de créer un petit film à partir d'un bout de texte. Quelques mois plus tard, des logiciels comme Gen2 de Runway, Stable Diffusion Video, ou Pika 1.0 de Pika Labs permettaient d'avoir des rendus plus léchés, bien que générant toujours des aberrations visuelles.

Des résultats photoréalistes et fidèles au prompt

L'IA d'OpenAI impressionne dans son photoréalisme, la consistance du rendu et la fidélité par rapport au prompt entré. L'entreprise s'est appuyé sur des recherches effectuées précédemment pour la mise au point de GPT-4, son grand modèle de langage, et de DALL-E, son générateur d'images. Comme à son habitude, OpenAI (qui n'a décidement plus grand-chose d'« open ») ne dévoile pas le nombre et le type de vidéos nécessaires à l'entraînement de Sora (dont le nom vient du japonais « ciel », pour symboliser la création sans limite).

WALKING IN TOKYO#SoraArt - #SoraAI by #OpenAI pic.twitter.com/pjHzwfGLnR
— Laurent Lequien (@laurentlequien) February 16, 2024

L'entreprise se targue d'être parvenue à relever certains défis techniques jusqu'ici difficilement surmontables. Par exemple, si le sujet de la vidéo disparaît un temps de l'image, lorsqu'il réapparait, il aura la même apparence. Toutefois, l'entreprise note des défauts : Sora confond la gauche et la droite, et n'est pas capable de bien réaliser certains détails (si une personne mange un biscuit, celui-ci n'aura pas forcément la trace de la morsure).

La capacité (inquiétante) de démocratiser cette technologie

Par ailleurs, OpenAI, dont le principal produit ChatGPT est déjà utilisé par 100 millions d'utilisateurs chaque semaine, a la capacité de véritablement démocratiser cette technologie. Cette diffusion à grande échelle soulève d'ailleurs des inquiétudes, notamment en matière de diffusion de la désinformation à l'approche de l'élection présidentielle américaine et des élections européennes. En novembre dernier, l'élection présidentielle argentine a fait office de terrain d'essais.

On y a vu beaucoup d'images de propagande générées par algorithme, mais aussi un deepfake montrant Javier Milei, le candidat finalement élu, faisant l'apologie de la vente d'organes. La technologie d'OpenAI est a priori moins adapté pour mettre en scène un candidat et lui faire prononcer un discours qu'il n'aurait jamais tenu, mais pourrait par exemple servir à produire des scènes n'ayant jamais eu lieu.

Sujets les + lus

Sujets les + commentés

Emploi : les vraies raisons des vagues de départs des salariés français

Affaire Abbé Pierre : « Ceux qui minimisent se trompent » (Christophe Robert, délégué général de la Fondation Abbé Pierre)

Les énergies renouvelables coûteront six fois plus cher que prévu à l'Etat en 2024

En France, les prix de marché de l’électricité resteront déterminés par ceux du gaz, affirme RTE

La chaîne C8 paye au prix fort ses dérapages et perd sa fréquence TNT

Commentaires 3

Dossier 51 à écrit le 17/02/2024 à 8:54

Signaler

Bon ben ça va alors, ils osnt encore vraiment très loin du but ! LOL ! ^^

Panoramix à écrit le 16/02/2024 à 18:18

Signaler

Rien n'oblige l'humanité à s'autodétruire ou à s'autoremplacer, excepté un projet politique mondial planifié depuis des décennies.

Jason13 à écrit le 16/02/2024 à 16:44

Signaler

Fabuleux, un nouveau monde du cinéma est en marche, les scénaristes vont devenir les nouveaux maîtres du cinéma ,mais pour ce qui est des acteurs réalisateurs cameramen etc sale temps🤣

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Informatique

Avec Sora, OpenAI entre dans la course à la vidéo générée par IA

Un accès limité pour le moment

Des résultats photoréalistes et fidèles au prompt

La capacité (inquiétante) de démocratiser cette technologie

Newsletter - Tech & Médias