IA : de « Will Smith qui mange des pâtes » au photoréalisme d’OpenAI, la course au ChatGPT de la vidéo

Il y a quelques jours, OpenAI, le créateur de ChatGPT, bluffait les internautes avec les productions de Sora, son nouveau modèle d’intelligence artificielle. Ces vidéos au rendu très réaliste ont vite été comparées à l’esthétique cauchemardesque des premières images générées à partir d’un simple texte, diffusées il y a un an. Retour sur les vidéos virales qui ont marqué la courte histoire de cette technologie.

Marine Protais

21 Févr 2024, 16:08

La fausse vidéo de Will Smith mangeant un plat de spaghetti a été vue plus près de 10 millions de fois. (Crédits : Capture d'écran Sora)

En mars 2023, un Will Smith difforme mange goulument un plat de spaghetti qui semble ne jamais se vider. Cette vidéo étrange, presque cauchemardesque, étonne le Web. L'extrait original est publié d'abord sur un forum Reddit puis repartagé sur X (ex Twitter) où elle est vue plus près de 10 millions de fois. Elle devient en quelques jours le symbole des débuts de la vidéo générée par IA. Pour produire ces images, son créateur s'est servi d'un modèle d'IA hébergé sur Modelscope, la plateforme du chinois Alibaba lancée fin 2022.

Will Smith dévorant des spaghettis, le mètre étalon

Cet algorithme a été entraîné sur des millions d'images et des milliers de vidéos récupérées via des bases de données de référence comme ImageNet. La vidéo de 20 secondes met en fait bout à bout de très courtes vidéos de 2 secondes, précise le média Ars Technica. Le résultat rassure les internautes : si les images fixes générées par IA commencent à nous tromper -celle du Pape portant une doudoune blanche circule à la même période- la vidéo elle, par son rendu maladroit, n'en est pas là.

This is getting out of hand!

- Will Smith pic.twitter.com/hHxqB07xC1
— Will Smith (@WillSmith2real) February 19, 2024

La fausse vidéo de Will Smith est devenue pour certains une sorte de mètre étalon pour évaluer les progrès de la technologie text-to-video. C'est-à-dire les algorithmes capables de produire des images animées à partir d'un simple prompt (un texte descriptif). Will Smith et ses spaghettis servent à comparer la qualité des rendus des nouveaux logiciels. Plusieurs observateurs remarquent ainsi que les vidéos au style léché de Sora, le modèle d'OpenAI sorti la semaine dernière, n'arrivent qu'un an après celle plus brouillon de l'acteur avalant ses pates.

Sora et l'aperçu d'un cinéma généré par IA

Peu de temps après la présentation de Sora par l'entreprise de Sam Altman, récemment valorisée à 80 milliards de dollars, Will Smith lui-même poste la vidéo aux côtés d'une autre bien plus réaliste où on le voit manger. Il l'accompagne du commentaire lapidaire : « cela devient incontrôlable ». La seconde vidéo n'a, en fait, pas été générée par IA. Elle est bien réelle. Mais elle est repartagée par d'autres comptes comme telle, et certains internautes finissent par s'y perdre, voulant y voir les avancées époustouflantes de la technologie.

Car les vidéos mises en ligne par OpenAI ont de quoi bluffer. On y trouve un travelling d'un couple se promenant dans une rue bordée de cerisiers, deux golden retrievers en train d'enregistrer un podcast en pleine montagne, de fausses images d'archive de la Californie pendant le Gold Rush... Sur les réseaux sociaux, de nombreux internautes y voient un moment de rupture, annonçant la fin du cinéma, et même de la réalité (si une image très réaliste peut être créée en quelques clics, comment reconnaître le faux du vrai ?).

Synthetic Summer, la fausse pub effrayante

Depuis Will Smith et avant Sora, d'autres vidéos entièrement générées à l'aide d'un simple texte avaient déjà soufflé le Web. Au printemps 2023, une vidéo, baptisée Synthetic Summer, devient virale. On y voit un groupe de jeunes personnes buvant de la bière servie dans des contenants aux formes peu conventionnelles, à grand renfort de mimiques aberrantes. Ils festoient autour d'un barbecue qui finit par s'enflammer.

🍻 AI takes on advertising! 🍻

Co-founder Chris Boyle at Private Island: "Synthetic Summer is a machine learning interpretation of an American beer advert. It features no real people and is generated entirely from text prompts." 🤖

What are your thoughts on this? pic.twitter.com/9StSR6rU0U
— Josue ✪ (@Josue_DigitalAI) May 5, 2023

Malgré les étrangetés visuelles, on y suit une mini histoire. La « caméra » change plusieurs fois d'angles, mais les images conservent une certaine cohérence esthétique. La vidéo, produite par l'agence publicitaire londonienne Private Island est présentée comme une fausse publicité pour de la bière. Au total plus de 20 minutes d'images ont été générées, mais seules 30 secondes ont été conservées au montage final, précise Chris Boyle, fondateur de l'agence, a u site Little Black Book. Il explique avoir utilisé plusieurs outils : Modelscope (cité plus haut), mais aussi Gen2 de l'entreprise Runway, en bonne position sur ce marché avec une levée de fonds de série C de 141 millions de dollars signée cet été auprès de gros investisseurs comme Google et Nvidia, et Stable Diffusion, son concurrent européen.

La fausse bande-annonce d'Heidi, ou quand les cinéastes s'essaient à la technologie

Nouveau coup d'éclat de la technologie à l'été 2023 avec une fausse bande-annonce. Elle met en scène le pays pas si féérique de Heidi. Une petite fille au sourire démoniaque court au milieu des montagnes, des vaches volantes et de chevaux difformes... Le comédien et producteur Patrick Karpiczenko s'est amusé à créer ce trailer à l'aide de Runway Gen2. Et la vidéo semble tout droit sorti d'un cauchemar. Sur X où elle a été publiée en juillet 2023, elle a été vue plus de 19 millions de fois. Encore une fois, c'est par ses imperfections et son esthétique dérangeante que la vidéo marque les esprits, plus que par sa capacité à nous tromper quant à son origine synthétique.

I've asked an AI to generate a trailer for a HEIDI movie and now I can never sleep again pic.twitter.com/8M9t726hrI
— Karpi (@karpi) July 10, 2023

Les images façon Pixar de Pika Labs

Changement d'esthétique avec Pika Labs, qui partage en novembre 2023 une vidéo présentant sa technologie Pika 1.0. Comme les exemples cités précédemment, la startup permet de produire des images animées à partir d'un texte. Mais Pika Labs s'affranchit de l'étrangeté en proposant dans un premier temps des images proches des dessin animé. Elle montre notamment un Elon Musk cosmonaute façon Pixar.

Introducing Pika 1.0, the idea-to-video platform that brings your creativity to life.

Create and edit your videos with AI.

Rolling out to new users on web and discord, starting today. Sign up at https://t.co/JHRrinsIwx pic.twitter.com/Rve3I2FzmK
— Pika (@pika_labs) November 28, 2023

Cette démonstration remarquée fait suite à la levée de fonds de 35 millions de dollars en série A de la startup. La fondatrice de cette dernière s'est lancée sur le sujet après avoir été déçue par la technologie de Runway. Il est possible de tester gratuitement le modèle de Pika, en générant à partir d'un prompt des vidéos de 3 secondes. Il faut ensuite payer 8 ou 28 dollars par mois pour obtenir plus de crédits. Et s'il est possible de tester gratuitement le modèle de Pika, en générant à partir d'un prompt des vidéos de 3 secondes, on se rend vite compte des limites. Les personnages sont bien moins lisses et crédibles que ceux de la vidéo de présentation de la jeune pousse.

Un emballement médiatique bienvenu pour OpenAI

Plusieurs observateurs tiennent toutefois à calmer l'emballement médiatique autour de la technologie. En particulier concernant Sora, qui apparaît de prime abord comme une rupture. Certes les vidéos sont loin de l'esthétique cauchemardesque des débuts, mais lorsqu'on s'y attarde un peu plus longuement, on constate bien des aberrations visuelles : une chaise subitement en apesanteur, des bras et des jambes qui disparaissent puis réapparaissent...

Par ailleurs, le programme n'étant pour le moment pas accessible au plus grand nombre, l'entreprise nous montre les résultats qu'elle sélectionne. Et elle ne publie pas les données d'entraînement du modèle ni les caractéristiques de son fonctionnement.

Dans sa newsletter Blood in the Machine, le journaliste américain Brian Merchant rappelle qu'OpenAI a tout intérêt à forcer sur le côté époustouflant de sa technologie. Son produit phare, ChatGPT, est en perte de vitesse. Selon les données de SimilarWeb, le nombre de visites a été divisé par 5 ces 8 derniers mois.

Par ailleurs, l'entreprise est à la recherche de revenus pour maintenir les coûts de fonctionnement pharaoniques de ces outils. Selon The Information, faire tourner ses serveurs lui coûtaient plus d'un million de dollars par jour en 2023. Il y a quelques jours, Sam Altman a annoncé chercher 7 000 milliards de dollars pour fabriquer des puces. Sa firme a donc tout intérêt à attirer de nouveaux l'attention du grand public et des investisseurs. De quoi remettre en perspective l'effet « wahou » de son annonce.

Sujets les + lus

Sujets les + commentés

Emploi : les vraies raisons des vagues de départs des salariés français

Affaire Abbé Pierre : « Ceux qui minimisent se trompent » (Christophe Robert, délégué général de la Fondation Abbé Pierre)

Les énergies renouvelables coûteront six fois plus cher que prévu à l'Etat en 2024

En France, les prix de marché de l’électricité resteront déterminés par ceux du gaz, affirme RTE

La chaîne C8 paye au prix fort ses dérapages et perd sa fréquence TNT

Commentaires 5

Dossier 51 à écrit le 22/02/2024 à 8:04

Signaler

Géo qui nous fait peur en nous disant que l'IA pourrait terrasser l'humanité en deux ans... on est surtout terrassé pour l'instant par la profonde c.. de la société marchande hein, merci.

churchill à écrit le 21/02/2024 à 19:23

Signaler

wow, impressionnant!!!!!!! si c'est a ca que ca sert l'AI, c'est qu'on ne vient pas du meme monde.......ca va generer des videos tiktok pour illetres, eventuellement faire des videos de propagande, mais bon, ca ca existait deja du temps des vieux med...

Oui mais à écrit le 21/02/2024 à 18:08

Signaler

C'est la fin de l'image... comme l'interdisaient les religions qui ont créé notre civilisation !

VIGINUM à écrit le 21/02/2024 à 16:49

Signaler

💰💵 Combien de milliers de dollars le gauchiste Jacques Attali gagne-t-il en conseillant l'entreprise étasunienne C3.IA au côté de Condoleezza Rice, ancienne secrétaire d'État (USA) du président républicain George W. Bush ⁉️ C3.IA est une entreprise d...

Réponse de Jason13 le 22/02/2024 à 3:28

Signaler

Ah la jalousie 🤣

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Informatique

IA : de « Will Smith qui mange des pâtes » au photoréalisme d’OpenAI, la course au ChatGPT de la vidéo

Will Smith dévorant des spaghettis, le mètre étalon

Sora et l'aperçu d'un cinéma généré par IA

Synthetic Summer, la fausse pub effrayante

La fausse bande-annonce d'Heidi, ou quand les cinéastes s'essaient à la technologie

Les images façon Pixar de Pika Labs

Un emballement médiatique bienvenu pour OpenAI

Newsletter - Tech & Médias