IA : de « Will Smith qui mange des pâtes » au photoréalisme d’OpenAI, la course au ChatGPT de la vidéo

Il y a quelques jours, OpenAI, le créateur de ChatGPT, bluffait les internautes avec les productions de Sora, son nouveau modèle d’intelligence artificielle. Ces vidéos au rendu très réaliste ont vite été comparées à l’esthétique cauchemardesque des premières images générées à partir d’un simple texte, diffusées il y a un an. Retour sur les vidéos virales qui ont marqué la courte histoire de cette technologie.
La fausse vidéo de Will Smith mangeant un plat de spaghetti a été vue plus près de 10 millions de fois.
La fausse vidéo de Will Smith mangeant un plat de spaghetti a été vue plus près de 10 millions de fois. (Crédits : Capture d'écran Sora)

En mars 2023, un Will Smith difforme mange goulument un plat de spaghetti qui semble ne jamais se vider. Cette vidéo étrange, presque cauchemardesque, étonne le Web. L'extrait original est publié d'abord sur un forum Reddit puis repartagé sur X (ex Twitter) où elle est vue plus près de 10 millions de fois. Elle devient en quelques jours le symbole des débuts de la vidéo générée par IA. Pour produire ces images, son créateur s'est servi d'un modèle d'IA hébergé sur Modelscope, la plateforme du chinois Alibaba lancée fin 2022.

Will Smith dévorant des spaghettis, le mètre étalon

Cet algorithme a été entraîné sur des millions d'images et des milliers de vidéos récupérées via des bases de données de référence comme ImageNet. La vidéo de 20 secondes met en fait bout à bout de très courtes vidéos de 2 secondes, précise le média Ars Technica. Le résultat rassure les internautes : si les images fixes générées par IA commencent à nous tromper -celle du Pape portant une doudoune blanche circule à la même période- la vidéo elle, par son rendu maladroit, n'en est pas là.

La fausse vidéo de Will Smith est devenue pour certains une sorte de mètre étalon pour évaluer les progrès de la technologie text-to-video. C'est-à-dire les algorithmes capables de produire des images animées à partir d'un simple prompt (un texte descriptif). Will Smith et ses spaghettis servent à comparer la qualité des rendus des nouveaux logiciels. Plusieurs observateurs remarquent ainsi que les vidéos au style léché de Sora, le modèle d'OpenAI sorti la semaine dernière, n'arrivent qu'un an après celle plus brouillon de l'acteur avalant ses pates.

Lire aussiLes garde-fous des IA génératives ne servent pas à grand-chose

Sora et l'aperçu d'un cinéma généré par IA

Peu de temps après la présentation de Sora par l'entreprise de Sam Altman, récemment valorisée à 80 milliards de dollars, Will Smith lui-même poste la vidéo aux côtés d'une autre bien plus réaliste où on le voit manger. Il l'accompagne du commentaire lapidaire : « cela devient incontrôlable ». La seconde vidéo n'a, en fait, pas été générée par IA. Elle est bien réelle. Mais elle est repartagée par d'autres comptes comme telle, et certains internautes finissent par s'y perdre, voulant y voir les avancées époustouflantes de la technologie.

Car les vidéos mises en ligne par OpenAI ont de quoi bluffer. On y trouve un travelling d'un couple se promenant dans une rue bordée de cerisiers, deux golden retrievers en train d'enregistrer un podcast en pleine montagne, de fausses images d'archive de la Californie pendant le Gold Rush... Sur les réseaux sociaux, de nombreux internautes y voient un moment de rupture, annonçant la fin du cinéma, et même de la réalité (si une image très réaliste peut être créée en quelques clics, comment reconnaître le faux du vrai ?).

Synthetic Summer, la fausse pub effrayante

Depuis Will Smith et avant Sora, d'autres vidéos entièrement générées à l'aide d'un simple texte avaient déjà soufflé le Web. Au printemps 2023, une vidéo, baptisée Synthetic Summer, devient virale. On y voit un groupe de jeunes personnes buvant de la bière servie dans des contenants aux formes peu conventionnelles, à grand renfort de mimiques aberrantes. Ils festoient autour d'un barbecue qui finit par s'enflammer.

Malgré les étrangetés visuelles, on y suit une mini histoire. La « caméra » change plusieurs fois d'angles, mais les images conservent une certaine cohérence esthétique. La vidéo, produite par l'agence publicitaire londonienne Private Island est présentée comme une fausse publicité pour de la bière. Au total plus de 20 minutes d'images ont été générées, mais seules 30 secondes ont été conservées au montage final, précise Chris Boyle, fondateur de l'agence, au site Little Black Book. Il explique avoir utilisé plusieurs outils : Modelscope (cité plus haut), mais aussi Gen2 de l'entreprise Runway, en bonne position sur ce marché avec une levée de fonds de série C de 141 millions de dollars signée cet été auprès de gros investisseurs comme Google et Nvidia, et Stable Diffusion, son concurrent européen.

La fausse bande-annonce d'Heidi, ou quand les cinéastes s'essaient à la technologie

Nouveau coup d'éclat de la technologie à l'été 2023 avec une fausse bande-annonce. Elle met en scène le pays pas si féérique de Heidi. Une petite fille au sourire démoniaque court au milieu des montagnes, des vaches volantes et de chevaux difformes... Le comédien et producteur Patrick Karpiczenko s'est amusé à créer ce trailer à l'aide de Runway Gen2. Et la vidéo semble tout droit sorti d'un cauchemar. Sur X où elle a été publiée en juillet 2023, elle a été vue plus de 19 millions de fois. Encore une fois, c'est par ses imperfections et son esthétique dérangeante que la vidéo marque les esprits, plus que par sa capacité à nous tromper quant à son origine synthétique.

Les images façon Pixar de Pika Labs

Changement d'esthétique avec Pika Labs, qui partage en novembre 2023 une vidéo présentant sa technologie Pika 1.0. Comme les exemples cités précédemment, la startup permet de produire des images animées à partir d'un texte. Mais Pika Labs s'affranchit de l'étrangeté en proposant dans un premier temps des images proches des dessin animé. Elle montre notamment un Elon Musk cosmonaute façon Pixar.

Cette démonstration remarquée fait suite à la levée de fonds de 35 millions de dollars en série A de la startup. La fondatrice de cette dernière s'est lancée sur le sujet après avoir été déçue par la technologie de Runway. Il est possible de tester gratuitement le modèle de Pika, en générant à partir d'un prompt des vidéos de 3 secondes. Il faut ensuite payer 8 ou 28 dollars par mois pour obtenir plus de crédits. Et s'il est possible de tester gratuitement le modèle de Pika, en générant à partir d'un prompt des vidéos de 3 secondes, on se rend vite compte des limites. Les personnages sont bien moins lisses et crédibles que ceux de la vidéo de présentation de la jeune pousse.

Lire aussiNouvelle coqueluche dans l'IA : Pika Labs, le ChatGPT de la vidéo

 Un emballement médiatique bienvenu pour OpenAI

Plusieurs observateurs tiennent toutefois à calmer l'emballement médiatique autour de la technologie. En particulier concernant Sora, qui apparaît de prime abord comme une rupture. Certes les vidéos sont loin de l'esthétique cauchemardesque des débuts, mais lorsqu'on s'y attarde un peu plus longuement, on constate bien des aberrations visuelles : une chaise subitement en apesanteur, des bras et des jambes qui disparaissent puis réapparaissent...

Par ailleurs, le programme n'étant pour le moment pas accessible au plus grand nombre, l'entreprise nous montre les résultats qu'elle sélectionne. Et elle ne publie pas les données d'entraînement du modèle ni les caractéristiques de son fonctionnement.

Lire aussiIntelligence artificielle: OpenAI (ChatGPT) valorisée 80 milliards de dollars

Dans sa newsletter Blood in the Machine, le journaliste américain Brian Merchant rappelle qu'OpenAI a tout intérêt à forcer sur le côté époustouflant de sa technologie. Son produit phare, ChatGPT, est en perte de vitesse. Selon les données de SimilarWeb, le nombre de visites a été divisé par 5 ces 8 derniers mois.

Par ailleurs, l'entreprise est à la recherche de revenus pour maintenir les coûts de fonctionnement pharaoniques de ces outils. Selon The Information, faire tourner ses serveurs lui coûtaient plus d'un million de dollars par jour en 2023. Il y a quelques jours, Sam Altman a annoncé chercher 7 000 milliards de dollars pour fabriquer des puces. Sa firme a donc tout intérêt à attirer de nouveaux l'attention du grand public et des investisseurs. De quoi remettre en perspective l'effet « wahou » de son annonce.

Sujets les + lus

|

Sujets les + commentés

Commentaires 5
à écrit le 22/02/2024 à 8:04
Signaler
Géo qui nous fait peur en nous disant que l'IA pourrait terrasser l'humanité en deux ans... on est surtout terrassé pour l'instant par la profonde c.. de la société marchande hein, merci.

à écrit le 21/02/2024 à 19:23
Signaler
wow, impressionnant!!!!!!! si c'est a ca que ca sert l'AI, c'est qu'on ne vient pas du meme monde.......ca va generer des videos tiktok pour illetres, eventuellement faire des videos de propagande, mais bon, ca ca existait deja du temps des vieux med...

à écrit le 21/02/2024 à 18:08
Signaler
C'est la fin de l'image... comme l'interdisaient les religions qui ont créé notre civilisation !

à écrit le 21/02/2024 à 16:49
Signaler
💰💵 Combien de milliers de dollars le gauchiste Jacques Attali gagne-t-il en conseillant l'entreprise étasunienne C3.IA au côté de Condoleezza Rice, ancienne secrétaire d'État (USA) du président républicain George W. Bush ⁉️ C3.IA est une entreprise d...

le 22/02/2024 à 3:28
Signaler
Ah la jalousie 🤣

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.