En mars 2023, un Will Smith difforme mange goulument un plat de spaghetti qui semble ne jamais se vider. Cette vidéo étrange, presque cauchemardesque, étonne le Web. L'extrait original est publié d'abord sur un forum Reddit puis repartagé sur X (ex Twitter) où elle est vue plus près de 10 millions de fois. Elle devient en quelques jours le symbole des débuts de la vidéo générée par IA. Pour produire ces images, son créateur s'est servi d'un modèle d'IA hébergé sur Modelscope, la plateforme du chinois Alibaba lancée fin 2022.
Will Smith dévorant des spaghettis, le mètre étalon
Cet algorithme a été entraîné sur des millions d'images et des milliers de vidéos récupérées via des bases de données de référence comme ImageNet. La vidéo de 20 secondes met en fait bout à bout de très courtes vidéos de 2 secondes, précise le média Ars Technica. Le résultat rassure les internautes : si les images fixes générées par IA commencent à nous tromper -celle du Pape portant une doudoune blanche circule à la même période- la vidéo elle, par son rendu maladroit, n'en est pas là.
La fausse vidéo de Will Smith est devenue pour certains une sorte de mètre étalon pour évaluer les progrès de la technologie text-to-video. C'est-à-dire les algorithmes capables de produire des images animées à partir d'un simple prompt (un texte descriptif). Will Smith et ses spaghettis servent à comparer la qualité des rendus des nouveaux logiciels. Plusieurs observateurs remarquent ainsi que les vidéos au style léché de Sora, le modèle d'OpenAI sorti la semaine dernière, n'arrivent qu'un an après celle plus brouillon de l'acteur avalant ses pates.
Sora et l'aperçu d'un cinéma généré par IA
Peu de temps après la présentation de Sora par l'entreprise de Sam Altman, récemment valorisée à 80 milliards de dollars, Will Smith lui-même poste la vidéo aux côtés d'une autre bien plus réaliste où on le voit manger. Il l'accompagne du commentaire lapidaire : « cela devient incontrôlable ». La seconde vidéo n'a, en fait, pas été générée par IA. Elle est bien réelle. Mais elle est repartagée par d'autres comptes comme telle, et certains internautes finissent par s'y perdre, voulant y voir les avancées époustouflantes de la technologie.
Car les vidéos mises en ligne par OpenAI ont de quoi bluffer. On y trouve un travelling d'un couple se promenant dans une rue bordée de cerisiers, deux golden retrievers en train d'enregistrer un podcast en pleine montagne, de fausses images d'archive de la Californie pendant le Gold Rush... Sur les réseaux sociaux, de nombreux internautes y voient un moment de rupture, annonçant la fin du cinéma, et même de la réalité (si une image très réaliste peut être créée en quelques clics, comment reconnaître le faux du vrai ?).
Synthetic Summer, la fausse pub effrayante
Depuis Will Smith et avant Sora, d'autres vidéos entièrement générées à l'aide d'un simple texte avaient déjà soufflé le Web. Au printemps 2023, une vidéo, baptisée Synthetic Summer, devient virale. On y voit un groupe de jeunes personnes buvant de la bière servie dans des contenants aux formes peu conventionnelles, à grand renfort de mimiques aberrantes. Ils festoient autour d'un barbecue qui finit par s'enflammer.
Malgré les étrangetés visuelles, on y suit une mini histoire. La « caméra » change plusieurs fois d'angles, mais les images conservent une certaine cohérence esthétique. La vidéo, produite par l'agence publicitaire londonienne Private Island est présentée comme une fausse publicité pour de la bière. Au total plus de 20 minutes d'images ont été générées, mais seules 30 secondes ont été conservées au montage final, précise Chris Boyle, fondateur de l'agence, au site Little Black Book. Il explique avoir utilisé plusieurs outils : Modelscope (cité plus haut), mais aussi Gen2 de l'entreprise Runway, en bonne position sur ce marché avec une levée de fonds de série C de 141 millions de dollars signée cet été auprès de gros investisseurs comme Google et Nvidia, et Stable Diffusion, son concurrent européen.
La fausse bande-annonce d'Heidi, ou quand les cinéastes s'essaient à la technologie
Nouveau coup d'éclat de la technologie à l'été 2023 avec une fausse bande-annonce. Elle met en scène le pays pas si féérique de Heidi. Une petite fille au sourire démoniaque court au milieu des montagnes, des vaches volantes et de chevaux difformes... Le comédien et producteur Patrick Karpiczenko s'est amusé à créer ce trailer à l'aide de Runway Gen2. Et la vidéo semble tout droit sorti d'un cauchemar. Sur X où elle a été publiée en juillet 2023, elle a été vue plus de 19 millions de fois. Encore une fois, c'est par ses imperfections et son esthétique dérangeante que la vidéo marque les esprits, plus que par sa capacité à nous tromper quant à son origine synthétique.
Les images façon Pixar de Pika Labs
Changement d'esthétique avec Pika Labs, qui partage en novembre 2023 une vidéo présentant sa technologie Pika 1.0. Comme les exemples cités précédemment, la startup permet de produire des images animées à partir d'un texte. Mais Pika Labs s'affranchit de l'étrangeté en proposant dans un premier temps des images proches des dessin animé. Elle montre notamment un Elon Musk cosmonaute façon Pixar.
Cette démonstration remarquée fait suite à la levée de fonds de 35 millions de dollars en série A de la startup. La fondatrice de cette dernière s'est lancée sur le sujet après avoir été déçue par la technologie de Runway. Il est possible de tester gratuitement le modèle de Pika, en générant à partir d'un prompt des vidéos de 3 secondes. Il faut ensuite payer 8 ou 28 dollars par mois pour obtenir plus de crédits. Et s'il est possible de tester gratuitement le modèle de Pika, en générant à partir d'un prompt des vidéos de 3 secondes, on se rend vite compte des limites. Les personnages sont bien moins lisses et crédibles que ceux de la vidéo de présentation de la jeune pousse.
Un emballement médiatique bienvenu pour OpenAI
Plusieurs observateurs tiennent toutefois à calmer l'emballement médiatique autour de la technologie. En particulier concernant Sora, qui apparaît de prime abord comme une rupture. Certes les vidéos sont loin de l'esthétique cauchemardesque des débuts, mais lorsqu'on s'y attarde un peu plus longuement, on constate bien des aberrations visuelles : une chaise subitement en apesanteur, des bras et des jambes qui disparaissent puis réapparaissent...
Par ailleurs, le programme n'étant pour le moment pas accessible au plus grand nombre, l'entreprise nous montre les résultats qu'elle sélectionne. Et elle ne publie pas les données d'entraînement du modèle ni les caractéristiques de son fonctionnement.
Dans sa newsletter Blood in the Machine, le journaliste américain Brian Merchant rappelle qu'OpenAI a tout intérêt à forcer sur le côté époustouflant de sa technologie. Son produit phare, ChatGPT, est en perte de vitesse. Selon les données de SimilarWeb, le nombre de visites a été divisé par 5 ces 8 derniers mois.
Par ailleurs, l'entreprise est à la recherche de revenus pour maintenir les coûts de fonctionnement pharaoniques de ces outils. Selon The Information, faire tourner ses serveurs lui coûtaient plus d'un million de dollars par jour en 2023. Il y a quelques jours, Sam Altman a annoncé chercher 7 000 milliards de dollars pour fabriquer des puces. Sa firme a donc tout intérêt à attirer de nouveaux l'attention du grand public et des investisseurs. De quoi remettre en perspective l'effet « wahou » de son annonce.
Sujets les + commentés