OPINION. « Quand le chat avalera le perroquet »
latribune.fr

Illustration
Pixabay/garten-gg
latribune.fr

Illustration
Pixabay/garten-gg
Par Philippe Boyer, directeur relations institutionnelles et innovation à Covivio.
Il fallait à cette chronique un titre à la hauteur de la promesse technologique du moment. D’un côté, des machines qui donnent l’impression de comprendre alors qu’elles recombinent statistiquement des unités de langage (token) injectées dans leurs programmes (algorithmes), sortes de « perroquets stochastiques » selon la métaphore un peu sévère utilisée par Emily Bender dans un article célèbre de 2021. De l’autre, un « chat », en référence aux propos du chercheur et entrepreneur français Yann LeCun, pour qui cet animal est mille fois plus intelligent que les machines actuelles.
Et cela en raison du fait qu’un chat sait intuitivement se repérer dans l’espace, anticiper une chute, contourner un obstacle et plus largement apprendre par interaction avec son environnement. Certes, l’animal n’a, sauf peut-être dans Alice au pays des merveilles…, aucune disposition pour rédiger un texte à la vitesse de l’éclair ou créer une image originale, mais au moins comprend-il le réel qui l’entoure à la différence de nos robots conversationnels qui, quand bien même seraient-ils dotés de bras ou de jambes, resteraient pétrifiés devant l’inattendu. Pour le dire vite, là où le perroquet verbalise, le chat se situe. Là où le premier répète, le second s’adapte.
Depuis l’apparition grand public de ChatGPT et des nombreux autres chatbots désormais à notre disposition (Claude, Gemini, Copilot, sans oublier notre « Le chat » national, développé par Mistral AI), nous nous sommes habitués à considérer la maîtrise du langage pour une preuve d’éloquence et d’intelligence. Nous admirons ces systèmes capables d’écrire comme nous, parfois mieux que nous, et en avons presque oublié la question de départ : ces machines comprennent-elles ce dont elles « parlent » ? Pour Yann LeCun, qui vient de lancer la start-up AMI après avoir bouclé une première levée de fonds de 890 millions d’euros, la réponse est « non ». Et c’est de cette insatisfaction technologique qu’est né ce projet de créer une « autre » forme d’intelligence artificielle qui pourrait, elle, serait capable de comprendre le monde, c’est-à-dire de sortir du plan 2D pour se projeter dans des univers 3D tels que nous humains les percevons.
Si les grands modèles de langage ont bouleversé nos usages parce qu’ils ont donné à l’IA une forme sensible via un dialogue naturel, leurs fondations technologiques reposent sur la prédictibilité. Grâce à des milliards de mots emmagasinés à partir de masses textuelles gigantesques, ils sont capables de répondre à nos questions comme s’ils « savaient ». De là vient leur puissance. De là viennent aussi leurs limites. Ces systèmes sont certes capables de conceptualiser beaucoup de choses sur ce que les humains ont écrit et décrit sur le monde mais ils ne connaissent pas l’ontologie de ce dernier. Ils peuvent certes décrire une tasse qui se fracasse sur le sol en allant piocher des références dans leur immense corpus mais n’ont aucune idée de ce que représente concrètement la force gravitationnelle. Ils peuvent expliquer une manœuvre, un geste médical, un déplacement dans l’espace mais ils n’en font pas l’expérience comme une suite de contraintes, de causes, d’effets et de corrections. C’est précisément pour envisager une machine qui un jour pourrait débarrasser la table en faisant attention à ne rien laisser tomber car aurait anticipé qu’une assiette qui tombe a pour effet de se briser, que les travaux de la startup AMI, mais aussi de Google Deepmind ou de World Labs, entrent en scène.
L’idée de départ ? Les « world models » ou « modèles de mondes ». L’apparente froideur du terme cache une idée presque enfantine dans sa formulation : il ne s’agit plus seulement de demander à une IA de type générative “que dire maintenant ?”, mais “que se passera-t-il si j’agis ainsi ?” Tout change dans ce déplacement car on passe du prolongement discursif à l’anticipation causale, du commentaire à la simulation, de la phrase à la séquence d’actions.
L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

Dans cette perspective, une IA ne serait plus tenue d’apprendre uniquement sur des corpus de textes, mais aussi à partir d’images, de sons ou de vidéos. L’enjeu consistant à lui donner une forme de physique intuitive, une capacité à bâtir une représentation interne du monde suffisante pour prévoir des conséquences, planifier, corriger, choisir. Si en psychologie, cela se rapproche de la notion de « modèle mental », en robotique, cela devient une condition pratique de toute autonomie. A l’instar d’un nourrisson, qui pousse son biberon au bord de la table et découvre qu’un geste produit un effet, les world models ambitionnent de donner à la machine quelque chose de cet ordre : non une encyclopédie du réel, mais une capacité à agir en intégrant régularités et irrégularités de notre environnement.
La route sera forcément longue avant de parvenir aux développements opérationnels de ces « modèles de mondes ». De l’avis même de Yann LeCun, qui préfère parler de JOPA (Joint Embedding Predictive Architecture / Architecture prédictive à intégration conjointe), il ne s’agira pas d’un simple saut de génération comparable à celui des chatbots car l’idée consistera à faire apprendre à la machine non plus seulement la suite la plus probable d’une phrase, mais la structure sous-jacente d’une situation : ce qui, dans un environnement donné, est stable, ce qui peut varier, ce qui risque d’arriver ensuite si telle ou telle variable change.
Concrètement, cela supposera d’entraîner ces systèmes sur un grand nombre de flux d’images, de vidéos et de sons afin qu’ils se forgent une représentation intelligible du réel. En l’espèce, et à force d’observer qu’un objet masqué continue d’exister, qu’un déplacement produit une trajectoire, qu’un geste entraîne une conséquence, l’IA pourrait enregistrer tous ces phénomènes physiques pour ensuite avoir la capacité de les reconnaitre et de les respecter ou de les contourner. Nous n’en sommes encore qu’au début car au-delà des architectures de ces algorithmes, ces « world models » nécessiteront par ailleurs de formidables puissances de calcul couplés à des microprocesseurs aux performances sans faille pour que cette IA qui « comprend » puisse se déployer.
Au-delà de la prouesse technologique consistant à doter la machine d’une compréhension du monde, les débouchés concrets de ces world models sont nombreux : en robotique, permettre à des machines d’apprendre à se déplacer, saisir, éviter ou corriger leurs gestes (on voit d’ici les milles déclinaisons possibles en matière de robotique humanoïdes à destination des personnes âgées, par exemple) ; dans l’automobile, nourrir des systèmes de conduite plus aptes à anticiper les comportements et les situations rares (le véhicule autonome pourrait enfin voir concrètement le jour); dans l’industrie, offrir des capacités accrues de simulation, de maintenance prédictive et d’optimisation de chaînes complexes ; dans la santé, aider à modéliser l’évolution d’un organe, d’un traitement ou d’un geste médical ; dans les univers de la réalité augmentée, du jeu vidéo ou du cinéma, ouvrir la voie à des environnements interactifs nettement plus cohérents et surtout persistants et adaptatifs. On le voit, de tels modèles ne promettent pas seulement une IA qui parle encore et toujours mieux mais qui soit capable de comprendre et d’anticiper.
Si tout cela ouvre de nouveaux horizons, il convient sans doute de garder la tête froide. Comme souvent en matière d’IA, les concepts avancent plus vite que les démonstrations stabilisées. Entre une architecture prometteuse, une levée de fonds record et des produits fiables, il y a encore un monde à franchir dans lequel les coûts de calcul restent gigantesques et les besoins en données de qualité considérables. Mais c’est peut-être ce qui rend ce moment si intéressant du fait que nous n’assistons pas tant à la disparition des LLM de ces IA génératives qu’à leur relativisation.
Si ces dernières ont rendu l’IA visible et familière, elles ont aussi ouvert la porte à une ambition nettement plus large : modéliser le monde. L’avenir proche dira si le chat n’a fait qu’une bouchée du perroquet ou si le volatile bavard aura conservé toute sa superbe.
latribune.fr