OPINION. « Quand le chat avalera le perroquet »

latribune.fr

Publié le 28 mars 2026 à 08:10

Illustration

Pixabay/garten-gg

Ajouter La Tribune à vos sources préférées

HOMO NUMERICUS. Après les prouesses verbales des IA génératives, une autre révolution se prépare : celle d’une intelligence artificielle capable de modéliser le monde.

Par Philippe Boyer, directeur relations institutionnelles et innovation à Covivio.

Il fallait à cette chronique un titre à la hauteur de la promesse technologique du moment. D’un côté, des machines qui donnent l’impression de comprendre alors qu’elles recombinent statistiquement des unités de langage (token) injectées dans leurs programmes (algorithmes), sortes de « perroquets stochastiques » selon la métaphore un peu sévère utilisée par Emily Bender dans un article célèbre de 2021. De l’autre, un « chat », en référence aux propos du chercheur et entrepreneur français Yann LeCun, pour qui cet animal est mille fois plus intelligent que les machines actuelles.

Et cela en raison du fait qu’un chat sait intuitivement se repérer dans l’espace, anticiper une chute, contourner un obstacle et plus largement apprendre par interaction avec son environnement. Certes, l’animal n’a, sauf peut-être dans Alice au pays des merveilles…, aucune disposition pour rédiger un texte à la vitesse de l’éclair ou créer une image originale, mais au moins comprend-il le réel qui l’entoure à la différence de nos robots conversationnels qui, quand bien même seraient-ils dotés de bras ou de jambes, resteraient pétrifiés devant l’inattendu. Pour le dire vite, là où le perroquet verbalise, le chat se situe. Là où le premier répète, le second s’adapte.

Passer du 2D au 3D

Depuis l’apparition grand public de ChatGPT et des nombreux autres chatbots désormais à notre disposition (Claude, Gemini, Copilot, sans oublier notre « Le chat » national, développé par Mistral AI), nous nous sommes habitués à considérer la maîtrise du langage pour une preuve d’éloquence et d’intelligence. Nous admirons ces systèmes capables d’écrire comme nous, parfois mieux que nous, et en avons presque oublié la question de départ : ces machines comprennent-elles ce dont elles « parlent » ? Pour Yann LeCun, qui vient de lancer la start-up AMI après avoir bouclé une première levée de fonds de 890 millions d’euros, la réponse est « non ». Et c’est de cette insatisfaction technologique qu’est né ce projet de créer une « autre » forme d’intelligence artificielle qui pourrait, elle, serait capable de comprendre le monde, c’est-à-dire de sortir du plan 2D pour se projeter dans des univers 3D tels que nous humains les percevons.

Force gravitationnelle

Si les grands modèles de langage ont bouleversé nos usages parce qu’ils ont donné à l’IA une forme sensible via un dialogue naturel, leurs fondations technologiques reposent sur la prédictibilité. Grâce à des milliards de mots emmagasinés à partir de masses textuelles gigantesques, ils sont capables de répondre à nos questions comme s’ils « savaient ». De là vient leur puissance. De là viennent aussi leurs limites. Ces systèmes sont certes capables de conceptualiser beaucoup de choses sur ce que les humains ont écrit et décrit sur le monde mais ils ne connaissent pas l’ontologie de ce dernier. Ils peuvent certes décrire une tasse qui se fracasse sur le sol en allant piocher des références dans leur immense corpus mais n’ont aucune idée de ce que représente concrètement la force gravitationnelle. Ils peuvent expliquer une manœuvre, un geste médical, un déplacement dans l’espace mais ils n’en font pas l’expérience comme une suite de contraintes, de causes, d’effets et de corrections. C’est précisément pour envisager une machine qui un jour pourrait débarrasser la table en faisant attention à ne rien laisser tomber car aurait anticipé qu’une assiette qui tombe a pour effet de se briser, que les travaux de la startup AMI, mais aussi de Google Deepmind ou de World Labs, entrent en scène.

Du mot au monde

L’idée de départ ? Les « world models » ou « modèles de mondes ». L’apparente froideur du terme cache une idée presque enfantine dans sa formulation : il ne s’agit plus seulement de demander à une IA de type générative “que dire maintenant ?”, mais “que se passera-t-il si j’agis ainsi ?” Tout change dans ce déplacement car on passe du prolongement discursif à l’anticipation causale, du commentaire à la simulation, de la phrase à la séquence d’actions.

Newsletter

Ma Tribune

L’actualité qui compte pour vous, chaque jour dans votre boîte mail.

Dans cette perspective, une IA ne serait plus tenue d’apprendre uniquement sur des corpus de textes, mais aussi à partir d’images, de sons ou de vidéos. L’enjeu consistant à lui donner une forme de physique intuitive, une capacité à bâtir une représentation interne du monde suffisante pour prévoir des conséquences, planifier, corriger, choisir. Si en psychologie, cela se rapproche de la notion de « modèle mental », en robotique, cela devient une condition pratique de toute autonomie. A l’instar d’un nourrisson, qui pousse son biberon au bord de la table et découvre qu’un geste produit un effet, les world models ambitionnent de donner à la machine quelque chose de cet ordre : non une encyclopédie du réel, mais une capacité à agir en intégrant régularités et irrégularités de notre environnement.

La route est longue

La route sera forcément longue avant de parvenir aux développements opérationnels de ces « modèles de mondes ». De l’avis même de Yann LeCun, qui préfère parler de JOPA (Joint Embedding Predictive Architecture / Architecture prédictive à intégration conjointe), il ne s’agira pas d’un simple saut de génération comparable à celui des chatbots car l’idée consistera à faire apprendre à la machine non plus seulement la suite la plus probable d’une phrase, mais la structure sous-jacente d’une situation : ce qui, dans un environnement donné, est stable, ce qui peut varier, ce qui risque d’arriver ensuite si telle ou telle variable change.

Concrètement, cela supposera d’entraîner ces systèmes sur un grand nombre de flux d’images, de vidéos et de sons afin qu’ils se forgent une représentation intelligible du réel. En l’espèce, et à force d’observer qu’un objet masqué continue d’exister, qu’un déplacement produit une trajectoire, qu’un geste entraîne une conséquence, l’IA pourrait enregistrer tous ces phénomènes physiques pour ensuite avoir la capacité de les reconnaitre et de les respecter ou de les contourner. Nous n’en sommes encore qu’au début car au-delà des architectures de ces algorithmes, ces « world models » nécessiteront par ailleurs de formidables puissances de calcul couplés à des microprocesseurs aux performances sans faille pour que cette IA qui « comprend » puisse se déployer.

Quels débouchés concrets pour ces worls models ?

Au-delà de la prouesse technologique consistant à doter la machine d’une compréhension du monde, les débouchés concrets de ces world models sont nombreux : en robotique, permettre à des machines d’apprendre à se déplacer, saisir, éviter ou corriger leurs gestes (on voit d’ici les milles déclinaisons possibles en matière de robotique humanoïdes à destination des personnes âgées, par exemple) ; dans l’automobile, nourrir des systèmes de conduite plus aptes à anticiper les comportements et les situations rares (le véhicule autonome pourrait enfin voir concrètement le jour); dans l’industrie, offrir des capacités accrues de simulation, de maintenance prédictive et d’optimisation de chaînes complexes ; dans la santé, aider à modéliser l’évolution d’un organe, d’un traitement ou d’un geste médical ; dans les univers de la réalité augmentée, du jeu vidéo ou du cinéma, ouvrir la voie à des environnements interactifs nettement plus cohérents et surtout persistants et adaptatifs. On le voit, de tels modèles ne promettent pas seulement une IA qui parle encore et toujours mieux mais qui soit capable de comprendre et d’anticiper.

Une promesse immense, mais encore un pari

Si tout cela ouvre de nouveaux horizons, il convient sans doute de garder la tête froide. Comme souvent en matière d’IA, les concepts avancent plus vite que les démonstrations stabilisées. Entre une architecture prometteuse, une levée de fonds record et des produits fiables, il y a encore un monde à franchir dans lequel les coûts de calcul restent gigantesques et les besoins en données de qualité considérables. Mais c’est peut-être ce qui rend ce moment si intéressant du fait que nous n’assistons pas tant à la disparition des LLM de ces IA génératives qu’à leur relativisation.

Si ces dernières ont rendu l’IA visible et familière, elles ont aussi ouvert la porte à une ambition nettement plus large : modéliser le monde. L’avenir proche dira si le chat n’a fait qu’une bouchée du perroquet ou si le volatile bavard aura conservé toute sa superbe.

latribune.fr

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

Le maintien in extremis des Zones à Faibles Émissions (ZFE) par le Conseil constitutionnel ne doit pas faire illusion. Si l'abrogation du dispositif vient d'être censurée pour des raisons de procédure dans la loi de simplification de la vie économique, son rejet politique et social, lui, est acté.

Idées & Débats

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

Les Français aiment leurs services publics mais dénoncent leurs dysfonctionnements. Entre promesses non tenues et responsabilités éludées, l'exaspération monte.

Idées & Débats

OPINION. « Espace : réguler ne suffit pas »

Chaque jour, vous interagissez avec des dizaines de satellites — pour vous repérer, payer, vous informer. L'espace est devenu une infrastructure vitale, et l'Europe le reconnaît enfin avec l'EU Space Act. Mais un texte ne surveille pas les orbites, ne détecte pas les débris, n'alerte pas les opérateurs.

Idées & Débats

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

Depuis deux ans, les Européens passent leur temps à commenter Donald Trump, à dénoncer ses excès, ses provocations et ses décisions. Pourtant, le véritable sujet n'est peut-être pas Trump en soi. Le véritable sujet, c'est nous.

Idées & Débats

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

Pourquoi la résilience numérique n’est pas une ﬁn en soi mais le moyen concret d’exercer sa souveraineté dans un monde interdépendant

Idées & Débats

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

Le 16 juin 2026, entre VivaTech et Eurosatory, deux rendez-vous majeurs consacrés à l’innovation et à la défense, le premier ministre Sébastien Lecornu a annoncé que la DGSI remplacera progressivement Palantir par la société française ChapsVision. Depuis près de dix ans, les services français de renseignement s’appuyaient sur le groupe américain pour l’analyse et l’exploitation de données massives.

Idées & Débats

OPINION. « Iran : les sanctions tombent, mais la crise demeure »

Derrière les promesses de reconstruction et de croissance, la République islamique reste confrontée à une triple crise : économique, politique et sociale.

Idées & Débats

Vladimir Poutine lors d'une plénière à Saint Petersbourg.

OPINION. « Poutine contre 1648 » (Michel Santi)

La paix de Westphalie avait chassé d’Europe la prétention d’un empire à effacer son voisin. C’est cette grammaire de quatre siècles que l’invasion russe a entrepris de piétiner.

Idées & Débats

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

OPINION. « Espace : réguler ne suffit pas »

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

OPINION. « Quand le chat avalera le perroquet »

Passer du 2D au 3D

Force gravitationnelle

Du mot au monde

Ma Tribune

La route est longue

Quels débouchés concrets pour ces worls models ?

Une promesse immense, mais encore un pari

Sur le même sujet

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

OPINION. « Espace : réguler ne suffit pas »

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

OPINION. « Iran : les sanctions tombent, mais la crise demeure »

OPINION. « Poutine contre 1648 » (Michel Santi)

Passer du 2D au 3D

Force gravitationnelle

Du mot au monde

Ma Tribune

La route est longue

Quels débouchés concrets pour ces worls models ?

Une promesse immense, mais encore un pari

Sur le même sujet

OPINION. « L’après-ZFE : de l’interdiction à l’innovation ? »

OPINION. « Face à un pacte républicain qui se fissure, l’urgence d’arbitrages courageux »

OPINION. « Espace : réguler ne suffit pas »

OPINION. « Trump ou le réveil économique de l'Europe : le miroir de nos faiblesses »

OPINION. « Souveraineté numérique : l’avantage compétitif d’une approche pragmatique »

OPINION. « Palantir : réduire une dépendance ou équilibrer une interdépendance ? »

OPINION. « Iran : les sanctions tombent, mais la crise demeure »

OPINION. « Poutine contre 1648 » (Michel Santi)