Mistral AI, the sky is the limit

Timothée Lacroix, CTO de Mistral AI
La Tribune
« On n’arrête pas de changer de dimension », acquiesce Timothée Lacroix, Chief Technical Officer, ou directeur de la technologie en français, de Mistral AI. La récente levée record, de 1,7 milliard d’euros, dans un tour de table mené par ASML (Advanced Semiconducteur Microprocessor Lithography), le fournisseur néerlandais d’équipements pour la fabrication de puces, a fait du champion français de l’intelligence artificielle (IA) la première décacorne de la French Tech, puisque l’entreprise est valorisée à 11,7 milliards d’euros.
Et depuis son lancement il y a deux ans, face à une rude concurrence internationale, la start-up co-fondée par Arthur Mensch, Timothée Lacroix et Guillaume Lample, spécialisée notamment dans les grands modèles de langage pour les entreprises (même si elle a par ailleurs développé son robot conversationnel destiné au grand public Le Chat), avance à toute allure pour conquérir de nouveaux terrains.
Mistral AI a notamment noué cette année un partenariat avec Nvidia pour lancer une offre de cloud européen, de même qu’elle développe avec le français Eclairion son premier data center en France. Il devrait prochainement voir le jour dans l’Essonne. « Cela nous permet d’avoir un contrôle sur une partie de nos ressources de calcul et de ne pas dépendre, en grandes quantités, de partenaires américains pour ces ressources », explique Timothée Lacroix. En outre, « avoir des infrastructures sur le sol européen, contrôlées et opérées par des entités européennes, est rassurant dans le contexte géopolitique actuel », ajoute-t-il.
Mais les centres de données doivent-ils être pensés à l’échelle de l’Europe ? « Si la capacité de calcul est forcément localisée quelque part, elle doit être partagée de façon plus générale pour rendre l’investissement efficace ». Ainsi, il faut bien « penser des investissements à des échelles plus larges que l’endroit où ils sont physiquement ».
De là à imaginer une souveraineté de bout en bout de la chaîne, jusqu’aux puces ? « Il y a une profondeur de compétences immense entre ce que fait par exemple ASML pour arriver à ce qui entre dans nos data centers et la façon de les construire, ainsi que toute la partie logicielle derrière. Si on ne maîtrise pas certaines parties et qu’on n’est pas expert immédiatement en Europe, ce n’est pas très grave. Il y a beaucoup de développement du côté des puces en Europe. On testera et on verra ce qui est le plus efficace pour nous au bon moment ». En attendant, le projet de data center implique forcément des puces américaines…
Chaque jour à 13h, l’essentiel de l’actualité tech.

Par ailleurs, Mistral cherche aussi à dépasser d'autres défis technologiques. La mémoire des modèles en est un. Dans ce domaine, il existe en effet des complexités, en particulier un problème de hiérarchisation de l’information, relève Timothée Lacroix. Exemple, « si j’ai le malheur de poser une question sur un titre de chanson populaire par rapport à une question de fond, j’aurai ensuite des rappels sur mon intérêt de la musique populaire », illustre-t-il.
De même, la réutilisation du travail de calcul, autrement dit, la capacité des modèles pendant leur raisonnement d’eux-mêmes décider si un code ou un texte peut être fait pour être utilisé plus tard. « Aujourd’hui, le travail ou un processus de calcul par un agent est trop souvent à l’échelle d’une conversation. Il faut qu’il devienne beaucoup plus long terme », précise-t-il. Ce qui pourrait permettre aussi de réduire le coût énergétique des modèles… En somme, « il y a une énorme quantité d’optimisations à faire ».
Pour arriver à des modèles plus performants, faut-il aller plus loin encore ? Certains observateurs estiment que le modèle des LLM lui-même, celui des transformeurs (architecture d'apprentissage profond) qui a lancé la révolution de l’IA générative, arrive à bout de souffle. « C’est possible qu’il y ait de nouvelles architectures qui seront beaucoup plus efficaces et permettront d’entraîner ainsi que de faire de l’inférence plus vite et moins cher. C’est un axe de recherche très intéressant », considère le CTO de Mistral AI.
Quant à la nouvelle vague des agents IA, ces systèmes autonomes dont l’efficacité pour l’heure déçoit certains, Timothée Lacroix rassure. « Si on prend une définition d’agent comme un modèle avec une tâche bien définie qu’on peut potentiellement intégrer dans un workflow pour réaliser des choses plus complexes, les modèles actuels sont largement capables de faire beaucoup de choses dans l’entreprise aujourd’hui, même sur des tâches très complexes. Ce qui manque n’est pas tant au niveau des modèles que des outils », souligne-t-il.
Dans cet entre-deux, entre modèle et infrastructure, le but, avec les agents et l’IA, est d’ouvrir la capacité de créations en entreprise à un public plus large que les ingénieurs software, développe le directeur technique de Mistral AI qui, d’ailleurs, vient de lancer une plateforme de production pour les applications d’IA.
Certes, Mistral AI a fait le choix d’avoir en ligne de mire les entreprises plutôt que le grand public. « On est concentré sur les entreprises parce que c’est là qu’on crée de la valeur et qu’on voit des cas d’usage compliqués à automatiser », confirme le CTO de la décacorne tricolore. Mais à l’heure où OpenAI est en passe de se muer en plateforme et en une porte d’entrée sur le web, redéfinissant potentiellement au passage l’économie numérique, une telle voie pourrait-elle s’envisager pour la vedette de l’IA française ? « Les interfaces conversationnelles sont, par nature, des portes d’entrée très attirantes parce qu’elles sont faciles à prendre en main et, vu la puissance du langage, on a envie de tout faire avec », commente Timothée Lacroix.
À lire également
Néanmoins, « si on parle de porte d’entrée vers autre chose, en entreprise, ce serait, par exemple - un agent développé et rendu accessible via Le Chat, puisque c’est là que les employés vont poser des questions sur des manuels ou des bases de données internes ». Clairement, la voie, pour Mistral, reste donc celle d’une plateforme à l’échelle de l’entreprise.