La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle

Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.

François Manens

17 Avr 2024, 10:01

La Chatbot Arena arbitre la course de l'intelligence artificielle. (Crédits : Reuters)

Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.

Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.

Crise de l'évaluation des modèles d'IA

Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot Arena apporte une réponse, certes partielle et perfectible, à la crise de l'évaluation que traverse l'intelligence artificielle.

Les grands modèles de langages (connus sous l'acronyme LLM) sont construits de sorte à être généralistes, c'est-à-dire qu'ils doivent pouvoir répondre à des problèmes pour lesquels ils n'ont pas été spécifiquement entraînés. Or, évaluer ce caractère « généraliste » relève de l'impossible avec les méthodes actuelles. Les experts se contentent donc d'utiliser une grande variété de benchmarks (des tests standardisés) pour mesurer une à une chaque compétence de leur LLM : capacité à raisonner comme un humain, à résoudre des problèmes mathématiques, à répondre à des questions de connaissances culturelles ou encore à écriture du code informatique. L'avantage de ce système ? Il permet de comparer les résultats d'un modèle avec ceux des concurrents.

Mais l'addition des benchmarks n'offre qu'un échantillon des capacités du modèle, et surtout, elle ne prend pas toujours en compte les usages réels que vont avoir les utilisateurs des modèles d'IA. Et comme si ce n'était pas suffisant, la plupart des benchmarks arrive « à saturation », c'est-à-dire qu'ils ne sont plus taillés pour évaluer correctement les capacités d'IA qui grandissent à grande vitesse, même sur une tâche précise.

Le « feeling » humain comme premier critère

Face à cette situation, les entreprises qui déploient des outils d'IA générative accordent de plus en plus de poids dans le choix des modèles aux retours des usagers, plutôt que de se fier à des mesures de performance. Et c'est justement ce système d'évaluation humaine que Chatbot Arena reproduit à grande échelle, grâce à son crowdsourcing nourri par plus de 500.000 contributions à date. Il parvient à mesurer une notion abstraite, le « feeling » que les humains ont avec l'IA. Wei-Lin Chiang, doctorante à l'UC Berkeley et co-créatrice de la Chatbot Arena expliquait à NBC News que, d'après les recherches réalisées par son équipe, les résultats des votes ouverts à tous étaient, étonnement, très proches des résultats de votes effectués auprès d'experts embauchés pour.

Évidemment, le système n'est pas sans faille. LMSYS doit développer des algorithmes pour détecter les comportements de quelques testeurs malveillants qui voudraient corrompre les résultats de son classement. Surtout, le « feeling » d'un utilisateur est éminemment subjectif, et peut dépendre de caractéristiques sociologiques qui lui sont propres. Le classement est donc vraisemblablement très influencé par une vision américano-centrée de l'IA. Mais il n'empêche qu'il pèse de plus en plus lourd.

GPT-4, roi presque incontesté

Le mois dernier, Anthropic réalisait avec son modèle Claude 3 une prouesse attendue depuis un an : faire un modèle plus performant que GPT-4 d'OpenAI, sorti en mars 2023. Dans son article de présentation, la startup tentait de prouver ses dires avec dix benchmarks où son IA affichait les meilleures performances du secteur. Mais c'est bien son arrivée en tête de la Chatbot Arena qui a confirmé son couronnement comme nouveau meilleur modèle du monde. Pour la première fois depuis l'arrivée de GPT-4 sur le classement, il n'était pas à la tête. Même Gemini de Google n'avait pas réussi à le déloger. De quoi déclencher une réaction d'orgueil de OpenAI, qui a déployé une grande mise à jour de son modèle pour reprendre avec succès son trône trois semaines plus tard.

Derrière les différentes places honorifiques dans les classements --la guerre à la performance se fait aussi à l'échelle des modèles ouverts par exemple-- se cachent des enjeux de réputation. Avec d'un côté, des conséquences sur l'attractivité de l'entreprise auprès des clients et des investisseurs, avec des répercussions financières. Et de l'autre côté, un effet sur la perception de l'entreprise dans l'écosystème des spécialistes, avec de potentielles répercussions sur sa capacité de recrutement dans un contexte de grande tension sur les profils les plus experts. Les champions de l'IA, que ce soit OpenAI, Anthropic, Google, Meta, Mistral ou encore Cohere n'ont donc pas le choix : il faut bien performer sur Chatbot Arena. Du moins, en attendant qu'un véritable standard d'évaluation des LLM voit le jour...

Sujets les + lus

Sujets les + commentés

Sénégal : le nouveau président veut renégocier les contrats miniers et pétroliers, accusés de léser le pays

Annulations de vols en pagaille malgré la levée de grève de dernière minute du syndicat majoritaire des contrôleurs aériens

Gros coup pour Airbus, la low cost indienne Indigo va acheter 100 Airbus A350 pour passer au long-courrier

Guerre en Ukraine : des pourparlers de paix sont actuellement inenvisageables, selon Moscou

Faute de concurrence, la dette française attire plus que jamais les investisseurs

Commentaire 0

Il n'y a actuellement aucun commentaire concernant cet article.
Soyez le premier à donner votre avis !

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Informatique

La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle

Crise de l'évaluation des modèles d'IA

Le « feeling » humain comme premier critère

GPT-4, roi presque incontesté

Newsletter - Tech & Médias