La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle

Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.
François Manens
La Chatbot Arena arbitre la course de l'intelligence artificielle.
La Chatbot Arena arbitre la course de l'intelligence artificielle. (Crédits : Reuters)

Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.

Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.

Crise de l'évaluation des modèles d'IA

Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot Arena apporte une réponse, certes partielle et perfectible, à la crise de l'évaluation que traverse l'intelligence artificielle.

Lire aussiCourse à l'IA : OpenAI est-il vraiment rattrapé par la concurrence ?

Les grands modèles de langages (connus sous l'acronyme LLM) sont construits de sorte à être généralistes, c'est-à-dire qu'ils doivent pouvoir répondre à des problèmes pour lesquels ils n'ont pas été spécifiquement entraînés. Or, évaluer ce caractère « généraliste » relève de l'impossible avec les méthodes actuelles. Les experts se contentent donc d'utiliser une grande variété de benchmarks (des tests standardisés) pour mesurer une à une chaque compétence de leur LLM : capacité à raisonner comme un humain, à résoudre des problèmes mathématiques, à répondre à des questions de connaissances culturelles ou encore à écriture du code informatique. L'avantage de ce système ? Il permet de comparer les résultats d'un modèle avec ceux des concurrents.

Mais l'addition des benchmarks n'offre qu'un échantillon des capacités du modèle, et surtout, elle ne prend pas toujours en compte les usages réels que vont avoir les utilisateurs des modèles d'IA. Et comme si ce n'était pas suffisant, la plupart des benchmarks arrive « à saturation », c'est-à-dire qu'ils ne sont plus taillés pour évaluer correctement les capacités d'IA qui grandissent à grande vitesse, même sur une tâche précise.

Le « feeling » humain comme premier critère

Face à cette situation, les entreprises qui déploient des outils d'IA générative accordent de plus en plus de poids dans le choix des modèles aux retours des usagers, plutôt que de se fier à des mesures de performance. Et c'est justement ce système d'évaluation humaine que Chatbot Arena reproduit à grande échelle, grâce à son crowdsourcing nourri par plus de 500.000 contributions à date. Il parvient à mesurer une notion abstraite, le « feeling » que les humains ont avec l'IA. Wei-Lin Chiang, doctorante à l'UC Berkeley et co-créatrice de la Chatbot Arena expliquait à NBC News que, d'après les recherches réalisées par son équipe, les résultats des votes ouverts à tous étaient, étonnement, très proches des résultats de votes effectués auprès d'experts embauchés pour.

Évidemment, le système n'est pas sans faille. LMSYS doit développer des algorithmes pour détecter les comportements de quelques testeurs malveillants qui voudraient corrompre les résultats de son classement. Surtout, le « feeling » d'un utilisateur est éminemment subjectif, et peut dépendre de caractéristiques sociologiques qui lui sont propres. Le classement est donc vraisemblablement très influencé par une vision américano-centrée de l'IA. Mais il n'empêche qu'il pèse de plus en plus lourd.

GPT-4, roi presque incontesté

Le mois dernier, Anthropic réalisait avec son modèle Claude 3 une prouesse attendue depuis un an : faire un modèle plus performant que GPT-4 d'OpenAI, sorti en mars 2023. Dans son article de présentation, la startup tentait de prouver ses dires avec dix benchmarks où son IA affichait les meilleures performances du secteur. Mais c'est bien son arrivée en tête de la Chatbot Arena qui a confirmé son couronnement comme nouveau meilleur modèle du monde. Pour la première fois depuis l'arrivée de GPT-4 sur le classement, il n'était pas à la tête. Même Gemini de Google n'avait pas réussi à le déloger. De quoi déclencher une réaction d'orgueil de OpenAI, qui a déployé une grande mise à jour de son modèle pour reprendre avec succès son trône trois semaines plus tard.

Lire aussi« Nos modèles d'IA vont faire un autre bond de performance dans l'année » (Tom Brown, cofondateur d'Anthropic)

Derrière les différentes places honorifiques dans les classements --la guerre à la performance se fait aussi à l'échelle des modèles ouverts par exemple-- se cachent des enjeux de réputation. Avec d'un côté, des conséquences sur l'attractivité de l'entreprise auprès des clients et des investisseurs, avec des répercussions financières. Et de l'autre côté, un effet sur la perception de l'entreprise dans l'écosystème des spécialistes, avec de potentielles répercussions sur sa capacité de recrutement dans un contexte de grande tension sur les profils les plus experts. Les champions de l'IA, que ce soit OpenAI, Anthropic, Google, Meta, Mistral ou encore Cohere n'ont donc pas le choix : il faut bien performer sur Chatbot Arena. Du moins, en attendant qu'un véritable standard d'évaluation des LLM voit le jour...

François Manens

Sujets les + lus

|

Sujets les + commentés

Commentaire 0

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

Il n'y a actuellement aucun commentaire concernant cet article.
Soyez le premier à donner votre avis !

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.