Course à l'IA : OpenAI est-il vraiment rattrapé par la concurrence ?

Google, Mistral, Anthropic ou encore Inflection AI affirment faire aussi bien que GPT-4, le meilleur modèle d'intelligence artificielle d'OpenAI. Mais le créateur de ChatGPT en a encore sous la semelle. Personne ne fait clairement mieux que GPT-4, alors qu'il est sorti il y a plus d'un an, et les concurrents sont contraints de se lancer dans une bataille de mesure pour prouver leur valeur. Surtout, toutes les attentes sont rivées sur GPT-5, son prochain modèle dont la sortie se fait attendre...

François Manens

15 Mars 2024, 18:26

Le règne sans conteste d'OpenAI sur l'intelligence artificielle semble révolu. Si son modèle d'IA générative GPT-4, lancé il y a tout juste un an, a fait figure de standard d'excellence de la technologie jusqu'ici, il a désormais de sérieux concurrents. Rien que sur le dernier mois, trois entreprises -Mistral AI, Anthropic et Inflection AI- ont présenté des intelligences artificielles capables de rivaliser avec GPT-4, comme Google l'avait fait avec son modèle Gemini fin 2023.

Plus la course à la performance s'intensifie, plus le secteur s'engouffre dans une bataille de mesures. Chaque sortie d'un nouveau modèle s'accompagne de la publication d'une série de benchmarks, des évaluations standardisées sur des tâches précises. L'objectif : quantifier les performances de son IA dans le raisonnement, la compréhension, l'écriture de code informatique ou encore les mathématiques, afin de les comparer à celles de ses concurrents. Avec, en ligne de mire, la volonté de prouver que son modèle se hisse au niveau de GPT-4, ou encore mieux, qu'il le dépasse.

Une question se pose désormais : OpenAI peut-il rétablir sa domination avec le très attendu GPT-5, dont la date de sortie ne cesse d'alimenter les spéculations ?

GPT-4 dépassé ? Plus ou moins selon les mesures

Lundi 4 mars, Anthropic accompagnait la présentation de son modèle Claude-3 de la publication des résultats de dix benchmarks, dans lesquels il sortait systématiquement vainqueur des comparaisons. Une façon pour la startup rivale d'OpenAI de réclamer la place en tête de la course à la performance. Mais à y regarder de plus près, elle ne dépassait son concurrent GPT-4 que d'un dixième de point de pourcentage sur trois des dix tests. Surtout, elle ne révélait pas le détail des résultats des tests, de quoi remettre en cause sa supériorité annoncée.

« Chaque entreprise choisit les benchmarks dont les résultats mettent son modèle en avant », explique à La Tribune Françoise Soulié-Fogelman, conseillère scientifique du Hub France IA. « Elles peuvent agir ainsi car aujourd'hui, il n'y a pas un benchmark qui domine pour évaluer les grands modèles de langages », ajoute-t-elle. Contrairement à l'intelligence artificielle « traditionnelle » où des standards ont fini par s'imposer, il n'existe donc pas de benchmark incontournable pour ChatGPT et consorts. Et pour cause : les grands modèles de langages (connus sous l'acronyme LLM) sont par nature généralistes, c'est-à-dire qu'ils doivent pouvoir réaliser pratiquement n'importe quelle tâche, y compris des cas d'usage auxquels les développeurs n'auraient pas pensé.

En conséquence, prouver la supériorité absolue d'un modèle sur un autre devient un véritable casse-tête, puisqu'il faut mesurer un très grand nombre de tâches, et pondérer l'importance ou la pertinence de chaque tâche par rapport aux autres. C'est pourquoi la plupart des entreprises mesurent aujourd'hui les performances des modèles d'IA pour des usages précis, et non dans l'absolu. « Comme la production d'un LLM est très dépendante du prompt qui lui est donné, il faut vraiment regarder dans le détail lorsqu'on compare ses performances à celui d'un autre », ajoute un chercheur d'une structure réputée. Ce dernier observe en parallèle une saturation des benchmarks actuels, qui appelle la nécessité de créer de nouveaux moyens d'évaluation pour des modèles toujours plus puissants.

Fin de la course à la taille

« Le problème plus profond, c'est que les benchmarks publics peuvent être contaminés et que leurs résultats seraient ainsi involontairement truqués », alerte Stanislas Polu, le cofondateur de la startup française Dust et ancien chercheur d'OpenAI. Concrètement, les benchmarks sont des exercices faits par des humains, avec des valeurs fixes, qui aboutissent à une série de bonnes réponses figées dans le marbre. Or, même si les développeurs d'IA s'engagent à ne pas nourrir directement leurs modèles avec les réponses aux benchmarks, il n'est pas garanti que l'antisèche ne se trouve pas autre part dans les données d'entraînements des IA.

Par exemple, elle pourrait se trouver sur un forum de discussion où des utilisateurs discuteraient du benchmark. Le LLM pourrait alors piocher dans les résultats directement plutôt que d'effectuer le raisonnement. Comme si un lycéen passait le bac après avoir lu les réponses la veille. De premières études mettent d'ailleurs en avant qu'en faisant varier les valeurs des exercices des benchmarks, les performances des modèles peuvent drastiquement s'effondrer...

Avant la dernière génération de LLM, les développeurs s'appuyaient sur des critères de tailles (plus de paramètres, plus de données d'entraînement...) pour prouver la supériorité de leur modèle sur le précédent. La performance se voyait sur la construction de l'IA et il n'y avait pas autant besoin d'analyser la production du modèle. Mais au stade d'avancement actuel des LLM, l'augmentation du nombre de paramètres n'est plus qu'un critère d'amélioration parmi d'autres. Il n'offre que peu de garanties d'amélioration significative de la capacité de raisonnement de l'IA, tout en coûtant très cher à tester.

GPT-5 pour éviter un hiver de l'IA ?

Derrière la bataille des benchmarks, un constat émerge : personne ne fait clairement mieux que GPT-4. Et comme OpenAI tarde à sortir GPT-5, le secteur semble atteindre un plateau. « Le meilleur modèle à un an et même plus de 20 mois si on compte à partir de la fin de son entraînement. Soit il s'avère que c'est très difficile de faire mieux que GPT-4, et alors avec le rattrapage de la concurrence, on entre dans un plateau de performance. Soit OpenAI sortent un nouveau modèle -GPT-4.5 ou GPT-5- clairement meilleur et on retombe sur le modèle qu'on connaît depuis deux ans », projette Stanislas Polu.

L'entreprise à l'origine de ChatGPT avait habitué les observateurs du secteur à faire ses grandes annonces dans la foulée de celles de ses concurrents, afin de leur couper l'herbe sous le pied. C'est pourquoi une partie des observateurs s'attendaient à les voir contre-attaquer après les présentations de Mistral et Anthropic. Mais à la place, OpenAI s'est retrouvé englué dans une guéguerre réputationnelle avec Elon Musk. Conscient des attentes autour de son prochain modèle, le dirigeant Sam Altman n'hésite pas à jouer avec son audience. « Patience, l'attente en vaudra la chandelle », répondait-il lundi à un internaute qui lui demandait quand sortirait GPT-5.

patience jimmy. it will be worth the wait. https://t.co/Hg2kaUpaCZ

— Sam Altman (@sama) March 9, 2024

Après avoir annoncé officiellement que son entreprise était bien en train de travailler sur GPT-5 en novembre dernier, il n'a pourtant plus donné de nouvelles, ce qui intrigue forcément sur les avancées de leurs recherches, et pourrait avoir un grand impact sur le marché. « Si on entre dans une phase de stagnation où tout le monde a les mêmes performances, les développeurs de modèles devront monter dans la chaîne de valeurs et s'investir encore plus dans la création de produits », anticipe Stanislas Polu. A OpenAI -ou un concurrent moins attendu- de prouver que la course à la performance n'est pas en pause, car en parallèle, les investisseurs et le marché parient sur une amélioration continue des intelligences artificielles...

Sujets les + lus

Sujets les + commentés

Emploi : les vraies raisons des vagues de départs des salariés français

Affaire Abbé Pierre : « Ceux qui minimisent se trompent » (Christophe Robert, délégué général de la Fondation Abbé Pierre)

Les énergies renouvelables coûteront six fois plus cher que prévu à l'Etat en 2024

En France, les prix de marché de l’électricité resteront déterminés par ceux du gaz, affirme RTE

La chaîne C8 paye au prix fort ses dérapages et perd sa fréquence TNT

Commentaire 0

Il n'y a actuellement aucun commentaire concernant cet article.
Soyez le premier à donner votre avis !

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.

Internet

Course à l'IA : OpenAI est-il vraiment rattrapé par la concurrence ?

GPT-4 dépassé ? Plus ou moins selon les mesures

Fin de la course à la taille

GPT-5 pour éviter un hiver de l'IA ?

Newsletter - Tech & Médias