Pour contrer la crise de l'évaluation des IA, Hugging Face rehausse les exigences

François Manens

Publié le 12 juillet 2024 à 08:41 - Mis à jour le 12 juillet 2024 à 10:44

Ce contenu est réservé aux abonnés La Tribune

Hugging Face a changé sa méthode d'évaluation des IA.

Hugging Face

Ajouter La Tribune à vos sources préférées

Confrontées à la progression très rapide de la performance des intelligences artificielles, les méthodes d'évaluation utilisées par les chercheurs paraissent déjà au mieux sous-dimensionnées, au pire inadaptées. Pour anticiper la désuétude à court terme des tests actuels, la startup franco-américaine Hugging Face a déployé un nouveau système d'évaluation de la performance des IA, qui pourrait bien inspirer le reste de l'écosystème.

La course aux meilleurs modèles d'intelligence artificielle s'est transformée en une guerre de chiffres. Pour mesurer la performance des IA, les chercheurs leur font passer des tests, aussi appelés benchmarks, avec à la clé des pourcentages de réussite. Ces indicateurs servent ensuite aux ingénieurs à prouver la supériorité de leurs modèles sur ceux de leurs concurrents, dans l'objectif d'attirer utilisateurs et investisseurs. Mais un problème de taille se dessine à court terme : les benchmarks les plus utilisés depuis le début de la vague ChatGPT, fin 2022, commencent à être dépassés par les performances des dernières générations de modèles. Au point qu'une véritable crise de l'évaluation se profile pour le secteur.

Entreprise incontournable de l'écosystème, Hugging Face a décidé de prendre les devants en proposant depuis fin juin de tout nouveaux tests, afin de créer une grille d'évaluation capable d'accueillir les IA de demain. La startup franco-américaine a ainsi mis à jour son classement de performance des modèles open source - les IA dont les développeurs acceptent de partager une partie de leur recette de création - qui pourrait rapidement servir d'inspiration au monde des modèles propriétaires comme ceux de OpenAI, Anthropic, ou Google.

Saturation et contamination

Les benchmarks actuels se confrontent à deux grands difficultés. Pour commencer, les chercheurs pointent leur « saturation » : les modèles d'IA dernier cri tendent de plus en plus vers les 100% de réussite aux tests, avec des scores supérieurs à 80%, voire 90%. Si la trajectoire d'amélioration se poursuit, les modèles de demain devraient réussir à la perfection les évaluations d'aujourd'hui, et les benchmarks ainsi « saturés » ne permettraient plus de les départager. Autrement dit, le secteur à besoin de redimensionner sa grille d'évaluation des modèles avec de nouveaux benchmarks, plus difficiles.

Pour contrer la crise de l'évaluation des IA, Hugging Face rehausse les exigences

Saturation et contamination

Sur le même sujet

Saturation et contamination

Sur le même sujet