Microprocesseurs : qui remportera la bataille de l'IA ?
Guillaume Renouard
Ce contenu est réservé aux abonnés La Tribune

Jensen Huang, patron de Nvidia.
Nvidia
Guillaume Renouard
Ce contenu est réservé aux abonnés La Tribune

Jensen Huang, patron de Nvidia.
Nvidia
L'annonce a été quelque peu éclipsée : elle n'a pourtant rien d'anodin. En mars dernier, alors qu'il annonçait sa nouvelle génération de microprocesseurs Blackwell, surpuissants et taillés pour l'entraînement de modèles d'IA de pointe, le dirigeant de Nvidia, Jensen Huang, évoquait également l'ajout d'un nouveau service à sa suite logicielle.
Baptisé NIM, pour Nvidia Inference Microservice, il vise à aider les entreprises à tirer le maximum de leurs GPUs Nvidia issues des générations précédentes pour utiliser l'intelligence artificielle (IA) au quotidien.
Dans le monde de l'IA, l'inférence correspond au processus qu'un modèle d'apprentissage automatique déjà entraîné utilise pour tirer des conclusions à partir de nouvelles données. Il s'agit en somme, pour une entreprise, de faire tourner un algorithme d'IA pour répondre à des cas d'usage concrets. L'inférence fait suite à l'entraînement, le processus qui consiste à nourrir un modèle d'immenses quantités de données jusqu'à ce qu'il parvienne à accomplir une tâche spécifique. OpenAI a par exemple dû longuement entraîner ChatGPT avant de le faire découvrir au grand public.
Mais lorsqu'une entreprise utilise ChatGPT pour construire un chatbot chargé de faire du service client, elle n'a pas besoin de réentraîner le modèle. Elle va simplement recalibrer celui-ci pour qu'il fonctionne sur un socle de données plus restreint, celui de l'entreprise, et le faire tourner pour répondre aux questions des clients. Presque toutes les applications de l'IA dans le monde réel s'appuient donc sur l'inférence.
À lire également
Comme l'écrit Mike Demler, analyste indépendant spécialisé dans l'industrie des puces informatiques, l'entraînement sans l'inférence « serait comme construire une voiture de course que personne ne conduit jamais. » Là où l'entraînement requiert des puces informatiques très puissantes hébergées dans des centres de données, l'inférence peut se faire via des puces moins chères (quoique toujours très complexes) et dans l'informatique en périphérie.
Chaque jour à 13h, l’essentiel de l’actualité tech.

Guillaume Renouard