![Mira Murati, la CTO d'OpenAI, a présenté les nouvelles capacités conversationnelles de ChatGPT.](https://static.latribune.fr/full_width/2372053/mira-murati-presente-gpt-4o.jpg)
ChatGPT va-t-il réussir là où Siri et Alexa ont échoué ? Au début des années 2010, les assistants vocaux débarquaient sur les smartphones et les ordinateurs. Mais passé l'émerveillement initial des utilisateurs, des limites criantes sont apparues : difficultés à comprendre les propos, lenteurs à répondre, impossibilité d'avoir une vraie conversation... Autant de barrières qui ont rapidement limité leur usage, mais que ChatGPT a d'ores et déjà dépassé.
Ce lundi, OpenAI a présenté la prochaine mise à jour de son célèbre chatbot, nourri avec un nouveau modèle d'IA baptisé GPT4-omni (ou GPT-4o). Grâce à ce nouveau moteur, ChatGPT peut tenir une conversation orale avec la même fluidité qu'un humain, mais aussi lire et commenter des images, ou encore traduire en temps réel. Autrement dit, l'entreprise star de l'IA a réussi à réduire comme jamais auparavant les frictions entre les capacités textuelles, vocales, et de vision des intelligences artificielles. Sam Altman compare ainsi son IA avec celle du film Her (2013), tandis que d'autres enthousiastes y voient un rapprochement avec l'IA Jarvis, assistante du super-héros Iron Man.
Lire aussiIntelligence artificielle : pourquoi l'été sera décisif pour l'avenir d'OpenAI
Une vitesse de conversation humaine
Avec GPT-4o, OpenAI introduit un nouveau standard pour les interactions homme-machine. Sa nouvelle IA parvient à lire, écouter et voir, ainsi qu'à générer du texte, du son et de l'image... à la vitesse d'un humain. Plus précisément, l'IA s'exécute très vite, avec un temps de réponse moyen de 0,32 secondes pour les contenus audio par exemple. Résultat : la vitesse de conversation entre ChatGPT et l'utilisateur est aussi rapide que celle entre deux humains, ce qui offre de nouvelles possibilités, comme la capacité de couper efficacement la parole à l'IA, là où Siri et Alexa prenaient le temps (parfois plusieurs secondes) de finir leurs phrases.
C'est une première. Avant cette mise à jour, ChatGPT avait déjà un « mode vocal » pour les conversations orales, mais il prenait plus de cinq secondes en moyenne à répondre. La raison ? Il exécutait trois modèles d'IA à la suite : un pour traduire le son en texte, un pour analyser le texte et générer une réponse textuelle, puis un dernier pour traduire le texte en son. En plus d'allonger la durée de calcul, cette chaîne d'information avait pour inconvénient d'appauvrir l'efficacité du modèle d'IA le plus puissant -celui qui perçoit le plus d'information et génère la réponse.
Pour résoudre ce problème, GPT-4o est un modèle tout en un, qui en plus intègre des capacités de vision. Puisqu'il perd moins d'information, il donne à l'IA une nouvelle granularité de compréhension. ChatGPT distingue les différents utilisateurs, appréhende leur ton de voix ou encore leurs émotions. Cerise sur le gâteau, GPT-4o n'est pas seulement plus polyvalent que GPT-4 Turbo, le précédent modèle phare de ChatGPT. Il est aussi (légèrement) plus performant sur tous les cas d'usage, plus rapide, et surtout deux fois moins cher (notamment dans la facturation par API pour les entreprises).
Une prouesse technique, pour quoi faire ?
Après l'avancée technique, la question des cas d'usage se pose : parler à voix haute avec une IA n'est pas si pratique dans de nombreux contextes. Sur scène, Mura Murati (la CTO d'OpenAI) et ses équipes ont donc multiplié les exemples. Embarqué sur un iPhone, ChatGPT aide en temps réel un ingénieur qui tente de résoudre un problème de math écrit sur une feuille de papier ; traduit en direct une discussion anglo-italienne ; ou encore déchiffre à voix haute à quoi servent les lignes de code informatique affichées sur un écran. Sur son site, OpenAI ajoute une preuve de concept pour une application dans le service client, ainsi que l'intégration de son IA à l'application BeMyEyes qui aide les personnes atteintes de déficience visuelle en décrivant l'environnement à partir de la caméra du smartphone.
Lire aussiCourse à l'IA : OpenAI est-il vraiment rattrapé par la concurrence ?
Mais attention, la nouvelle interface de ChatGPT ne gomme pas son principal défaut : l'outil est toujours incapable de garantir une info fiable, et ne peut toujours pas aller piocher ses réponses sur Internet. Autrement dit, OpenAI a fait un premier (grand) pas dans l'expérience utilisateur de son outil phare, mais il aura toujours besoin d'un modèle d'IA plus performant (comme le très attendu GPT-5) pour s'ouvrir un plus grand nombre de cas d'usage.
ChatGPT bientôt sur iPhone ?
Les utilisateurs de ChatGPT devront prendre leur mal en patience avant de tester la nouvelle conservation vocale, qui ne sera intégrée que « dans plusieurs semaines » après une phase de tests de sécurité. D'autant plus que dans un premier temps, elle sera réservée aux abonnés de ChatGPT Plus (20 euros par mois). Si OpenAI a fait sa présentation autant en avance de la mise à jour, c'est semble-t-il pour couper l'herbe sous le pied de Google, qui organise sa conférence annuelle, Google I/O, ce mardi. Le géant de la tech est, avec Anthropic et Meta, un de ses principaux concurrents.
Comme une bonne nouvelle ne vient pas seule pour OpenAI, un article de Bloomberg publié plus tôt lundi rapportait que l'entreprise serait sur le point de signer un accord avec Apple pour intégrer ChatGPT sur l'iPhone, le smartphone le plus vendu au monde. De quoi imaginer que ChatGPT mette au placard Siri, l'assistant vocal pionnier resté dans son temps. Affaire à suivre...
Sujets les + commentés