ChatGPT se rapproche de l'idéal d'une IA capable de converser comme un humain

Lors d'une présentation tenue lundi soir, OpenAI a présenté les nouvelles capacités de ChatGPT. Désormais capable de tenir une conversation orale à la même vitesse qu'un humain, le célèbre outil devient le premier exemple d'une nouvelle génération d'assistants vocaux, bien plus performants que les pionniers Siri ou Alexa. Et ils laissent entrevoir la possibilité d'un assistant d'IA similaire à ceux imaginés dans les œuvres de science-fiction.
François Manens
Mira Murati, la CTO d'OpenAI, a présenté les nouvelles capacités conversationnelles de ChatGPT.
Mira Murati, la CTO d'OpenAI, a présenté les nouvelles capacités conversationnelles de ChatGPT. (Crédits : Capture d'écran d'une vidéo d'OpenAI, sur YouTube)

ChatGPT va-t-il réussir là où Siri et Alexa ont échoué ? Au début des années 2010, les assistants vocaux débarquaient sur les smartphones et les ordinateurs. Mais passé l'émerveillement initial des utilisateurs, des limites criantes sont apparues : difficultés à comprendre les propos, lenteurs à répondre, impossibilité d'avoir une vraie conversation... Autant de barrières qui ont rapidement limité leur usage, mais que ChatGPT a d'ores et déjà dépassé.

Ce lundi, OpenAI a présenté la prochaine mise à jour de son célèbre chatbot, nourri avec un nouveau modèle d'IA baptisé GPT4-omni (ou GPT-4o). Grâce à ce nouveau moteur, ChatGPT peut tenir une conversation orale avec la même fluidité qu'un humain, mais aussi lire et commenter des images, ou encore traduire en temps réel. Autrement dit, l'entreprise star de l'IA a réussi à réduire comme jamais auparavant les frictions entre les capacités textuelles, vocales, et de vision des intelligences artificielles. Sam Altman compare ainsi son IA avec celle du film Her (2013), tandis que d'autres enthousiastes y voient un rapprochement avec l'IA Jarvis, assistante du super-héros Iron Man.

Lire aussiIntelligence artificielle : pourquoi l'été sera décisif pour l'avenir d'OpenAI

Une vitesse de conversation humaine

Avec GPT-4o, OpenAI introduit un nouveau standard pour les interactions homme-machine. Sa nouvelle IA parvient à lire, écouter et voir, ainsi qu'à générer du texte, du son et de l'image... à la vitesse d'un humain. Plus précisément, l'IA s'exécute très vite, avec un temps de réponse moyen de 0,32 secondes pour les contenus audio par exemple. Résultat : la vitesse de conversation entre ChatGPT et l'utilisateur est aussi rapide que celle entre deux humains, ce qui offre de nouvelles possibilités, comme la capacité de couper efficacement la parole à l'IA, là où Siri et Alexa prenaient le temps (parfois plusieurs secondes) de finir leurs phrases.

C'est une première. Avant cette mise à jour, ChatGPT avait déjà un « mode vocal » pour les conversations orales, mais il prenait plus de cinq secondes en moyenne à répondre. La raison ? Il exécutait trois modèles d'IA à la suite : un pour traduire le son en texte, un pour analyser le texte et générer une réponse textuelle, puis un dernier pour traduire le texte en son. En plus d'allonger la durée de calcul, cette chaîne d'information avait pour inconvénient d'appauvrir l'efficacité du modèle d'IA le plus puissant -celui qui perçoit le plus d'information et génère la réponse.

Pour résoudre ce problème, GPT-4o est un modèle tout en un, qui en plus intègre des capacités de vision. Puisqu'il perd moins d'information, il donne à l'IA une nouvelle granularité de compréhension. ChatGPT distingue les différents utilisateurs, appréhende leur ton de voix ou encore leurs émotions. Cerise sur le gâteau, GPT-4o n'est pas seulement plus polyvalent que GPT-4 Turbo, le précédent modèle phare de ChatGPT. Il est aussi (légèrement) plus performant sur tous les cas d'usage, plus rapide, et surtout deux fois moins cher (notamment dans la facturation par API pour les entreprises).

Une prouesse technique, pour quoi faire ?

Après l'avancée technique, la question des cas d'usage se pose : parler à voix haute avec une IA n'est pas si pratique dans de nombreux contextes. Sur scène, Mura Murati (la CTO d'OpenAI) et ses équipes ont donc multiplié les exemples. Embarqué sur un iPhone, ChatGPT aide en temps réel un ingénieur qui tente de résoudre un problème de math écrit sur une feuille de papier ; traduit en direct une discussion anglo-italienne ; ou encore déchiffre à voix haute à quoi servent les lignes de code informatique affichées sur un écran. Sur son site, OpenAI ajoute une preuve de concept pour une application dans le service client, ainsi que l'intégration de son IA à l'application BeMyEyes qui aide les personnes atteintes de déficience visuelle en décrivant l'environnement à partir de la caméra du smartphone.

Lire aussiCourse à l'IA : OpenAI est-il vraiment rattrapé par la concurrence ?

Mais attention, la nouvelle interface de ChatGPT ne gomme pas son principal défaut : l'outil est toujours incapable de garantir une info fiable, et ne peut toujours pas aller piocher ses réponses sur Internet. Autrement dit, OpenAI a fait un premier (grand) pas dans l'expérience utilisateur de son outil phare, mais il aura toujours besoin d'un modèle d'IA plus performant (comme le très attendu GPT-5) pour s'ouvrir un plus grand nombre de cas d'usage.

ChatGPT bientôt sur iPhone ?

Les utilisateurs de ChatGPT devront prendre leur mal en patience avant de tester la nouvelle conservation vocale, qui ne sera intégrée que « dans plusieurs semaines » après une phase de tests de sécurité. D'autant plus que dans un premier temps, elle sera réservée aux abonnés de ChatGPT Plus (20 euros par mois). Si OpenAI a fait sa présentation autant en avance de la mise à jour, c'est semble-t-il pour couper l'herbe sous le pied de Google, qui organise sa conférence annuelle, Google I/O, ce mardi. Le géant de la tech est, avec Anthropic et Meta, un de ses principaux concurrents.

Comme une bonne nouvelle ne vient pas seule pour OpenAI, un article de Bloomberg publié plus tôt lundi rapportait que l'entreprise serait sur le point de signer un accord avec Apple pour intégrer ChatGPT sur l'iPhone, le smartphone le plus vendu au monde. De quoi imaginer que ChatGPT mette au placard Siri, l'assistant vocal pionnier resté dans son temps. Affaire à suivre...

François Manens

Sujets les + lus

|

Sujets les + commentés

Commentaires 11
à écrit le 15/05/2024 à 9:54
Signaler
... et ça bouffe combien d'électricité pour en arriver là ?

à écrit le 14/05/2024 à 16:38
Signaler
Prenons l'exemple en programmation. Vous commencez à faire un script, que vous complexifiez à chaque prompt. Tôt ou tard, l'IA se trompe. Vous tentez de corriger les erreurs qu'elle a généré - impossible de lui faire comprendre où elle s'est trompée....

à écrit le 14/05/2024 à 10:41
Signaler
N'en déplaise aux anti-tout, nous sommes en train de vivre une impressionnante nouvelle révolution industrielle. En être les témoins est une chance inouie. L'exemple de l'application beMyEyes est criant de vérité. Comme lors des précédentes révoluti...

à écrit le 14/05/2024 à 10:28
Signaler
L'IA peut aider, parfois de façon imparfaite (dommage s'il faut refaire le boulot, en contrôlant les réponses, en codage ça semble utile mais il faut relire et corriger), mais un jour, va-t-elle initier le dialogue ? Choisir son sujet de discussion e...

le 14/05/2024 à 14:03
Signaler
Vraiment pas malin le commentaire. Il suffit de demander à chatGPT ou autre d'initier le dialogue et de choisir un sujet de discussion, et l'IA le fait.

le 14/05/2024 à 18:39
Signaler
Tant que l'IA (ou plutôt "une" IA) ne prenait pas les décisions, tout cela était bon enfant. Malheureusement, ce temps est dépassé. Déjà, dans nombre d'organismes, des algorithmes prennent des décisions qui ont des conséquences "personnelles". La loi...

à écrit le 14/05/2024 à 9:16
Signaler
C'est bien de faire progresser les choses. Tant pis pour les grincheux.

à écrit le 14/05/2024 à 7:59
Signaler
C'est bien on va pouvoir enfin remplacer nos politiciens ! On va économiser vachement de fric, finie la dette !

le 14/05/2024 à 10:26
Signaler
Ça coûte cher en fonctionnement, ces systèmes (énergivores). S'il faut un EPR2 neuf par homme/femme politique remplacé(e), ça va être ruineux. :-)

le 14/05/2024 à 10:32
Signaler
LOL ! Tu me fais marrer de venir systématiquement défendre l'indéfendable debout sur ton tas de ruines. ^^ Ben écoutes quand l'IA aura généré 3000 milliards de dettes là tu auras raison, en attendant c'est moi.

à écrit le 14/05/2024 à 7:24
Signaler
cool!!! j'ai essayer de regler un pb avec un banque en ligne qui avait un bot en guise de standardiste, a la fin ne comprenant pas ma requete il a raccroche......a un moment donne faut regarder de quoi on parle....si vous avez perdu votre carte banca...

Votre email ne sera pas affiché publiquement.
Tous les champs sont obligatoires.

-

Merci pour votre commentaire. Il sera visible prochainement sous réserve de validation.