Des chercheurs de la société DeepMind qui appartient à Google et des scientifiques de l'université d'Oxford ont utilisé l'intelligence artificielle pour développer "le logiciel le plus efficace pour lire sur les lèvres" selon The Verge. Pour mettre en application cet outil, les deux organisations ont travaillé dans une étude sur la retranscription de programmes audiovisuels.

>> Lire aussi : IA : le superlogiciel de Google bat le meilleur joueur mondial de go

Des milliers d'heures de programmes avalés

Le programme développé par les chercheurs a été confronté à plus de 5.000 heures de programmes de la BBC. Au total, les vidéos contenaient un corpus de 118.000 phrases. Le travail s'est divisé en deux parties. Dans un premier temps, l'Intelligence artificielle a dû assimiler tous les programmes entre janvier 2010 et décembre 2015 afin de constituer une base de données. Et dans une seconde étape, les chercheurs ont testé les performances de l'outil sur des programmes diffusés entre mars et septembre 2016. L'objectif de ce travail était de mesurer l'efficacité de DeepMind pour la retranscription de sous-titres à partir du mouvement des lèvres.

Un clip issu de la base de données sans sous-titres. Crédits : newscientist

Et le même clip avec les sous-titres fournis par l'intelligence artificielle. Crédits : newscientist

En regardant simplement les lèvres de chaque présentateur, le système réussit à déchiffrer des phrases entières souligne Newscientist.

Des performances supérieures à l'homme

L'équipe de chercheurs a ainsi confronté les résultats d'un professionnel avec ceux de la machine. Il apparaît que cette dernière est capable de retranscrire avec précision 48% des mots prononcés contre 12,6% pour l'homme. Les performances de l'IA dépassent désormais les compétences de l'homme pour ce type de tâche.

Des applications multiples

Les chercheurs de Deepmind ont suggéré que ce programme pourrait aider les personnes sourdes et malentendantes à comprendre les conversations. Il pourrait également permettre d'améliorer les performances des assistants vocaux comme Google Home.

A l'inverse, des observateurs craignent que cet outil soit développé à des fins de surveillance. Dans The Verge, les chercheurs rappellent que "il y a toujours une grande différence pour retranscrire clairement à partir des écrans à haute résolution et des images de basse qualité, mais on ne peut ignorer, le fait que l'intelligence artificielle semble réduire ce fossé."