Dans une vidéo de 2 minutes 30, un robot humanoïde se tient derrière une table. Calmement, il effectue les différentes tâches, qui lui sont dictées par l'ingénieur en face de lui. Leur dialogue est relativement fluide, tout comme les gestes qu'il exécute. « J'ai faim, donne-moi quelque chose à manger », lui dit l'ingénieur. « Bien sûr », répond l'humanoïde (doté de la voix de Steve Jobs). Il prend la pomme qui se trouve dans une assiette et lui tend. « Très bien, maintenant explique-moi pourquoi tu as fait ça, en ramassant ces déchets ». Le robot s'exécute et se justifie : « Je t'ai donné la pomme parce que c'était le seul aliment disponible sur la table ». Cette séquence assez fascinante publiée sur les réseaux sociaux par l'entreprise Figure AI permet d'avoir un aperçu de ce qu'est la robotique augmentée par l'IA générative.
L'entreprise californienne a annoncé il y a deux semaines un partenariat avec OpenAI, le créateur de ChatGPT. Et cette vidéo est le premier résultat de l'association des deux sociétés. L'humanoïde de Figure AI (baptisé Figure 01) intègre un modèle dit multimodal d'OpenAI (capable d'analyser à la fois des images et du texte). De quoi lui permettre de décrire son environnement, de faire preuve de « bon sens » lorsqu'il prend une décision (par exemple il est capable de savoir que les assiettes posées sur la table peuvent aller dans l'égouttoir), de traduire en mouvements des instructions en langage naturel, d'être doté d'une mémoire court terme (lorsqu'on lui dit « met les là-bas », il sait que « les » désignent les assiettes, par exemple).