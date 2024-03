Dans une vidéo époustouflante, Figure AI nous donne à voir le futur de la robotique, celle biberonnée à l'intelligence artificielle, précise, communicante et fiable.

Figure AI bouscule la combinaison du robot et de l’intelligence artificielle en mettant en scène une vidéo de son humanoïde exploitant un nouveau modèle de langage visuel.

Et l’association est tout simplement bluffante. Le robot de Figure A1 – Figure 01 – était déjà une belle prouesse mécanique, mais le doter d’une voix et d’une détection visuelle de son environnement aussi précise le rapproche de plus en plus de l’humain.

L’imperfection humaine, son supplément d’âme

On le croirait tout droit sorti d’un film de science-fiction. Il pourrait très bien être associé au C3-PO de Star Wars tant dans sa diction que dans son comportement. Ses gestes sont millimétrés lorsqu’il range une assiette et totalement naturels. Il y a même ce petit mouvement qui lui fait repousser l’égouttoir après y avoir déposé la vaisselle et une hésitation dans la voix du robot. Et c’est ce souci du détail qui le fait basculer dans l’imperfection humaine et fait que l’on y croit.

Mais vient en même temps son interprétation visuelle qui vient s’intriquer avec sa compréhension orale et ses mouvements. En lui demandant quelque chose à manger, il va donner la pomme posée à proximité. Ce travail de concert atteint son paroxysme lorsque l’animateur demande à Figure 01 de ramasser des déchets tout en lui expliquant les tâches qu’il vient d’accomplir. Dextre, sûr de lui, il s’exécute avec une grande fluidité dans ses mouvements, sa voix se faisant entendre après un petit temps de calcul perceptible.

OpenAI VLM, le langage qui révolutionne la robotique

La robotique a pu stagner ces dernières décennies, mais l’arrivée en force de l’intelligence artificielle est en train de faire sauter une limitation. En travaillant main dans la main, Figure AI et OpenAI réussissent une prouesse inégalée.

Figure 01 utilise un nouveau modèle pré-entraîné de langage visuel. Baptisé VLM et développé par OpenAI, il lui permet d’interpréter et de lire ce qui lui est donné à voir et se servir de ces éléments pour alimenter son outil conversationnel.

Pour atteindre une telle précision de mouvement, Figure AI utilise une manipulation bimanuelle, la même qui permet à l’humain de synchroniser la gestuelle entre les deux mains. L’interprétation visuelle se fait quant à elle au pixel près. Ces données combinées dans son réseau neuronal permettent à Figure 01 d’être souple, naturel et impossible à prendre en défaut.

Figure 01 connaissait-il la routine ?

Si l’on reste bouche bée devant cette vidéo, il faut savoir prendre du recul. Figure AI affirme que la scène n’est pas opérée à distance et n’est que le résultat de l’agissement de l’IA. Néanmoins, il ne précise pas si c’est la première fois que Figure 01 est mis dans cette situation ou si c’est une routine qu’il a rencontrée plusieurs fois.

À défaut de pouvoir en juger sur pièce, on ne peut que saluer le spectacle. Surtout, Figure AI bouscule la robotique actuelle avec une telle performance. S’il sait faire du parkour ou ranger des composants avec minutie, le robot Atlas de Boston Dynamics n’a pas l’élégante aisance de Figure 01. Le Tesla Optimus d’Elon Musk aurait des mouvements approchants, mais est actuellement incapable de plier du linge de manière autonome.

