Les laboratoires de Meta AI dévoilent ImageBind, un énorme progrès pour l'IA. De quoi permettre à l'intelligence artificielle de comprendre plusieurs sources d'un coup : audio, image, texte et même la chaleur.

L’intelligence artificielle générative permet de rapidement créer du texte, avec ChatGPT, ou de l’image, avec Midjourney. Il est parfois possible, notamment depuis GPT-4, de lui fournir une image à comprendre, mais le processus de l’IA passera par une création de texte à partir de cette image pour pouvoir faire du traitement. On en revient donc toujours au texte comme méthode pour communiquer avec l’IA.

Avec ImageBind, Meta dévoile une nouvelle méthode qui pourrait révolutionner l’intelligence artificielle sous sa forme actuelle. La firme veut aller beaucoup plus loin et entrevoit une méthode permettant à l’IA d’interpréter cinq sources complètement différentes simultanément.

Approcher l’humain

Comme le rappel Meta dans son annonce, l’humain a l’habitude d’utiliser plusieurs sens pour créer de l’information, par exemple, voir une rue embouteillée et en même temps entendre le bruit des moteurs de voitures.

Meta s’est inspiré de cette idée pour mettre au point ImageBind, un nouveau modèle d’intelligence artificielle que la firme souhaite rendre open source. Il s’agit du premier modèle capable de combiner les informations venant de 6 types de sources différentes : le texte, l’image, l’audio, la profondeur (3D), le thermique (par infrarouge) et la vélocité.

Avec tout cela, Meta annonce que son IA est capable de comprendre à partir d’une photo quel son feront les objets, leurs formes en 3D et s’ils seront chauds ou froids au toucher. Pour une autre application, Meta indique qu’une IA basée sur son modèle peut désormais imaginer des images à partir d’une piste sonore, par exemple une forêt à partir du bruit de la pluie sur les arbres.

Les premiers tests conduits par Meta montrent que ImageBind est beaucoup plus performant que des modèles spécialisés sur une seule modalité comme source.

Les chercheurs veulent désormais aller plus loin et intégrer d’autres sources possibles pour leur modèle avec notamment l’odorat et le toucher afin de se rapprocher encore plus des capacités humaines.

