Facebook a enrôlé 13 université et laboratoires dans 9 pays pour entrainer des IA à voir le monde à la première personne. L'objectif est clair : faciliter le développement des lunettes de réalité augmentée et des casques de réalité virtuelle.

La plupart des vidéos consultables sur le Net sont filmées à la troisième personne. C’est normal, tout le monde ne possède pas une GoPro Hero 10 Black sous la main et la tendance avec une caméra de smartphone n’est pas forcément de filmer à la première personne.

Mais pour les ingénieurs de Facebook, cela pourrait être un problème. À cause de ce tropisme, les IA ne pourraient pas être d’une grande utilité aux utilisateurs de casque de réalité virtuelle, comme le HTC Vive Flow que nous venons de prendre en main.

Facebook lui-même a un intérêt pour la question, puisque le réseau social souhaite mettre un pied dans ce secteur avec ses lunettes connectées Ray-Ban et son rêve de metavers.

En quoi consiste ce projet Ego4D ?

C’est pour toutes ces raisons que Facebook annonce ce jeudi 14 octobre le lancement « d’un ambitieux projet à long terme appelé Ego4D ». Son but est à la fois simple et incroyablement large : le projet vise à « résoudre les défis de la recherche dans les vidéos à la première personne ».

Il rassemble « 13 université et laboratoires dans 9 pays ». Afin d’enseigner à l’IA à « comprendre le monde à la première personne », ils ont pour projet de faire visionner « 2 200 heures de vidéos à la première personne, mettant en scène plus de 700 participants dans leur vie quotidienne » aux IA.

Perspective égocentrique

L’objectif peut être résumé ainsi : « Ego4D permettra de faire progresser la compréhension du monde par les systèmes d’IA avec une perspective égocentrique (à la première personne) et à plus long terme de concevoir des assistants domestiques ou des lunettes AR/VR plus intelligents et immersifs. »

Plus concrètement, le réseau social cite quelques débouchées : « les dispositifs de réalité augmentée pourraient nous montrer exactement comment tenir des baguettes pendant une leçon de batterie, nous guider dans la réalisation d’une recette ou nous aider à retrouver nos clés par exemple. »

La firme de Mark Zuckerberg cite un autre exemple avec… Mark Zuckerberg pour appuyer l’intérêt de son projet :

Une vidéo postée par le PDG de Facebook Mark Zuckerberg il y a quelques semaines montrait une leçon d’escrime filmée à la première personne, plutôt qu’à la troisième comme c’est le cas habituellement à la télévision. De nombreuses personnes ont fait remarquer que l’on voyait beaucoup plus clairement les différents mouvements d’escrime réalisés par le médaillé d’or olympique Lee Kiefer.

Il s’agit bien sûr d’un projet au long cours dont nous ne verrons pas les conséquences concrètes, si elles arrivent un jour, avant bien longtemps. Que les professeurs de musique se rassurent, le temps où une IA pourra nous apprendre les rudiments d’un instrument est encore bien éloigné.