DeepMind lit maintenant sur les lèvres mieux qu’un humain. C’est l’annonce faite par des chercheurs de la division Intelligence Artificielle de Google, qui ont entraîné leur IA sur plusieurs milliers d’heures de télévision.

google-deepmind

Google poursuit ses travaux dans le domaine de l’intelligence artificielle et vient d’annoncer une nouvelle prouesse de DeepMind. Après avoir battu l’un des meilleurs joueurs mondiaux de Go, celui-ci lirait maintenant mieux sur les lèvres qu’un humain.

5000 heures passées à lire les lèvres

Ce nouvel exploit de DeepMind est rendu possible par les milliers d’heures qu’il a passées à lire sur les lèvres d’humains dans divers programmes de la BBC. Cette énorme ressource lui a permis d’avoir un corpus de 118,000 phrases à analyser. Les chercheurs ont ainsi mis au point une modélisation dénommée « Watch, Listen, Attend and Spell« . Celle-ci permet d’obtenir de meilleurs résultats qu’un interprète humain de haut niveau, et est capable de déchiffrer 46,8 % des mots contre uniquement 12,4 % pour l’interprète humain, dans une vidéo choisie au hasard dans les programmes de la BBC entre 2010 et 2015.

Pour quelles applications ?

Cette montagne de données devrait d’ailleurs être rendue disponible afin que les autres chercheurs du domaine puissent également en profiter. Ces nouvelles capacités pourraient permettre d’améliorer la performance des assistants vocaux, comme celui de Google. Ou bien peut-être qu’il pourrait servir un but plus honorable, et ainsi aider les personnes sourdes et malentendantes dans leur vie quotidienne, par exemple. Si vous vous inquiétez qu’une technologie puisse servir à l’amélioration d’outils de surveillance, un obstacle majeur s’y oppose cependant. En effet, toutes ces scènes sont à la télévision, dans un environnement très bien éclairé, et contrôlé. Lire les lèvres d’un passant dans la rue, surtout de nuit, reste donc, pour le moment, du domaine de l’impossible.