Google Deepmind sait maintenant mieux lire sur les lèvres qu’un humain

24 novembre 201624/11/2016 • 16:29

DeepMind lit maintenant sur les lèvres mieux qu’un humain. C’est l’annonce faite par des chercheurs de la division Intelligence Artificielle de Google, qui ont entraîné leur IA sur plusieurs milliers d’heures de télévision.

Google poursuit ses travaux dans le domaine de l’intelligence artificielle et vient d’annoncer une nouvelle prouesse de DeepMind. Après avoir battu l’un des meilleurs joueurs mondiaux de Go, celui-ci lirait maintenant mieux sur les lèvres qu’un humain.

5000 heures passées à lire les lèvres

Ce nouvel exploit de DeepMind est rendu possible par les milliers d’heures qu’il a passées à lire sur les lèvres d’humains dans divers programmes de la BBC. Cette énorme ressource lui a permis d’avoir un corpus de 118,000 phrases à analyser. Les chercheurs ont ainsi mis au point une modélisation dénommée « Watch, Listen, Attend and Spell« . Celle-ci permet d’obtenir de meilleurs résultats qu’un interprète humain de haut niveau, et est capable de déchiffrer 46,8 % des mots contre uniquement 12,4 % pour l’interprète humain, dans une vidéo choisie au hasard dans les programmes de la BBC entre 2010 et 2015.

Pour quelles applications ?

Cette montagne de données devrait d’ailleurs être rendue disponible afin que les autres chercheurs du domaine puissent également en profiter. Ces nouvelles capacités pourraient permettre d’améliorer la performance des assistants vocaux, comme celui de Google. Ou bien peut-être qu’il pourrait servir un but plus honorable, et ainsi aider les personnes sourdes et malentendantes dans leur vie quotidienne, par exemple. Si vous vous inquiétez qu’une technologie puisse servir à l’amélioration d’outils de surveillance, un obstacle majeur s’y oppose cependant. En effet, toutes ces scènes sont à la télévision, dans un environnement très bien éclairé, et contrôlé. Lire les lèvres d’un passant dans la rue, surtout de nuit, reste donc, pour le moment, du domaine de l’impossible.

Envie de retrouver les meilleurs articles de Frandroid sur Google News ? Vous pouvez suivre Frandroid sur Google News en un clic.

Signaler une erreur dans le texte

Les notifications web

Les notifications push vous permettent de recevoir toute l'actualité de Frandroid en temps réel dans votre navigateur ou sur votre téléphone Android.

Activer les notifications

Choisir les notifications

En savoir plus sur les notifications web

Les algorithmes de recommandation | Antoine Verdier

[…] entre autres, à un système d’améliorer la qualité des images pour pouvoir zoomer dedans, de lire sur les lèvres ou même d’apprendre le sens de […]
Gazgaz

Si seulement ils pouvaient se cacher pour de bon et ne plus revenir. :(
Pfelelep_is_back

C'est pour ça qu'on les voit souvent se cacher la bouche quand il se parlent. Je crois que c'est les joueurs de double au tennis qui ont commencé.
Pfelelep_is_back

Je me suis posé la même question, et une autre sur la qualité. OK, l'ordi reconnaît un mot sur deux, mais lesquels ? Si c'est pour identifier les articles et les pronoms mais pas les verbes, reconstituer le sens d'une phrase s'avère hasardeux. Car c'est au niveau de la phrase et pas du mot qu'est le sens.
SmprAT

C'est qui leur humain de test? Je connais quelques personnes sourdes et d'autres qui pratiquent la lsf depuis des années, ils comprennent bien ce qu'ils lisent sur nos lèvres.
Gazgaz

Ça a déjà été dis, redis, et reredis. ^^ Par contre pour savoir ce que se marmonnent nos hommes politiques cela pourrait être drôle.
Pfelelep_is_back

Que ce soit une avancée, c'est incontestable. Par contre, pour l'"assistant vocal"... C'est déjà moyen à la voix, alors avant qu'il lise sur les lèvres il va falloir encore bosser.
Mr PSYKO

On va enfin savoir ce que Materazzi et Zidane ont pu se dire avant le coup de boule ? Comment ça, ce n'est pas l'objectif prioritaire de Google ?
Luke S

Pas concerné... Que la Force soit avec vous.
Sobidel

"Si vous vous inquiétez qu’une technologie puisse servir à l’amélioration d’outils de surveillance, un obstacle majeur s’y oppose cependant. En effet, toutes ces scènes sont à la télévision, dans un environnement très bien éclairé, et contrôlé. Lire les lèvres d’un passant dans la rue, surtout de nuit, reste donc, pour le moment, du domaine de l’impossible." C'est valable si on filme avec la caméra d'un smartphone, mais pour un application militaire ou une camera spécialisée, c'est tout à fait faisable, même de nuit.