Les équipes de Microsoft Research viennent d’annoncer avoir battu un nouveau record dans le domaine de la reconnaissance vocale, rattrapant de ce fait l’être humain.

Voici un record peu anodin que vient de battre l’équipe de recherche de Microsoft dédiée à tout ce qui concerne la voix et le dialogue. Au test de Switchboard, le logiciel de Microsoft a été capable de reconnaître les textes audio avec un taux d’erreur de seulement 5,1%. Ce taux est important, car il s’agit du taux d’erreur moyen pour un être humain, autrement dit le logiciel a pu rattraper les capacités de l’Humain dans ce domaine.

 

Un record en laboratoire

Il faut toutefois tempérer ce nouveau record et le placer dans son contexte. Le test de Switchboard est un ensemble de conversation téléphonique regroupé par la communauté scientifique depuis plus de 20 ans. Le but est ici de retranscrire « bêtement » les échanges entre deux inconnus concernant des sujets ordinaires comme le sport ou la politique.

Bien que Microsoft soit parvenue à atteindre les 5,1 % de taux d’erreur, cela s’est fait en laboratoire et non dans des conditions de terrains, avec un environnement plus bruyant et des micros plus éloignés.

 

De la reconnaissance vocale à la compréhension

Il faut également comprendre qu’il ne s’agit ici que de reconnaissance vocale en anglais, et non de compréhension. Le logiciel de Microsoft ne comprend pas ce qu’il retranscrit dans les conversations, et perd notamment le contexte de la discussion.

De plus, l’équipe de recherche avoue elle-même que le logiciel ne reconnait pas encore ni les accents ni les dialectes locaux. Le but de Microsoft est donc maintenant de généraliser une aussi bonne reconnaissance vocale, et de proposer une compréhension complète de la retranscription par la machine.

 

Un futur atout pour Cortana

Ce travail de recherche réalisé par Microsoft bénéficie évidemment à son assistant personnel, Cortana, que l’on retrouve sur Windows, Android et iOS. L’application devrait bientôt améliorer ses capacités de reconnaissance vocale, notamment en anglais, pour mieux concurrencer Google Assistant ou Samsung Bixby.

À lire sur FrAndroid : Google Assistant : que peut-on faire avec l’IA de Google ?