La nouvelle technologie IA de Facebook va booster le sonotone de votre mamie

L'IA de Facebook est capable d'isoler plusieurs interlocuteurs dans un brouhaha

 

Facebook a mis au point une nouvelle intelligence artificielle capable de d'isoler efficacement les voix de plusieurs interlocuteurs dans un brouhaha. Innovante, cette technologie pourrait changer beaucoup de choses dans des secteurs variés allant des prothèses auditives aux marchés de la réalité virtuelle ou augmentée... en passant par les assistants personnels.

facebook 37 millions utilisateurs france

La nouvelle IA de Facebook s’attaque au brouhaha pour faire ressortir proprement les voix de plusieurs personnes… depuis un seul micro ! // Source : Unsplash / Alex Haney

Les domaines d’application sont nombreux pour la nouvelle IA de Facebook. Après le lancement par Nvidia d’un système RTX Voice capable de supprimer avec une efficacité bluffante les bruits de fond parasites lors d’échanges vocaux, c’est au tour de Facebook d’apporter sa contribution en matière de traitement du son. Sur son blog Facebook IA, le géant californien a dévoilé les grandes lignes d’une technologie permettant d’isoler, à partir d’un seul et unique micro et avec beaucoup de finesse, les voix de plusieurs interlocuteurs dans un brouhaha.

Cette nouveauté pourrait, de l’aveu même du groupe, améliorer l’expérience d’écoute des personnes équipées d’appareils auditifs (tout spécialement dans les lieux publics, lors de fêtes ou au restaurant), mais aussi s’appliquer aux marchés de la réalité virtuelle et augmentée, ou encore au secteur des assistants personnels, pour permettre la captation de requêtes plus claires malgré les bruits de fond.

Jusqu’à 5 interlocuteurs isolés dans le bruit ambiant

En tout, Facebook explique être capable d’isoler les voix d’un maximum de 5 interlocuteurs malgré un fort bruit de fond, tandis que son système est capable de détecter ces différents interlocuteurs et de maintenir — sur le long terme — leurs voix séparées les unes des autres pour une restitution plus claire.

Pour parvenir au résultat dévoilé dans la vidéo accessible ici, Facebook indique avoir eu recours à de nombreuses fonctions objectif (loss function) permettant d’entrainer l’IA, mais aussi d’optimiser le processus de séparation des voix. L’une d’entre elles a en outre été spécialement conçue pour le suivi des voix, afin que les fréquences de chaque interlocuteur restent bien centrées sur des canaux différents. L’entrainement de l’IA s’est fait avec deux, trois, quatre, puis cinq voix, note enfin le groupe, et ce au travers de modèles différents.

Comme l’indique Facebook, si des systèmes de ce genre existaient déjà, ils mettaient seulement à contribution des modèles et décodeurs dont l’efficacité affichait vite ses limites pour détecter différents interlocuteurs… et conserver les fréquences de leurs voix séparées les unes des autres sur le long terme. Le système proposé par Facebook, lui, parvient à un résultat bien meilleur en se basant sur un réseau neuronal capable d’exploiter directement des fréquences brutes.

Les derniers articles