Avec cette IA, Microsoft peut générer de la voix, ou supprimer du bruit ambiant

Microsoft a présenté SpeechX, une intelligence artificielle de génération de la parole. Plus qu’un générateur de voix, cet outil peut aussi transformer des paroles, ou retirer du bruit ambiant. L’objectif pour l’entreprise : en faire un outil polyvalent, et surtout meilleur que les autres.

Source : Turag Photography via Unsplash

En janvier dernier, Microsoft dévoilait Vall-E : un modèle d’IA permettant de reproduire une voix à partir de trois secondes d’enregistrement. Quelques mois plus tard, c’est un nouveau modèle que présente la firme, qui se veut plus ubiquiste. Baptisé SpeechX, Microsoft prévoit déjà plusieurs usages pour cette intelligence artificielle spécialisée dans la voix.

SpeechX : cet outil qui peut (presque) tout faire avec la voix

C’est sur la section dédiée à la recherche du site de Microsoft que l’on découvre SpeechX, dans une page mise en ligne ce 14 août. On apprend qu’il s’agit d’un « modèle polyvalent de génération de la parole qui s’appuie sur des messages audio et textuels. » Pour sa création, il a été entraîné sur 60 000 heures de données audio. Pour Microsoft, « les modèles existants sont encore limités dans la gestion de diverses tâches de génération », notamment dans des mauvaises conditions acoustiques.

Le fonctionnement de SpeechX // Source : Microsoft

Les usages pensés par Microsoft sont pluriels. L’entreprise mentionne le text-to-speech (autrement dit la génération de voix à partir de texte), la suppression du bruit ambiant, l’extraction d’une voix d’un locuteur ciblé, la suppression et l’édition de la parole (la voix cible peut être modifiée en préservant le reste d’une piste audio).

Des démonstrations assez impressionnantes de l’IA de Microsoft

Sur la page dédiée à SpeechX toujours, Microsoft a publié quelques démonstrations. On a par exemple le cas du text-to-speech, où SpeechX reproduit une voix à partir de trois secondes d’enregistrement, comme Vall-E, en changeant les mots. Puis, Microsoft a fait prononcer à ces voix les mêmes phrases que son IA, afin d’avoir la comparaison. Même sans cette dernière, les résultats sont assez impressionnants : si l’on considère que la qualité audio est mauvaise, on peut passer outre l’aspect quelque peu robotique des voix générées. En ayant la comparaison, ça saute aux oreilles, mais sans, c’est moins le cas.

Les usages de SpeechX // Source : Microsoft

Là où c’est d’autant plus fourbe, c’est dans le cas d’une modification en pleine phrase. SpeechX est capable de remplacer quelques mots au sein d’une phrase prononcée. Dans ce cas, la voix artificielle est camouflée par la voix naturelle et on peine vraiment à faire la différence entre les deux. Même chose pour les mots mal prononcés. Quant à la suppression du bruit ambiant, les démonstrations publiées semblent moins performantes que RTX Voice, l’équivalent chez Nvidia. Son rival AMD a d’ailleurs une technologie similaire sur ses cartes graphiques.

Pour aller plus loin
Voix générées par l’IA : les comédiens français tirent la sonnette d’alarme

Microsoft n’est pas le seul à travailler sur des IA spécialisées dans l’audio : par exemple, Meta a présenté il y a quelques mois Voicebox, un outil capable de traduire sa voix dans une autre langue. Du côté d’Apple, on utilise déjà l’IA pour lire des livres audio.

Les bons plans n’attendent pas : abonnez-vous à notre canal WhatsApp Frandroid Bons Plans ! (zéro spam, promis).