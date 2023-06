La division dédiée à l'intelligence artificielle de Meta a présenté Voicebox, un modèle d'IA capable de générer de la parole, sans pour autant avoir été entraîné avec des échantillons en entrée.

Meta AI a présenté Voicebox, qualifiant cet outil de « premier modèle capable de s’adapter à des tâches de génération de la parole pour lesquelles il n’a pas été formé, avec des performances de pointe » dans son article d’annonce.

L’entreprise de Mark Zuckerberg affiche Voicebox comme un système de génération automatique par intelligence artificielle, le comparant aux outils de génération de texte ou d’image. Cette fois-ci, c’est pour créer de la voix.

La particularité de ce modèle, c’est qu’il n’a pas besoin d’enregistrements préalables pour créer de la voix : il a suffisamment été entraîné auparavant. Voicebox comprend un modèle nommé Flow Matching, qui ne nécessite pas des enregistrements préparés pour l’entraînement. Cela permet à Voicebox d’apprendre sur des données plus diverses, mais surtout en plus grande quantité. 50 000 heures de discours et de transcriptions de livres audio du domaine public en anglais, français, espagnol, allemand, polonais et portugais ont été « ingérés » par Voicebox. L’IA a été entrainée « à prédire un segment de parole lorsqu’on lui donne la parole environnante et la transcription d’un segment. » Ce qui signifie qu’à partir d’un contexte, Voicebox est capable de produire de la voix.

Meta indique que « le modèle peut synthétiser la parole dans six langues, ainsi que supprimer le bruit, éditer le contenu, convertir le style et générer divers échantillons. » Pour le moment, Meta a annoncé ne pas vouloir rendre le modèle ou le code accessible au public « en raison des risques potentiels d’utilisation abusive. » En effet, cela pourrait permettre de créer des deep fakes, des faux enregistrements de personnalités (y compris politiques). L’entreprise écrit vouloir « trouver un juste équilibre entre ouverture et responsabilité. »

Voicebox veut faire mieux que les autres

Meta veut faire de Voicebox un outil polyvalent, capable de réaliser plusieurs tâches autour de l’audio. Par exemple, il peut modifier une piste, pas seulement la fin, mais toute autre partie. La fonction de réduction de bruit n’est pas sans rappeler la fonction RTX Voice disponible sur les cartes graphiques Nvidia. Elle permet de réduire les bruits lorsqu’on utilise son microphone, grâce à l’intelligence artificielle. Une solution adoptée l’année dernière par AMD sur ses propres cartes graphiques également.

Meta veut aussi se faire la course avec Microsoft. En janvier, ce dernier avait présenté Vall-E, un modèle d’IA de génération de la voix. Sa particularité était qu’il nécessitait seulement trois secondes d’enregistrement pour en reproduire une. Voicebox serait meilleur que Vall-E « sur la synthèse vocale à partir de texte en termes d’intelligibilité […] et de similarité audio […] tout en étant jusqu’à 20 fois plus rapides. »

Quels usages pour la génération de voix par IA ?

Meta a évidemment imaginé plusieurs usages possibles de Voicebox et les a détaillés.

Deux secondes d’une voix suffisent pour la reproduire

Tout d’abord, il y a la synthèse vocale, à savoir la génération de voix à partir de texte. À l’aide d’un échantillon d’une voix de deux secondes, Voicebox serait capable de générer cette même voix grâce à un texte qu’on lui donne.

Meta imagine que cela permettrait « aux personnes incapables de parler de s’exprimer ou pour personnaliser les voix utilisées par les personnages non-joueurs et les assistants virtuels ». Une technologie déjà utilisée par Apple pour ses livres audio par exemple.

Traduire sa voix, dans toutes les langues, avec un accent parfait

Les Français sont connus pour ne pas être à l’aise avec les langues étrangères et avoir un accent très mauvais. Cela pourrait ne plus être le cas à l’avenir, mais pas grâce à quelques cours de langue supplémentaires. Voicebox pourrait permettre de reproduire une voix, mais dans une autre langue. L’IA en est déjà capable, en anglais, français, allemand, espagnol, polonais ou portugais.

On peut imaginer des applications concrètes dans Google Traduction par exemple. Dans un pays étranger, on pourrait dicter à son smartphone ce qu’on veut traduire et l’IA parlerait avec notre voix, mais dans la langue de destination. Autre cas pratique : la visioconférence. On pourrait traduire en temps réel sa voix au sein de Zoom, Microsoft Teams ou Google Meet.

Faire du traitement de voix

Imaginons que vous enregistriez un podcast, ou tout autre enregistrement audio. En le réécoutant, vous vous apercevez qu’un bug ou qu’un coup dans le microphone rend le son presque inaudible, en tout cas désagréable.

Voicebox est capable de régler ce problème en resynthétisant la partie corrompue. De quoi sauver un enregistrement et éviter de le refaire.

Entraîner des outils de reconnaissance vocale

Voicebox peut aussi… entraîner d’autres modèles d’IA, plus précisément des modèles de reconnaissance vocale. Meta raconte que puisque Voicebox peut générer précisément de l’audio, ces enregistrements vocaux peuvent servir à entraîner des IA de reconnaissance vocale.

Les enregistrements que Voicebox génère sont déjà étiquetés, on sait ce qui est dit, puisqu’ils ont été générés à l’aide de texte. L’article de blog publié précise que « les modèles de reconnaissance vocale entraînés sur des données synthétiques générées par Voicebox sont presque aussi performants que les modèles entraînés sur des données réelles ». Meta affirme qu’il n’y a qu’1 % de dégradation du taux d’erreur avec Voicebox par rapport à des enregistrements d’entraînement réels.

