Avec cet outil d'IA, imiter n'importe quelle voix est encore plus simple

Lancé en bêta en janvier dernier, l’outil de génération de voix d’ElevenLabs esquisse un avenir où n’importe quelle voix pourra être créée de toutes pièces ou même clônée en quelques clics. Et forcément, une telle innovation n’est pas vue d’un bon œil par les professionnels de la création et du divertissement.

ElevenLabs sort de beta // Source : Photo de Jacek Dylag sur Unsplash

L’IA générative s’immisce peu à peu dans le monde de l’audio. Lancée en ce début d’année, la start-up ElevenLabs a développé ses propres modèles d’IA audio au sein d’une galaxie d’outils aux possibilités vertigineuses. La société permet ainsi à quiconque de créer des voix de toutes pièces et transformer n’importe quel texte en discours, et ce, dans plus de 30 langues. Pensez synthèse vocale, mais avec la puissance du machine learning.

Après une levée de fonds de 19 millions de dollars en juin dernier, l’outil est officiellement lancé pour le grand public. ElevenLabs est cependant dans la ligne de mire de plusieurs industries liées au divertissement, mais aussi à l’éducation. Fondée par Mati Staniszewski, qui a officié chez Palantir, et Piotr Dabkowski, ancien ingénieur chez Google, la start-up a essuyé de nombreuses critiques liées à sa fonctionnalité phare : le clonage de voix.

AI narrates The Great Gatsby.

Listen to a fragment from the classic by F. Scott Fitzgerald. Narrated by a fully AI-generated voice. No corrections were made. pic.twitter.com/vQdorBjQK6
— ElevenLabs (@elevenlabsio) January 29, 2023

S’il vous est ainsi possible d’entrainer le modèle avec votre propre voix et pour vous entendre parfaitement parler portugais, d’autres utilisateurs l’ont exploité pour de plus fâcheux résultats.

Le clonage de voix, une fonctionnalité controversée

Qui aurait cru que cloner la voix de n’importe qui allait provoquer des débordements ? En réalité, tout le monde. Car il a fallu moins d’un mois avant que des utilisateurs mal intentionnés de la plateforme 4chan en détournent l’usage. Plusieurs utilisateurs ont ainsi pu cloner les voix de célébrités comme Emma Watson, Joe Rogan ou encore le décrié Ben Shapiro déclarant des propos racistes.

ElevenLabs était alors monté au créneau en proposant plusieurs mesures pour empêcher ce type de détournement : réserver le clonage de voix aux abonnements payants (qui commence actuellement à 1 dollar par mois à l’occasion d’une promo de lancement), proposer des outils pour détecter les audios générés par l’IA ou encore une plus grande modération sur sa propre plateforme.

L’industrie du divertissement retient son souffle

La musique n’est pas épargnée, on l’a vu récemment avec de nombreux utilisateurs qui ont ainsi pu faire chanter Squeezie, Freddie Mercury ou encore Frank Sinatra sur des reprises de Dua Lipa, Michael Jackson et même… La Reine des Neiges. Sur ce sujet, l’Asie a un temps d’avance : HYBE, la société derrière le phénomène de k-pop BTS, a racheté en octobre dernier la société Supertone IA afin de cloner les voix des différents chanteurs du groupe pour « des contenus digitaux qui expriment du réconfort et de l’émotion aux fans ».

Le groupe BTS a déjà cédé les droits de ses voix // Source : BTS

C’est globalement toute l’industrie de la création et du divertissement qui retient son souffle. La puissance d’un tel outil permettra ainsi de créer des doublages inédits ou encore créer des livres audio sans le travail de comédiens de doublage. Selon le site Motherboard, de plus en plus d’acteurs sont incités à céder les droits de leur voix, un sujet au centre de la grève actuelle de la profession à Hollywood. Et on les comprend : le temps dédié à la localisation des voix dans des dizaines de pays pourrait être drastiquement réduit dans le domaine du jeu vidéo ou de cinéma. Alors qu’il s’agit là de l’art de toute une profession.

Avec cet outil d’IA, cloner une voix est encore plus simple 🎙️