VALL-E : cette IA est capable de répliquer votre voix en un temps record

Baptisé VALL-E, un nouveau modèle d’intelligence artificielle est capable de répliquer votre voix après avoir passé seulement trois secondes à l’écouter. Une avancée aussi prometteuse qu’inquiétante qui ne fonctionne pour l’instant qu’en anglais.

Cette IA agit comme un perroquet // Source : David Clode sur Unsplash

Après ChatGPT pour la génération de texte, Midjourney pour la composition de tableaux et d’illustrations, ou encore MusicLM pour la création musicale, un nouveau modèle d’intelligence artificielle s’attaque à la voix — et pas n’importe laquelle : la vôtre. Conçue par Microsoft et évoquée pour la première fois en janvier, VALL-E peut en effet créer des messages audio qui répliquent le son de votre voix.

Comme le soulignent nos collègues de Numerama, VALL-E se base sur le concept de text-to-speech synthesis ou TTS. En d’autres termes, elle est capable de prononcer le texte de votre choix en s’appuyant d’une part sur un texte écrit, et de l’autre sur l’enregistrement d’une voix, la vôtre en l’occurrence, récitant n’importe quel autre texte. Le principal atout de VALL-E est toutefois la durée d’écoute nécessaire pour qu’elle puisse répliquer votre voix : 3 secondes seulement, en lieu et place des 60 secondes requises au minium pour la technologie concurrente, dévoilée par Amazon l’an passé.

Wall-E ne fonctionne pour l’instant qu’avec la langue anglaise

Depuis l’annonce de VALL-E début janvier, les chercheurs ont pu réaliser de nombreux tests, tant qualitatifs que quantitatifs souligne Numerama, et ces derniers s’avèrent concluants. L’IA de Microsoft a suffisamment progressé pour dépasser les performances des modèles actuels sur le réalisme. Comprenez que cette nouvelle IA est capable d’imiter votre voix avec beaucoup de réalisme… et sans avoir une prononciation robotique.

Le schéma du fonctionnement de Vall-E // Source : Microsoft

Pour arriver à ce résultat, VALL-E s’appuie sur un corpus d’apprentissage touffu comprenant 60 000 heures d’enregistrement en anglais avec 7 000 personnes différentes, apprend-on. Deux ombres au tableau toutefois : l’IA de Microsoft se limite pour l’instant seulement à l’anglais (son corpus d’apprentissage n’a en effet été enregistré qu’avec des anglophones), et elle est vraisemblablement peu à l’aise avec les accents (nombreux dans la langue anglaise) auxquels elle n’a pas encore été confrontée.

Attention aux risques de détournements…

Quoi qu’il en soit, et s’il lui faudra encore s’entrainer un peu, VALL-E pourrait prochainement servir à de nombreuses applications différentes, notamment « pour la simplification de la production, ou la réduction des coûts », souligne Louis-François Bouchard, doctorant à l’Institut québécois d’intelligence artificielle interrogé par Numerama. Il faut néanmoins être réaliste, ce nouveau modèle d’IA servira aussi aux deep-fake vocaux… et aux détournements qui iront avec.

« C’est un outil qui peut être utile et utilisé totalement légalement. Mais il peut aussi être mal utilisé. Tout dépend des mains entre lesquelles il sera », convient d’ailleurs Louis-François Bouchard. « Je pense qu’à l’avenir, il faudra être très vigilants dans ce que nous voyons et entendons en ligne », a-t-il ajouté.

Un problème dont Microsoft est conscient, reste à savoir comment la firme se prépare pour y faire face… et en l’occurrence, la politique actuelle du groupe semble plus tournée vers la vitesse de mise sur le marché de ses différentes IA que vers l’éthique qui devrait aller avec. Preuve en est, la firme a récemment licencié une équipe spécialisée justement sur cette problématique.

Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.