Voici « Fugatto » : un outil Nvidia capable de créer des sons jamais entendu jusqu’à présent

Les équipes de Nvidia viennent d’annoncer une technologie capable de changer le milieu de l’audio. Intitulé Fugatto, cet outil peut créer de la voix, de la musique ou des bruitages à partir d’une demande écrite.

Après les images et la vidéo, place au son pour l’intelligence artificielle. Les chercheurs en IA de chez Nvidia viennent de créer un « couteau suisse pour le son » permettant à ses utilisateurs de créer littéralement tout ce qui existe et n’a jamais existé.

L’imagination comme seule limite

Nvidia frappe fort avec son nouvel outil. Sur les premières images fournies par l’entreprise, on peut observer une interface simple où l’utilisateur rentre une commande textuelle et obtient un son, une musique ou un bruitage en réponse.

Exemple d’utilisation : Fugatto « crée un son dans lequel un train passe et devient un orchestre de cordes luxuriant » // Source : Nvidia

Si l’outil peut paraître classique et faire penser à d’autres comme Sono, Fugatto trouve son originalité dans la possibilité de créer ce qui n’existe pas. Il est par exemple possible de lui demander de créer un son de « saxophone hurlant, puis aboyant sur de la musique électronique avec des chiens aboyants ». Si le résultat de la demande peut ne pas plaire, il a le mérite d’ouvrir le champ des possibles.

À côté de cela, Fugatto présente des outils plus classiques, mais tout aussi efficace. Il est capable de créer un extrait musical sur la base d’une commande textuelle, d’ajouter ou de supprimer des instruments sur une piste audio ou bien de modifier l’accent ou l’émotion d’une voix.

Avec une telle précision dans la réponse, il y a fort à parier que sans contrôle, cette nouvelle technologie risque de provoquer de nouveaux remous chez les professionnels du son et de la voix.

Lien YouTube S’abonner à Frandroid

Comment ça marche ?

Pour concevoir cet outil, Nvidia indique s’être basé sur des travaux antérieurs de leurs équipes dans des domaines allant de la modélisation de la parole en passant par le vocodage audio.

Ars Technica précise que Nvidia a travaillé sur une série de collections d’audio en open source représentant au moins 50 000 heures d’audio. Là-dessus, Nvidia a pu constituer un modèle avec 2,5 milliards de paramètres permettant à Fugatto de choisir la meilleure option possible. Pour affiner encore plus leur modèle, Nvidia indique s’est entourée d’un groupe de chercheurs provenant de l’Inde, du Brésil, de la Chine, de Jordanie et de la Corée du Sud.

Pour le moment, Nvidia n’a pas communiqué de date de sortie pour cet outil, mais il est possible pour les férus d’audio de se plonger dans la documentation de Fugatto disponible sur leur Github.

Un petit geste pour Frandroid ? Abonnez-vous à Frandroid sur Google pour ne manquer aucun de nos articles.