Vous avez la flemme d'activer votre caméra lors d'une réunion professionnelle ? Microsoft expérimente une IA capable de remplacer votre image.

Microsoft continue d’investir lourdement dans la recherche relative à l’intelligence artificielle générative. Dernier projet en date : VASA-1. Il permet de créer des visages animés ultra-réaliste grâce à une simple photo et de l’audio.

Une démonstration impressionnante

VASA-1 est un projet de Microsoft et non un produit commercial à ce stade, mais les résultats semblent déjà très impressionnants. L’IA est capable de générer une vidéo animée d’un visage en temps réel et synchronisée avec la voix de l’utilisateur. La vidéo envoyée est en 512 x 512 pixels à 40 images par seconde, ce n’est pas énorme, mais c’est suffisant pour une conversation sur Zoom, Microsoft Teams ou Google Meet.

À partir d’une simple image portrait d’une personne, l’IA générative peut animer la bouche, le visage et les yeux pour simuler la parole. La voix, elle, est bien celle de l’utilisatrice. On pourrait imaginer pouvoir parler au micro lors d’une réunion sans afficher sa caméra, et être remplacé par cet avatar virtuel.

Pour ne pas inciter le vol d’identité, Microsoft précise que les démonstrations présentées sur la page du projet sont faites à partir de portraits eux-mêmes générés par Dall-E 3. En effet, on pourrait imaginer mélanger ces travaux avec les autres moteurs d’IA générative comme ceux imitant la voix pour améliorer les deep fakes.

Microsoft présente aussi une démo enregistrée en temps réel où l’utilisateur passe d’un visage à un autre et va jusqu’à utiliser un moteur de synthèse vocale pour remplacer la piste audio. On peut, en temps réel, changer le cadrage de l’image. C’est vraiment impressionnant, d’autant que tout cela est réalisé avec un PC de bureau « grand public » équipé d’une puce graphique Nvidia GeForce RTX 4090, et non sur un serveur dans le cloud.

La génération de vidéo est devenue en quelques mois le nouvel eldorado des firmes spécialisées dans l’IA générative. En février, Open AI a présenté Sora, son outil de génération de vidéo.