Requin laser, Mona Lisa qui bâille : Google impressionne avec VideoPoet

 

Google a fait la démonstration d'une nouvelle IA générative. Cette fois, il s'agit de créer de courtes vidéo de trois secondes avec une très grande modularité.

Pas un jour ne passe sans la démonstration d’une nouvelle IA générative. Cette fois, c’est Google qui s’y colle avec son projet nommé VideoPoet et dont les premières démonstrations impressionnent les internautes. Cette IA générative se concentre sur la génération de courte vidéo au format vertical de 2 secondes. La force de VideoPoet, c’est sa capacité à s’adapter aux besoins de l’utilisateur. L’IA propose, en effet, de créer des vidéos à partir d’un simple texte, mais aussi à partir d’une image, d’une autre vidéo, ou encore de rajouter l’audio à une vidéo.

Le terrain difficile de la génération vidéo

Si la génération de texte ou d’image a déjà fait ses preuves avec ChatGPT et MidJourney, les choses sont un peu plus compliquées pour générer de la vidéo. En effet, une vidéo n’est rien d’autre qu’une succession d’images sur le papier, mais en pratique, chaque image doit être cohérente avec la précédente et la suivante pour créer une scène logique. C’est bien là toute la difficulté pour les IA, elles sont douées pour créer des images très différentes les unes des autres, mais pas pour faire des microajustements logiques dans une image déjà dessinée. C’est pour cela qu’à ce stade la génération de vidéo par IA se limite souvent à des vidéos très courtes. Dans le cas de Google VideoPoet, pas plus de 2 secondes.

Mais les démos présentées par Google restent impressionnantes, surtout que la firme ne peut faire de la génération de vidéo sans fournir aucune image à la base pour l’IA. On découvre ainsi « un requin qui tire un laser venant de sa bouche » ou « un renard origami qui marche dans une forêt ». L’exemple le plus amusant, c’est peut-être « une femme qui baille », en associant cette commande avec l’image de Mona Lisa.

La génération audio est également assez impressionnante. Elle se fait en fournissant une vidéo sans son à l’IA, qui est alors capable de générer une piste audio correspondante à ce qu’elle comprend de la scène, sans la moindre aide par du texte. Une vidéo d’un chat jouant du piano, et l’IA ajoute quelques notes de musiques jouées au piano. Un train à vapeur avançant sur des rails, et l’IA rajoute le bruit caractéristique d’un tel véhicule.

Pour finir sa démonstration de force, Google s’est amusé à associer sa nouvelle IA VideoPoet avec Google Bard. Ce dernier a généré un script sous forme d’une multitude de commandes à envoyer à VideoPoet, qui a créé une trentaine de vidéos de 2 secondes. La firme a alors mis bout à bout les différentes vidéos pour tenter de raconter une histoire de 60 secondes.

Cette démonstration permet aussi de mettre en lumière les limites de cette IA. On passe d’une scène à l’autre sans trop de cohérences, et les images générées ne sont pas au niveau des dernières créations statiques de MidJourney.

Reste que la génération de vidéo semble le prochain palier à atteindre pour les champions de l’IA, et Google semble bien avoir pris une petite avance avec VideoPoet dans le domaine. En voyant à plus long terme, on ne peut qu’imaginer ce que donnera ce genre d’IA générative une fois associée à YouTube ou les plateformes comme TikTok.


Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.