Google I/O 2026 : qu'est-ce que Gemini Omni, l'IA de nouvelle génération ?

Google a officialisé Gemini Omni pendant la Google I/O 2026. Une IA qui ne se contente plus de fabriquer des vidéos depuis du texte et qui veut carrément remixer la réalité en vous insérant à l’envi dans les contenus générés.

Le nom de « Gemini Omni » avait fuité dans le code de l’application Gemini quelques jours avant la Google I/O 2026. Fin du mystère, on sait désormais ce que nous réserve cet énième modèle IA de la firme de Mountain View qui a aussi présenté Gemini 3.5 Flash.

Google a d’immenses ambitions pour Gemini Omni. En effet, le CTO de DeepMind, Koray Kavukcuoglu, présente cette innovation comme une « étape décisive » vers l’IA générale (AGI). Pour rappel, il s’agit de ce stade théorique où une intelligence artificielle développerait des capacités cognitives similaires à l’humain et serait autodidacte.

Plus multimodal que jamais

Ainsi, Gemini Omni a une promesse simple à résumer : générer n’importe quel format de contenu (sortie, output) à partir de n’importe quel type de format (entrée, input). Concrètement, l’utilisateur pourra lui fournir un mélange d’images, d’audio et de vidéos, et Omni produira une vidéo cohérente assemblant tous ces éléments.

Démo de Gemini Omni // Source : Google

Le modèle revendique une compréhension intuitive de la physique : un personnage qui marche se comporte comme un personnage qui marche, pas comme un mannequin flottant. Encore plus fou : vous pourrez lui fournir une photo ou une vidéo de vous pour générer un avatar IA, voix comprise, et vous incruster dans n’importe quelle scène générée.

Démo de Gemini Omni // Source : Google

Gemini Veo vs Gemini Omni

Gemini Omni peut donc générer des vidéos. Cela semble évidemment faire doublon avec Veo, un modèle de Google conçu spécifiquement pour cette tâche. Mais il y a une nuance.

Veo reste un modèle text-to-video : on décrit une scène à l’écrit et il la génère. Omni va plus loin : il accepte du texte, mais aussi de l’audio, des images et des vidéos en entrée, et il sait éditer. On lui donne sa vidéo, on lui demande de changer le décor, le style visuel ou le personnage, il le fait. Google parle même de « changer la réalité ».

Omni est un véritable modèle multimodal en entrée et un véritable modèle multimodal en sortie.
Koray Kavukcuoglu – Google DeepMind

D’ailleurs, la génération de vidéo n’est que la première étape pour les outputs (sorties) de Gemini Omni. « Nous commençons par les sorties vidéo et, au fil du temps, nous ajouterons également le support des images et du texte », affirme Koray Kavukcuoglu.

Ainsi, contrairement à Veo, « Omni est un véritable modèle multimodal en entrée et un véritable modèle multimodal en sortie. »

On verra à l’usage si la promesse tient au-delà des démos. À noter que cette logique profondément multimodale est dans l’ADN de Gemini depuis sa version 2.0.

Qui pourra l’utiliser ?

Le premier modèle déployé s’appelle Gemini Omni Flash. Il est accessible aux abonnés Google AI Plus, Pro et Ultra via l’application Gemini, Google Flow et YouTube Shorts. Une version Omni Pro, plus musclée, est annoncée dans les semaines à venir pour les développeurs et les entreprises via API.

L’outil Google Flow va profiter de Gemini Omni Flash // Source : Google

Côté garde-fous, chaque vidéo générée ou modifiée embarquera automatiquement SynthID, le filigrane numérique invisible maison de Google qui avertit le quidam que tel ou tel contenu est généré par IA.