
Le nom de « Gemini Omni » avait fuité dans le code de l’application Gemini quelques jours avant la Google I/O 2026. Fin du mystère, on sait désormais ce que nous réserve cet énième modèle IA de la firme de Mountain View qui a aussi présenté Gemini 3.5 Flash.
Google a d’immenses ambitions pour Gemini Omni. En effet, le CTO de DeepMind, Koray Kavukcuoglu, présente cette innovation comme une « étape décisive » vers l’IA générale (AGI). Pour rappel, il s’agit de ce stade théorique où une intelligence artificielle développerait des capacités cognitives similaires à l’humain et serait autodidacte.
Plus multimodal que jamais
Ainsi, Gemini Omni a une promesse simple à résumer : générer n’importe quel format de contenu (sortie, output) à partir de n’importe quel type de format (entrée, input). Concrètement, l’utilisateur pourra lui fournir un mélange d’images, d’audio et de vidéos, et Omni produira une vidéo cohérente assemblant tous ces éléments.
Le modèle revendique une compréhension intuitive de la physique : un personnage qui marche se comporte comme un personnage qui marche, pas comme un mannequin flottant. Encore plus fou : vous pourrez lui fournir une photo ou une vidéo de vous pour générer un avatar IA, voix comprise, et vous incruster dans n’importe quelle scène générée.
Gemini Veo vs Gemini Omni
Gemini Omni peut donc générer des vidéos. Cela semble évidemment faire doublon avec Veo, un modèle de Google conçu spécifiquement pour cette tâche. Mais il y a une nuance.
Veo reste un modèle text-to-video : on décrit une scène à l’écrit et il la génère. Omni va plus loin : il accepte du texte, mais aussi de l’audio, des images et des vidéos en entrée, et il sait éditer. On lui donne sa vidéo, on lui demande de changer le décor, le style visuel ou le personnage, il le fait. Google parle même de « changer la réalité ».
Omni est un véritable modèle multimodal en entrée et un véritable modèle multimodal en sortie.
Koray Kavukcuoglu – Google DeepMind
D’ailleurs, la génération de vidéo n’est que la première étape pour les outputs (sorties) de Gemini Omni. « Nous commençons par les sorties vidéo et, au fil du temps, nous ajouterons également le support des images et du texte », affirme Koray Kavukcuoglu.
Ainsi, contrairement à Veo, « Omni est un véritable modèle multimodal en entrée et un véritable modèle multimodal en sortie. »
On verra à l’usage si la promesse tient au-delà des démos. À noter que cette logique profondément multimodale est dans l’ADN de Gemini depuis sa version 2.0.
Qui pourra l’utiliser ?
Le premier modèle déployé s’appelle Gemini Omni Flash. Il est accessible aux abonnés Google AI Plus, Pro et Ultra via l’application Gemini, Google Flow et YouTube Shorts. Une version Omni Pro, plus musclée, est annoncée dans les semaines à venir pour les développeurs et les entreprises via API.

Côté garde-fous, chaque vidéo générée ou modifiée embarquera automatiquement SynthID, le filigrane numérique invisible maison de Google qui avertit le quidam que tel ou tel contenu est généré par IA.
Toutes les annonces de la Google I/O 2026 (Gemini et Android XR)
La Google I/O 2026 a été le théâtre d’une multitude d’annonces alors que l’Android Show de la semaine précédente nous avait déjà gâtés. Voici les annonces à retenir autour des évolutions de Gemini et d’Android XR.
- Les immense promesses de Gemini 3.5 Flash et Gemini 3.5 Pro.
- L’ambitieux modèle multimodal Gemini Omni sur lequel Google mise énormément.
- Le puissant agent IA Gemini Spark qui travaille à votre place 24h/24.
- La révolution IA de la barre de recherche de Google.
- Les évolutions du mode AI de Google Search.
- Le nouveau design de l’app Gemini avec Neural Expressive
- L’aperçu officiel des lunettes Android XR de Google et Samsung.
- Le nouvel outil de retouche photo par IA Google Pics.
- Google Shopping bouleverse vos achats en ligne avec Gemini.
- Comment Gmail, Docs et Keep vont se métamorphoser avec la commande vocale de Gemini.
- La nouveauté Daily Brief de Google Gemini.
- Les promesses de Google pour une industrie de l’IA transparente et éthique.
- L’étonnante association de Google Genie et Street View pour mettre l’IA dans le monde réel.
- La fonction très pratique de Gemini sur macOS.
- Les lunettes Android XR de XREAL se concrétisent aussi.
- L’Europe oubliée pendant la Google I/O 2026.
- Les nouveaux logos des applications Google.
Tous nos bons plans directement sur WhatsApp. Rejoignez Frandroid Bons Plans, zéro spam garanti.

Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et .
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.