Google lance une IA qui utilise Chrome à votre place : voici ce qu'elle peut faire

Un jour après OpenAI, Google lance son propre agent IA capable de contrôler un navigateur. Gemini 2.5 Computer Use exploite la compréhension visuelle pour analyser les interfaces web et effectuer des actions autonomes : remplir des formulaires, tester des UI, naviguer sur des sites sans API.

Il ne passe pas une journée sans annonce dans le domaine de l’IA. Hier, OpenAI avec ses apps, aujourd’hui Google avec une énième évolution de Gemini 2.5…. Gemini 2.5 Computer Use.

Pour aller plus loin
ChatGPT veut concurrencer iOS et Android : OpenAI lance des apps directement dans le chatbot

Il s’agit d’un modèle d’IA capable d’utiliser un navigateur web comme un utilisateur humain. Cliquer, faire défiler, taper du texte, glisser-déposer : l’IA interagit avec les interfaces conçues pour les humains plutôt que via des API. Une réponse directe à OpenAI avec ChatGPT Agen, et à Anthropic qui propose déjà cette fonction depuis un an avec Claude.

Une IA qui voit et comprend les interfaces web

Gemini 2.5 Computer Use exploite la compréhension du langage naturel et la vision par ordinateur pour analyser une requête utilisateur et accomplir la tâche correspondante. Le modèle fonctionne en boucle : capture d’écran, analyse visuelle, décision sur l’action suivante, exécution, nouvelle capture pour vérifier le résultat.

L’IA passe du « lire/écrire » au « faire ». Plutôt que de simplement fournir des informations ou générer du texte, elle manipule directement les interfaces comme un utilisateur humain.

Lien YouTube S’abonner à Frandroid

Google propose quelques exemples concrets : remplir et soumettre un formulaire, tester une interface utilisateur, naviguer dans des sites sans API disponible. Le modèle sert déjà à alimenter AI Mode et Project Mariner, un prototype de recherche où des agents IA effectuent des tâches autonomes dans un navigateur, comme ajouter des articles au panier selon une liste d’ingrédients ou réserver un hôtel.

Les vidéos de démonstration montrent l’outil en action, accélérées 3x pour gagner du temps. On y voit l’IA jouer à 2048, parcourir Hacker News pour trouver les débats du moment, ou naviguer sur des sites complexes. Les actions s’enchaînent sans intervention humaine une fois la requête formulée.

Un périmètre limité au navigateur

Contrairement à ChatGPT Agent d’OpenAI ou à Claude 3.5 Sonnet d’Anthropic qui proposent un contrôle étendu de l’environnement informatique, Gemini 2.5 Computer Use se concentre exclusivement sur le navigateur.

Google précise que le modèle n’est « pas encore optimisé pour un contrôle au niveau du système d’exploitation entier« . Une limitation probablement choisie pour des raisons de sécurité, de complexité et de fiabilité.

Le modèle prend actuellement en charge 13 actions standard : ouvrir un navigateur web, saisir du texte, cliquer sur des éléments, faire défiler une page, glisser-déposer des éléments, soumettre des formulaires. Une palette d’actions suffisante pour la majorité des tâches web courantes, mais volontairement délimitée comparée aux privilèges système d’un OS complet.

Ce choix a des avantages. Le navigateur représente l’environnement le plus universel du poste de travail : services cloud, applications web, plateformes SaaS. En maîtrisant parfaitement cet espace avant d’élargir au système d’exploitation, Google adopte une approche pragmatique et industrialisable.

Comme à chaque annonce IA, Google revendique des performances supérieures aux alternatives d’OpenAI et Anthropic sur plusieurs benchmarks web et mobiles, notamment Online-Mind2Web et WebVoyager, avec une latence réduite. Evidemment, cela est difficile à vérifier indépendamment, mais cela indique une optimisation poussée pour les interactions navigateur.

La prochaine phase de l’IA est là

Bref, c’est la prochaine phase de l’IA : passer de l’assistant conversationnel à l’agent autonome effectuant des tâches concrètes. Plutôt que de demander à l’IA des informations ou des réponses, on lui délègue des actions complètes : réserver un restaurant, comparer des produits, remplir des formulaires administratifs.

Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.