
Il ne passe pas une journée sans annonce dans le domaine de l’IA. Hier, OpenAI avec ses apps, aujourd’hui Google avec une énième évolution de Gemini 2.5…. Gemini 2.5 Computer Use.
Pour aller plus loin
ChatGPT veut concurrencer iOS et Android : OpenAI lance des apps directement dans le chatbot
Il s’agit d’un modèle d’IA capable d’utiliser un navigateur web comme un utilisateur humain. Cliquer, faire défiler, taper du texte, glisser-déposer : l’IA interagit avec les interfaces conçues pour les humains plutôt que via des API. Une réponse directe à OpenAI avec ChatGPT Agen, et à Anthropic qui propose déjà cette fonction depuis un an avec Claude.
Une IA qui voit et comprend les interfaces web
Gemini 2.5 Computer Use exploite la compréhension du langage naturel et la vision par ordinateur pour analyser une requête utilisateur et accomplir la tâche correspondante. Le modèle fonctionne en boucle : capture d’écran, analyse visuelle, décision sur l’action suivante, exécution, nouvelle capture pour vérifier le résultat.
L’IA passe du « lire/écrire » au « faire ». Plutôt que de simplement fournir des informations ou générer du texte, elle manipule directement les interfaces comme un utilisateur humain.
Google propose quelques exemples concrets : remplir et soumettre un formulaire, tester une interface utilisateur, naviguer dans des sites sans API disponible. Le modèle sert déjà à alimenter AI Mode et Project Mariner, un prototype de recherche où des agents IA effectuent des tâches autonomes dans un navigateur, comme ajouter des articles au panier selon une liste d’ingrédients ou réserver un hôtel.
Les vidéos de démonstration montrent l’outil en action, accélérées 3x pour gagner du temps. On y voit l’IA jouer à 2048, parcourir Hacker News pour trouver les débats du moment, ou naviguer sur des sites complexes. Les actions s’enchaînent sans intervention humaine une fois la requête formulée.
Un périmètre limité au navigateur
Contrairement à ChatGPT Agent d’OpenAI ou à Claude 3.5 Sonnet d’Anthropic qui proposent un contrôle étendu de l’environnement informatique, Gemini 2.5 Computer Use se concentre exclusivement sur le navigateur.
Google précise que le modèle n’est « pas encore optimisé pour un contrôle au niveau du système d’exploitation entier« . Une limitation probablement choisie pour des raisons de sécurité, de complexité et de fiabilité.
Le modèle prend actuellement en charge 13 actions standard : ouvrir un navigateur web, saisir du texte, cliquer sur des éléments, faire défiler une page, glisser-déposer des éléments, soumettre des formulaires. Une palette d’actions suffisante pour la majorité des tâches web courantes, mais volontairement délimitée comparée aux privilèges système d’un OS complet.
Ce choix a des avantages. Le navigateur représente l’environnement le plus universel du poste de travail : services cloud, applications web, plateformes SaaS. En maîtrisant parfaitement cet espace avant d’élargir au système d’exploitation, Google adopte une approche pragmatique et industrialisable.
Comme à chaque annonce IA, Google revendique des performances supérieures aux alternatives d’OpenAI et Anthropic sur plusieurs benchmarks web et mobiles, notamment Online-Mind2Web et WebVoyager, avec une latence réduite. Evidemment, cela est difficile à vérifier indépendamment, mais cela indique une optimisation poussée pour les interactions navigateur.
La prochaine phase de l’IA est là
Bref, c’est la prochaine phase de l’IA : passer de l’assistant conversationnel à l’agent autonome effectuant des tâches concrètes. Plutôt que de demander à l’IA des informations ou des réponses, on lui délègue des actions complètes : réserver un restaurant, comparer des produits, remplir des formulaires administratifs.
Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix