
Il y a un sport qu’on aime bien dans la tech : laisser passer la nuit après une keynote, et regarder ce que la réalité fait des promesses. Hier soir, Google a vendu son nouveau Gemini 3.5 Flash comme un modèle « frontier », dans la cour des grands, au prix et à la vitesse d’un petit. Ce matin, les premiers benchmarks indépendants tombent. Et le verdict, comme souvent, est plus nuancé que les slides officielles.
Reprenons. Gemini 3.5 Flash, sorti hier au Google I/O 2026, est désormais le modèle par défaut dans l’app Gemini, dans l’API, dans AI Mode et dans Antigravity.
Google revendique des progrès massifs sur les tâches agentiques et le code, avec une vitesse de sortie quatre fois supérieure aux modèles « frontier » concurrents, à un coût souvent inférieur de moitié.

Côté facturation API, comptez 1,50 dollar par million de tokens en entrée et 9 dollars en sortie, tokens de réflexion compris. Plus cher que les anciens Flash, mais en rupture franche avec le tarif d’un modèle haut de gamme (Opus 4.7, GPT-5.5, etc.). Sur le papier, la promesse est claire : la perf d’un Pro au prix d’un Flash.
Les benchmarks officiels, ou la version Google de l’histoire
Commençons par ce que dit Google DeepMind. Le tableau officiel est, sans surprise, flatteur.

Sur Terminal-Bench 2.1, l’épreuve reine du code agentique en ligne de commande, Gemini 3.5 Flash décroche 76,2 %, contre 70,3 % pour Gemini 3.1 Pro et 66,1 % pour Claude Opus 4.7. Sur MCP Atlas, qui évalue les workflows multi-étapes via le protocole MCP, il prend la tête à 83,6 %, devant Opus 4.7 et GPT-5.5. Idem sur Toolathlon, sur Finance Agent v2, ou sur CharXiv Reasoning où il atteint 84,2 %, le meilleur score multimodal du panel. Bref, sur les épreuves choisies par Google, il bat tout le monde, ou presque, dans sa catégorie.
Une seconde lecture s’impose pourtant. GPT-5.5 le devance encore sur Terminal-Bench (78,2 %), sur GDPval-AA et sur ARC-AGI-2. Claude Opus 4.7 garde la tête sur SWE-Bench Pro (64,3 %) et sur Humanity’s Last Exam, l’épreuve de raisonnement académique. Surtout, Gemini 3.5 Flash dépasse Gemini 3.1 Pro sur la plupart des tâches, et c’est sans doute le vrai message politique de cette sortie. Google avoue à demi-mot que son ancien haut de gamme est dépassé par son nouveau milieu de gamme, et que la course au plus gros modèle n’est plus le bon angle.
Sundar Pichai l’a d’ailleurs dit lui-même la veille : les entreprises qui mixent Flash et Pro peuvent économiser jusqu’à un milliard de dollars par an. Tout est cohérent. Trop, peut-être.
Et puis la réalité hors plateau de Google
Quelques heures après l’annonce, l’équipe de Cursor, l’éditeur de l’IDE le plus utilisé par les développeurs IA, publie sa propre évaluation.

CursorBench 3.1 teste des modèles sur des tâches multi-fichiers ambiguës issues de vraies sessions de code. Le contexte n’est plus celui d’un benchmark calibré, c’est du travail quotidien.
Et là, surprise : Gemini 3.5 Flash décroche 49,8 %, soit la dixième place. Devant lui, Claude Opus 4.7 Max prend la tête à 64,8 %, GPT-5.5 Extra High suit à 64,3 %, et le modèle maison Composer 2.5 de Cursor se classe troisième à 63,2 % pour seulement 55 centimes par tâche. Gemini, lui, coûte 1,94 dollar par tâche. Pour les développeurs sur Cursor, c’est plus cher et moins bon que la concurrence.
Les retours à chaud sur X sont à l’image de ce contraste. Côté positif, beaucoup saluent la vitesse, l’aisance en génération d’UI, de SVG, de scènes 3D, et l’intégration native dans l’écosystème agentique de Google.

Côté moins enthousiaste, le développeur Theo Browne y va franchement, parlant du « pire drop majeur » pour un modèle Google sur du vrai code agentique. La formule est dure, sans doute exagérée, mais elle traduit une chose nette : dans Cursor, l’outil quotidien de millions de devs, Gemini 3.5 Flash ne tient pas la promesse « frontier » vendue sur scène. Sur LMSYS Chatbot Arena, le verdict est plus indulgent, autour de 1480 à 1504 Elo, ce qui le place en neuvième ou dixième position, au coude à coude avec les meilleurs modèles, mais sans la suprématie annoncée.

Alors, pour qui ? Pour quoi ?
Pour qui ce modèle compte-t-il vraiment, et pour qui faut-il s’abstenir ? Si vous déployez des agents IA à grande échelle, plusieurs agents en parallèle, beaucoup d’appels d’outils, du contexte long et de la sortie multimodale : Gemini 3.5 Flash est probablement le meilleur rapport qualité-prix-vitesse du marché en mai 2026.
Les partenaires cités par Google (Box, Armadin) confirment des gains de précision allant jusqu’à 96 % sur de certains cas. Si vous codez en solo dans Cursor, Claude Code ou VS Code sur un projet complexe, en revanche, restez sur Opus 4.7 ou GPT-5.5, vous serez moins frustrés.
Et si vous êtes un utilisateur lambda dans la nouvelle app Gemini, vous ne verrez probablement pas la différence avec la version précédente, sinon que tout va plus vite. Ce qui est déjà beaucoup.
Gemini 3.5 Flash n’est pas le roi absolu vendu sur scène. C’est, plus modestement, le meilleur Flash jamais sorti, et un modèle qui change la donne pour les agents et la mise à l’échelle. Sur le code quotidien, en revanche, la concurrence garde le dessus. A voir si 3.5 Flash gagnera l’usage. D’autant que les nouvelles limites d’usage risquent de compliquer encore le calcul pour les gros utilisateurs.
Pour aller plus loin
Fin des limites sur Gemini : la décision de Google qui va pénaliser les requêtes complexes
Toutes les annonces de la Google I/O 2026 (Gemini et Android XR)
La Google I/O 2026 a été le théâtre d’une multitude d’annonces alors que l’Android Show de la semaine précédente nous avait déjà gâtés. Voici les annonces à retenir autour des évolutions de Gemini et d’Android XR.
- Les immense promesses de Gemini 3.5 Flash et Gemini 3.5 Pro.
- L’ambitieux modèle multimodal Gemini Omni sur lequel Google mise énormément.
- Le puissant agent IA Gemini Spark qui travaille à votre place 24h/24.
- La révolution IA de la barre de recherche de Google.
- Les évolutions du mode AI de Google Search.
- Le nouveau design de l’app Gemini avec Neural Expressive
- L’aperçu officiel des lunettes Android XR de Google et Samsung.
- Le nouvel outil de retouche photo par IA Google Pics.
- Google Shopping bouleverse vos achats en ligne avec Gemini.
- Comment Gmail, Docs et Keep vont se métamorphoser avec la commande vocale de Gemini.
- La nouveauté Daily Brief de Google Gemini.
- Les promesses de Google pour une industrie de l’IA transparente et éthique.
- L’étonnante association de Google Genie et Street View pour mettre l’IA dans le monde réel.
- La fonction très pratique de Gemini sur macOS.
- Les lunettes Android XR de XREAL se concrétisent aussi.
- Les nouvelles formules Google AI Ultra moins chères.
- Les nouvelles limites à connaître sur les utilisations de Gemini.
- L’Europe oubliée pendant la Google I/O 2026.
- Les nouveaux logos des applications Google.
Retrouvez un résumé du meilleur de l’actu tech tous les matins sur WhatsApp, c’est notre nouveau canal de discussion Frandroid que vous pouvez rejoindre dès maintenant !

Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et .
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.