Gemini 3.5 Flash, ça donne quoi vraiment ? On a regardé les benchmarks

Quelques heures après le lancement, Gemini 3.5 Flash a déjà été testé partout. Verdict : rapide, intelligent, parfois bluffant. Mais loin du roi absolu vendu sur scène.

Il y a un sport qu’on aime bien dans la tech : laisser passer la nuit après une keynote, et regarder ce que la réalité fait des promesses. Hier soir, Google a vendu son nouveau Gemini 3.5 Flash comme un modèle « frontier », dans la cour des grands, au prix et à la vitesse d’un petit. Ce matin, les premiers benchmarks indépendants tombent. Et le verdict, comme souvent, est plus nuancé que les slides officielles.

Reprenons. Gemini 3.5 Flash, sorti hier au Google I/O 2026, est désormais le modèle par défaut dans l’app Gemini, dans l’API, dans AI Mode et dans Antigravity.

Google revendique des progrès massifs sur les tâches agentiques et le code, avec une vitesse de sortie quatre fois supérieure aux modèles « frontier » concurrents, à un coût souvent inférieur de moitié.

Côté facturation API, comptez 1,50 dollar par million de tokens en entrée et 9 dollars en sortie, tokens de réflexion compris. Plus cher que les anciens Flash, mais en rupture franche avec le tarif d’un modèle haut de gamme (Opus 4.7, GPT-5.5, etc.). Sur le papier, la promesse est claire : la perf d’un Pro au prix d’un Flash.

Les benchmarks officiels, ou la version Google de l’histoire

Commençons par ce que dit Google DeepMind. Le tableau officiel est, sans surprise, flatteur.

Ne confiez pas vos mots de passe à n’importe qui !

Proton Pass dispose de protocoles de sécurité stricts pour une sérénité ABSOLUE : ne laissez plus les géants du web monnayer votre vie numérique. En ce moment, l’abonnement Pass Plus de 12 mois s’affiche à -50% !

Sur Terminal-Bench 2.1, l’épreuve reine du code agentique en ligne de commande, Gemini 3.5 Flash décroche 76,2 %, contre 70,3 % pour Gemini 3.1 Pro et 66,1 % pour Claude Opus 4.7. Sur MCP Atlas, qui évalue les workflows multi-étapes via le protocole MCP, il prend la tête à 83,6 %, devant Opus 4.7 et GPT-5.5. Idem sur Toolathlon, sur Finance Agent v2, ou sur CharXiv Reasoning où il atteint 84,2 %, le meilleur score multimodal du panel. Bref, sur les épreuves choisies par Google, il bat tout le monde, ou presque, dans sa catégorie.

Une seconde lecture s’impose pourtant. GPT-5.5 le devance encore sur Terminal-Bench (78,2 %), sur GDPval-AA et sur ARC-AGI-2. Claude Opus 4.7 garde la tête sur SWE-Bench Pro (64,3 %) et sur Humanity’s Last Exam, l’épreuve de raisonnement académique. Surtout, Gemini 3.5 Flash dépasse Gemini 3.1 Pro sur la plupart des tâches, et c’est sans doute le vrai message politique de cette sortie. Google avoue à demi-mot que son ancien haut de gamme est dépassé par son nouveau milieu de gamme, et que la course au plus gros modèle n’est plus le bon angle.

Sundar Pichai l’a d’ailleurs dit lui-même la veille : les entreprises qui mixent Flash et Pro peuvent économiser jusqu’à un milliard de dollars par an. Tout est cohérent. Trop, peut-être.

Et puis la réalité hors plateau de Google

Quelques heures après l’annonce, l’équipe de Cursor, l’éditeur de l’IDE le plus utilisé par les développeurs IA, publie sa propre évaluation.

CursorBench 3.1 teste des modèles sur des tâches multi-fichiers ambiguës issues de vraies sessions de code. Le contexte n’est plus celui d’un benchmark calibré, c’est du travail quotidien.

Gemini Flash 3.5 is now on CursorBench, our main coding agent eval.

We’ll keep updating the leaderboard as new models come out.https://t.co/67u5JEXoM9
— Michael Truell (@mntruell) May 20, 2026

Et là, surprise : Gemini 3.5 Flash décroche 49,8 %, soit la dixième place. Devant lui, Claude Opus 4.7 Max prend la tête à 64,8 %, GPT-5.5 Extra High suit à 64,3 %, et le modèle maison Composer 2.5 de Cursor se classe troisième à 63,2 % pour seulement 55 centimes par tâche. Gemini, lui, coûte 1,94 dollar par tâche. Pour les développeurs sur Cursor, c’est plus cher et moins bon que la concurrence.

Les retours à chaud sur X sont à l’image de ce contraste. Côté positif, beaucoup saluent la vitesse, l’aisance en génération d’UI, de SVG, de scènes 3D, et l’intégration native dans l’écosystème agentique de Google.

Côté moins enthousiaste, le développeur Theo Browne y va franchement, parlant du « pire drop majeur » pour un modèle Google sur du vrai code agentique. La formule est dure, sans doute exagérée, mais elle traduit une chose nette : dans Cursor, l’outil quotidien de millions de devs, Gemini 3.5 Flash ne tient pas la promesse « frontier » vendue sur scène. Sur LMSYS Chatbot Arena, le verdict est plus indulgent, autour de 1480 à 1504 Elo, ce qui le place en neuvième ou dixième position, au coude à coude avec les meilleurs modèles, mais sans la suprématie annoncée.

Alors, pour qui ? Pour quoi ?

Pour qui ce modèle compte-t-il vraiment, et pour qui faut-il s’abstenir ? Si vous déployez des agents IA à grande échelle, plusieurs agents en parallèle, beaucoup d’appels d’outils, du contexte long et de la sortie multimodale : Gemini 3.5 Flash est probablement le meilleur rapport qualité-prix-vitesse du marché en mai 2026.

Les partenaires cités par Google (Box, Armadin) confirment des gains de précision allant jusqu’à 96 % sur de certains cas. Si vous codez en solo dans Cursor, Claude Code ou VS Code sur un projet complexe, en revanche, restez sur Opus 4.7 ou GPT-5.5, vous serez moins frustrés.

Et si vous êtes un utilisateur lambda dans la nouvelle app Gemini, vous ne verrez probablement pas la différence avec la version précédente, sinon que tout va plus vite. Ce qui est déjà beaucoup.

Gemini 3.5 Flash n’est pas le roi absolu vendu sur scène. C’est, plus modestement, le meilleur Flash jamais sorti, et un modèle qui change la donne pour les agents et la mise à l’échelle. Sur le code quotidien, en revanche, la concurrence garde le dessus. A voir si 3.5 Flash gagnera l’usage. D’autant que les nouvelles limites d’usage risquent de compliquer encore le calcul pour les gros utilisateurs.

Pour aller plus loin
Fin des limites sur Gemini : la décision de Google qui va pénaliser les requêtes complexes