Gemini 3.5 Flash plus cher à faire tourner que la version Pro ? L’incroyable paradoxe de Google

 
Google vient de lancer Gemini 3.5 Flash. Mais la promesse d’un modèle rapide dédié aux agents cache une hausse tarifaire qui dépasser le coût d’utilisation de Gemini 3.1 Pro sur certains scénarios.
Image générée par Simon Willison

Lors de la conférence Google I/O 2026, Mountain View a dévoilé Gemini 3.5 Flash, une version lancée dans la foulée de l’évènement. C’est la version la plus avancée du modèle de Google, encore plus même que Gemini 3.1 Pro. Et cela se ressent jusqu’à son prix d’exploitation qui s’envole littéralement.

Pour aller plus loin
Gemini 3.5 Flash, ça donne quoi vraiment ? On a regardé les benchmarks

Une explosion des coûts face aux anciennes générations

Le positionnement tarifaire de Gemini 3.5 Flash rompt avec la tradition des modèles dits « Flash », habituellement réputés économiques. Selon les données partagées par le blogueur Simon Willison et les benchmarks d’Artificial Analysis, la facture s’envole :

  • Gemini 3.5 Flash s’avère environ 3 fois plus cher que Gemini 3 Flash (Preview).
  • Il se montre environ 6 fois plus cher que Gemini 3.1 Flash‑Lite.

Sur l’API de Google, les tarifs publics s’établissent désormais à 1,50 dollar par million de tokens en entrée et 9 dollars par million de tokens en sortie. À ce niveau, Gemini 3.5 Flash se rapproche fortement des prix de Gemini 3.1 Pro, fixés à 2 dollars et 12 dollars.

Les chiffres sont encore plus impressionnants lorsqu’on observe les résultats d’un benchmark complet simulant des tâches d’agents (génération de code, parsing, etc.). Simon Willison cite celui d’Artificial Analysis.

L’exécution de son protocole standardisé a coûté 1 551,60 dollars avec Gemini 3.5 Flash (en configuration haute), contre seulement 892,28 dollars pour Gemini 3.1 Pro Preview. Presque deux fois plus cher, un comble pour un modèle théoriquement plus léger.

Pour aller plus loin
Gemini s’offre plus de temps pour donner une réponse détaillée

Comment s’explique cette facture ?

Pour comprendre ce montant, il faut rappeler ce que représentent ces chiffres. Il ne s’agit pas d’un abonnement mensuel, mais du coût réel de la consommation de tokens (les unités de texte ou de code traitées en entrée et en sortie) nécessaire pour faire tourner l’ensemble des requêtes du benchmark.

Pour fixer ses tarifs publics, Google s’appuie en coulisses sur un modèle de coût lié à ses dépenses réelles :

  • Le coût de calcul : le temps de traitement sur les puces graphiques (GPU) ou les processeurs dédiés (TPU), ainsi que l’énergie consommée par les serveurs et les systèmes de refroidissement.
  • L’infrastructure cloud : le stockage des modèles, la bande passante, la gestion de la latence et la fiabilité du réseau.
  • L’entraînement : l’amortissement des sommes colossales (estimées à des dizaines ou centaines de millions de dollars) investies pour concevoir le modèle.

Plus performant en qualité de réponse et en raisonnement complexe, Gemini 3.5 Flash exige davantage de ressources de calcul par token que ses prédécesseurs ou que la version 3.1 Pro.

De plus, son intégration massive dans l’écosystème Google (application Gemini, AI Mode dans Google Search, Android Studio, Google Antigravity) génère une pression immense sur l’infrastructure de la firme, ce qui se répercute sur la grille tarifaire de l’API pour les clients externes.

Un exemple concret de tarification

Pour un développeur, le coût d’une requête se calcule à l’aide d’une formule basée sur les volumes consommés :

À titre d’illustration, Simon Willison indique avoir demandé à l’API de générer un fichier vectoriel SVG représentant un pélican sur un vélo. L’opération, qui a nécessité seulement 11 tokens en entrée mais pas moins de 14 403 tokens en sortie, a été facturée un peu moins de 13 cents.

Sur des applications industrielles ou des agents autonomes qui accumulent des milliers de requêtes de ce type, la facture globale peut rapidement grimper, confirmant que les laboratoires d’IA testent actuellement la tolérance financière de leurs clients.

Qu’est ce que ça change pour l’utilisateur grand public ?

Cela ne nous concerne pas directement, nous autres utilisateurs finaux grand public. Cela s’adresse plus aux entreprises et développeurs qui utilisent directement l’API Gemini. Comme on l’a vu, eux seront monétairement impactés par cette hausse de coût.

Mais il ne faut pas se rassurer pour autant. Google ne manquera pas de récupérer ses billes de notre côté aussi. Pour l’instant, on profite sans surcoût d’un modèle plus performant, que l’on utilise l’une ou l’autre des formules Google AI. Mais rien n’empêchera Google d’augmenter les tarifs de ses abonnements à l’avenir, ou d’en limiter l’utilisation comme Perplexity a pu le faire.

D’ailleurs, accompagnant le lancement de 3.5 Flash, on a vu la suppression des limites d’utilisation quotidienne au profit d’un modèle de facturation basé sur la complexité des requêtes.

En clair, plus un prompt est long, plus il demande de calcul, plus il devient cher à l’échelle de l’infrastructure ; Google adapte alors ses limites et ses tarifs pour que les utilisateurs absorbent une partie de ce surcoût, plutôt que de se limiter arbitrairement à un nombre de prompts par jour.

Pour l’utilisateur, cela signifie une plus grande liberté apparente, mais un prix réel qui augmente avec la sophistication de l’usage, exactement comme le reflète l’écart de coût entre Gemini 3.1 Pro et 3.5 Flash.

Toutes les annonces de la Google I/O 2026 (Gemini et Android XR)

La Google I/O 2026 a été le théâtre d’une multitude d’annonces alors que l’Android Show de la semaine précédente nous avait déjà gâtés. Voici les annonces à retenir autour des évolutions de Gemini et d’Android XR.


Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.

Recherche IA boostée par
Perplexity