Google a résolu le problème du texte dans les images : on a testé Nano Banana Pro, c’est bluffant

Oubliez les mains à 6 doigts

 
Oubliez tout ce que vous savez sur les générateurs d’images. Jusqu’ici, Midjourney ou DALL-E étaient des artistes un peu illettrés. Même si les dernières améliorations de ChatGPT étaient encourageantes. Avec Nano Banana Pro, Google change les règles. Vous lui demandez la différence technique entre le MagSafe et le Qi 2.2 ? Il ne se contente pas de dessiner : il va chercher l’info, la comprend, et vous sort un comparatif visuel parfait.

Après l’annonce de Nano Banana Pro, parlons-en. Oui, je sais, le nom semble avoir été choisi par un générateur de mots aléatoires en fin de soirée. Mais ne vous y trompez pas : ce qui se cache derrière ce modèle de la série Gemini 3 est peut-être l’évolution la plus importante de l’IA générative depuis des mois.

Jusqu’à présent, quand vous demandiez une image à une IA, vous aviez deux problèmes : le texte ressemblait à du hiéroglyphe alien, et l’IA ne comprenait rien à ce qu’elle dessinait. Elle imitait des formes. Il y a eu des améliorations notables, mais pas encore suffisamment pour lui faire confiance.

Google affirme avoir réglé ces deux problèmes. Et après avoir joué avec, force est de constater qu’ils ont (presque) raison.

Ce n’est pas du dessin, c’est du raisonnement

La grande différence avec Midjourney ou les versions précédentes de DALL-E, c’est que Nano Banana Pro ne se contente pas de « visualiser » des pixels. Il utilise le « world knowledge » (connaissance du monde) et le raisonnement de Gemini.

Concrètement ? Vous n’avez pas besoin de lui fournir un tableau Excel ou un fichier texte. L’IA va chercher l’information elle-même, la synthétise, et décide de la meilleure manière de la présenter.

J’ai fait le test. Je lui ai demandé : « Fais-moi une infographie comparant le MagSafe et le standard Qi 2.2 ». Je ne lui ai donné aucune caractétistique. Le résultat ? L’IA a généré une image scindée en deux. D’un côté, l’anneau magnétique d’Apple, de l’autre le profil de charge du Qi 2. Elle a intégré du texte parfaitement lisible mentionnant les vitesses de charge (15W), l’alignement magnétique et la compatibilité. Elle a compris le sujet technique, a été chercher les informations, et a construit le visuel. C’est bluffant, il faut l’avouer.

De la botanique à la biologie cellulaire

Même constat sur un sujet plus « nature ». J’ai demandé une planche visualisant les différents types de Séquoias. L’IA ne m’a pas sorti des arbres génériques. Elle a distingué le Sequoiadendron giganteum (Séquoia géant) du Sequoia sempervirens (Séquoia à feuilles d’if).

Elle a ajouté des annotations textuelles pertinentes sur la hauteur et l’écorce, sans faute d’orthographe, le tout dans un style « planche encyclopédique » très convaincant.

C’est là que Nano Banana Pro creuse l’écart : c’est un outil pour apprendre.

J’ai passé le Bac 2019

C’est l’expérience qui m’a le plus secoué. J’ai pris une capture d’écran d’un exercice de mathématiques du Bac 2019 (Probabilités, lois normales, le classique). Ma consigne à l’IA était perverse : « Remplis ma copie en répondant à ma place comme si je l’avais rempli, indique mon nom : Ulrich Rozier ».

Le résultat est… perturbant.

La mise en forme

Nano Banana Pro n’a pas juste recraché du texte. Il a généré une image d’une copie d’examen, avec l’en-tête « Universités de Grenoble », la promotion 2025, et a même rempli l’encart d’anonymat (qui ne l’est plus, du coup) avec ma signature.

L’écriture « manuscrite » est encore un peu trop parfaite. On dirait une police de caractère « Comic Sans » sous stéroïdes plutôt que la main tremblante d’un élève stressé. Ça manque de ratures et d’imperfections humaines.

Quand je lui ai demandé de corrigé la forme, il a produit ça :

Le fond

C’est là que ça devient sérieux. L’IA a lu le graphique de la courbe de Gauss fourni dans l’énoncé. Elle a identifié l’axe de symétrie à 17 pour en déduire la moyenne.

Elle a ensuite déroulé le raisonnement mathématique complet :

  • Calcul de l’espérance de la loi uniforme.
  • Application de la loi totale pour $P(D < 20)$.
  • Utilisation de la table de la loi normale (ou calcul direct) pour trouver $0,8413$.
  • Résultat final arrondi au centième : 0,76.

Tout est juste. Le raisonnement est structuré, les étapes sont là. L’IA a « vu » le sujet, l’a compris, l’a résolu et l’a mis en page sur une copie virtuelle.

Plein d ‘autres usages

Sur les réseaux sociaux, c’est l’effervescence :

  • Un chercheur en immunologie, Derya Unutmaz, a partagé un schéma de l’activation d’une cellule T généré par l’IA, en affirmant que la cascade de signalisation était correcte. Il va même jusqu’à parler d’un début d’AGI visuelle (Intelligence Artificielle Générale).
  • D’autres s’en servent pour résumer des papiers de recherche complexes en un seul diagramme, comme le lancement de Starship.
  • Très impressionnant, la capacité de Nano Banana Pro à remplir des fiches de cours-devoirs en reproduisant le style d’écriture d’un élève.
  • Certains génèrent des menus de restaurant complets sans une seule coquille sur les prix ou les ingrédients.

Le tour de force de Google, c’est d’avoir combiné trois briques technologiques :

  1. La recherche temps réel : L’IA accède à Google Search pour vérifier les faits (ou trouver la recette du elaichi chai comme dans leur démo).
  2. Le moteur de rendu de texte : Nano Banana Pro gère des paragraphes entiers, des polices variées et même la calligraphie.
  3. La compréhension spatiale : l’IA « sait » qu’une infographie doit avoir des flèches logiques, ou qu’une comparaison tech nécessite un tableau, etc.

Mais, ce n’est pas encore infaillible. Comme toujours avec l’IA, il faut vérifier. Mais pour les « apprenants visuels » ou pour dégrossir un sujet complexe, c’est un outil monstrueux. Vous ne demandez plus « dessine-moi un arbre », vous demandez « explique-moi comment fonctionne cet arbre ». Et ça, c’est une rupture.

La machine à fake news parfaite ?

C’est la question qui fâche. Si Nano Banana Pro peut générer un graphique boursier ou une carte électorale ultra-crédible en 10 secondes, qu’est-ce qui empêche un utilisateur malveillant d’inonder X de fausses statistiques ?

Google est conscient du danger. Toutes les images générées par Nano Banana Pro intègrent SynthID, le filigrane numérique invisible de DeepMind. Concrètement, même si vous faites une capture d’écran ou que vous compressez l’image, Google affirme pouvoir détecter qu’elle vient de son IA.

Dans les faits ? C’est une protection nécessaire mais pas suffisante. L’outil est tellement puissant pour créer du contenu « qui fait vrai » (tableaux, citations, diagrammes officiels) que la vigilance humaine va devoir monter d’un cran. Si vous voyez un graphique circuler sans lien vers une source vérifiable : méfiez-vous.


Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.

Recherche IA boostée par
Perplexity