« C’était assez embêtant pour nous » : l’éternel dilemme de Google avec Gemini

 
Un haut responsable de Gemini nous raconte la manière dont Google aborde le dilemme entre une IA puissante et une IA rapide.
L’application Gemini sur smartphone // Source : Frandroid

Êtes-vous prêt à attendre longtemps pour qu’une intelligence artificielle vous réponde de manière détaillée et complète ? C’est une question qui taraude les équipes chargées du développement de Gemini chez Google.

Pendant la Google I/O 2025, nous avons pu nous entretenir avec Dave Citron, Senior Director du Product Management de l’application Gemini. « C’est encore un travail en cours », confie-t-il sur cette problématique du bon équilibre entre IA puissante et IA rapide.

Comme souvent, tout dépend de l’usage

Ainsi, des modèles parmi les plus puissants, « comme Gemini 2.5 », peuvent mettre plusieurs secondes à répondre selon le responsable. Mais « si vous êtes dans le mode Gemini Live, vous ne voulez vraiment jamais ce genre de décalage parce que ça casse vraiment l’illusion de parler à un système similaire à l’humain ». Sur Android XR, par exemple, tout l’objectif est d’avoir un assistant oral rapide et pertinent.

Dans cette optique, Dave Citron et ses équipes « dépensent beaucoup d’énergie pour déterminer le bon compromis pour chaque modalité et format de produit ». Gemini existe donc sous plein de nuances différentes.

Dave Citron, Senior Director chargé du Product Management de l’application Gemini, à la Google I/O 2025 // Source : Frandroid

On peut discuter avec l’IA par texte ou à l’oral, exploiter la caméra d’un appareil pour lui permettre de voir le monde qui l’entoure, s’appuyer sur la version Flash (rapide) ou la version Pro (plus sophistiquée) et même sur un mode Deep Research qui pousse la barre encore plus loin en termes de recherche approfondie et exhaustive — et donc prend plus de temps.

Les versions Flash et Pro de Gemini // Source : Frandroid

Par le passé, Google a déjà montré une certaine tendance à aller un peu dans tous les sens au point de donner des situations un peu confusantes pour le grand public. D’aucuns se souviendront peut-être du grand n’importe quoi autour de Meet et Duo à l’époque. Dès lors, quand on voit toutes les ramifications de Gemini, on peut craindre une trajectoire similaire. Rappelons d’ailleurs qu’on a déjà eu droit à une petite touche de confusion quand Gemini est venu remplacer Google Bard.

Or, Dave Citron semble lucide et précise que l’un des grands challenges de ses équipes est de bien « communiquer ces nuances [de Gemini] à l’utilisateur qui pourrait s’attendre à toujours parler au modèle le plus puissant ». Et cette bonne communication passe forcément par une interface claire.

Des ajustements d’interface

Coïncidence ? Pendant la Google I/O 2025, l’interface web de Gemini ainsi que celle de l’application mobile a justement évolué. Jusqu’alors, le menu déroulant où l’on peut opter pour Gemini Flash ou Gemini Pro proposait également les modes Veo, Canva et Deep Research qui répondent pourtant à des usages plus spécifiques.

Ces trois options sont désormais accessibles directement dans le champ de saisie de texte, ce qui a le mérite d’être plus clair pour l’utilisateur qu’une liste à rallonge :

  • menu en haut = version préférée du modèle de langage ;
  • menu en bas = différentes options disponibles.
Les nouveaux boutons pour Deep Research, Canvas et Veo sur Gemini // Source : Frandroid

C’est typiquement le genre de petits ajustements que continuera de faire Google pour clarifier les choses. Pour l’entreprise, l’interface de Gemini a un rôle important à jouer dans l’acceptation des réponses longues quand le jeu en vaut la chandelle.

Nous procédons à des ajustements constants sur la base des retours des utilisateurs, afin de rendre l’utilisation de plus en plus naturelle.

Dave Citron donne l’exemple du mode Deep Research qui farfouille le web pour scanner un maximum de sources et vous livrer des rapports d’un haut niveau d’expertise sur le sujet de votre choix.

Un rapport produit par Gemini avec le mode Deep Research // Source : Frandroid

Pour créer le rapport en question, Gemini Deep Research a besoin de temps, comptez souvent 5 bonnes minutes. On n’est pas ici dans la simple petite question pratique ou dans le cadre d’un échange rapide.

Ainsi, pendant que l’IA travaille, vous pouvez consulter le fil de son raisonnement si vous êtes curieux et continuer de discuter avec Gemini si vous le souhaitez. Un message vous dit cependant que vous pouvez aller faire autre chose en attendant. Tout cela sert à vous faire accepter en quelque sorte le temps d’attente.

Gemini Deep Research détaille son raisonnement // Source : Frandroid

Cette réflexion autour de l’attente d’une réponse complète n’a pas toujours été aussi évidente.

Google a toujours voulu l’absence de latence, des réponses instantanées. C’était assez embêtant pour nous la première année de l’IA générative.

Or, aujourd’hui, Dave Citron pense que les réponses atteignent un tel degré de sophistication que le public peut se rendre compte que « parfois le compromis vaut la peine ».

YouTube en exemple à suivre ?

Face à Dave Citron, nous soulignons le fait qu’aujourd’hui, il n’existe pas un mode automatique proposant de lui-même la version la plus adéquate à la demande de l’utilisateur si ce dernier n’est pas sûr de ce dont il a besoin.

L’application Gemini sur smartphone // Source : Frandroid

« C’est clairement la direction vers laquelle nous voulons aller », répond le responsable. « Une très grande majorité de personnes dans le monde n’a encore jamais utilisé de l’IA. Ils n’ont aucune idée de ce qu’est [Gemini] 2.5 Pro comparé à 2.5 Flash. Dans le même temps, nous voyons également un pourcentage d’utilisateurs pour qui c’est absolument important ». Autrement dit, il faut satisfaire tous les profils et trouver le bon équilibre pour retranscrire tout cela dans l’interface.

Et étonnamment, il évoque YouTube en modèle à suivre.

L’un des modèles vers lesquels je pense qu’il est bon d’évoluer est la sélection de la définition sur YouTube. Vous savez, sur YouTube, très peu de gens se soucient ou savent qu’ils peuvent changer de définition et nous avons fait un très bon travail au fil des ans en comprenant la bande passante de l’utilisateur et le format d’appareils sur lequel il se trouve et en choisissant une définition qui lui donne une très haute qualité et une très bonne latence. Mais si vous y tenez vraiment et si vous utilisez YouTube Premium, vous pouvez sélectionner la définition 8K. Et c’est en quelque sorte la perspective à laquelle nous aspirons à plus long terme.

Attendez-vous donc à voir encore beaucoup d’évolutions dans l’interface de Gemini au fil du temps.

NB. Notre journaliste Omar Belkaab était présent à Mountain View pour couvrir la Google I/O 2025 dans le cadre d’un voyage de presse organisé par Google.


Les derniers articles