La démo de Gemini était truquée : une promesse de Google trop belle pour être vraie

Pour montrer la puissance de son tout dernier LLM, Google a publié une vidéo de démonstration de Gemini en action. En réalité, elle était truquée, de sorte à donner l’impression que les interactions avec cette IA ressemblaient véritablement à celles de la vidéo.

L’année n’est pas encore écoulée que Google a sorti une nouvelle carte intelligence artificielle : Gemini, son tout dernier LLM, qui entend surpasser GPT d’OpenAI. Pour le démontrer, Google a donné des chiffres, mais ce qui a davantage marqué les esprits, c’est sa vidéo. Malheureusement, face aux doutes, l’entreprise a avoué : la vidéo était trafiquée. Google l’assume, mais quelque peu tardivement.

Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Gemini et autres ?

Une vidéo de Gemini trop belle pour être réelle

En parallèle de la présentation de Gemini, Google a publié une vidéo de prise en main de l’IA multimodale (à qui l’on peut donner du texte, des images ou des vidéos). Elle utilise Gemini Ultra, la version la plus évoluée du LLM. Google ne l’a pas indiqué d’entrée, ce qui participe à faire croire que c’est cette version à laquelle les utilisateurs auront prochainement accès.

Lien YouTube S’abonner à Frandroid

On y voit des mains dessiner progressivement un canard, que Gemini arrive petit à petit à identifier. Il répond aux questions de celui qui dessine, pour décrire ce qu’il « voit ». Le tout en plusieurs langues et avec une latence assez courte, qui fait montrer que l’outil est puissant. Gemini peut créer des petits jeux, jouer à pierre-feuille-ciseau, au bonneteau ou à des tours de magie. On y voit également Gemini générer des images à partir de fils de laine.

Ce n’est pas la première fois que Google réalise des démonstrations d’IA « impressionnantes ». Google Duplex était un outil présenté lors de la Google I/O 2018, qui permettait de gérer les appels audio grâce à Google Assistant, sans rien faire. De quoi prendre un rendez-vous chez le coiffeur par exemple. Cinq ans plus tard, la fonctionnalité est morte et la démonstration était sans doute trop éloignée de la réalité. Pire encore : Google faisait parfois appel (vous l’avez ?) à des humains au lieu d’utiliser son IA.

Les petites astuces de Google pour montrer son IA sous son meilleur jour

L’illusion d’avoir un Jarvis ou un HAL 9000 à ses côtés tous les jours n’est plus, en tout cas pour l’instant. Le rêve se fissure dès la description de la vidéo, où il est écrit : « pour les besoins de cette démo, la latence a été réduite et les sorties Gemini ont été raccourcies par souci de concision. » Ce qui fait qu’on ne connaît pas le réel temps de réponse de l’outil. ChatGPT Voice semble avoir encore quelques beaux jours devant lui au moins.

Ce qu’on découvre sur le site de Google pour les développeurs, c’est tout d’abord que les interactions avec Gemini n’étaient pas vocales, mais textuelles. La personne qui s’exprime dans la vidéo ne parlait donc pas directement à l’IA. Et cette dernière ne voyait pas les objets en temps réel, mais via des images.

Les instructions données à Gemini dans la démonstration // Source : Frandroid

Quant aux différentes situations montrées, il y a là aussi de la manipulation du LLM, pour le guider ou lui donner des pistes de réponse. En détaillant le plus possible les questions, Google conditionne le LLM à formuler des réponses moins générales et qui semblent plus intelligentes. Pour le pierre-feuille-ciseau, les images de la pierre, de la feuille et du ciseau étaient montrées simultanément. Pour le jeu de l’ordre des planètes du système solaire, il a été précisé à Gemini de « considérer la distance du soleil et d’expliquer son raisonnement. ». Dans l’exemple de la voiture, la question n’était pas « d’après leur forme, laquelle irait le plus vite ? », mais « Laquelle de ces voitures est la plus aérodynamique ? Celui de gauche ou celui de droite ? Expliquez pourquoi, en utilisant des détails visuels spécifiques. » C’est sans doute ce qui a permis à Gemini de préciser sa réponse, en mentionnant d’office l’aérodynamisme.

Gemini vs GPT-4 : des capacités (presque) similaires

Au vu de cette démonstration impressionnante, on pouvait facilement se dire que Google avait rattrapé OpenAI et son GPT-4 avec Gemini. Ce serait oublier que, dans l’ombre, on peut penser que l’entreprise travaille sur GPT-5, bien que ce ne soit pas officiel. De plus, dans la plupart des tests, Gemini ne dépasse GPT que de quelques pourcentages.

Gemini surpasse GPT-4 sur le texte… // Source : Google

L’avantage avec la démonstration de Gemini Ultra, c’est qu’on peut la répliquer… avec GPT-4, via ChatGPT Plus, l’abonnement payant de ChatGPT. C’est ce qu’a fait le professeur de Wharton Ethan Mollick dans une expérience racontée par Bloomberg. Pour lui, l’IA de Google était manipulée pour donner des réponses, bien qu’apparemment plus efficace pour interpréter l’intention. Mais en donnant des images à ChatGPT (qui peut les interpréter), il semble que les réponses soient similaires à celles de Gemini. Pour lui, « ces capacités ne sont pas aussi nouvelles qu’on le pense », a-t-il expliqué sur X.

Source : Ethan Mollick via X

Ethan Mollick via X // Source : URL

Et si Google s’était tout simplement tiré une balle dans le pied en essayant de frimer ? Comme c’est déjà arrivé par le passé, l’entreprise a survendu l’une de ses technologies. Ce qui est dommage, puisque quoi que l’on dise, la démonstration reste au moins aussi impressionnante que GPT-4.

Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).