L’année n’est pas encore écoulée que Google a sorti une nouvelle carte intelligence artificielle : Gemini, son tout dernier LLM, qui entend surpasser GPT d’OpenAI. Pour le démontrer, Google a donné des chiffres, mais ce qui a davantage marqué les esprits, c’est sa vidéo. Malheureusement, face aux doutes, l’entreprise a avoué : la vidéo était trafiquée. Google l’assume, mais quelque peu tardivement.
Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Google Bard et autres ?
Une vidéo de Gemini trop belle pour être réelle
En parallèle de la présentation de Gemini, Google a publié une vidéo de prise en main de l’IA multimodale (à qui l’on peut donner du texte, des images ou des vidéos). Elle utilise Gemini Ultra, la version la plus évoluée du LLM. Google ne l’a pas indiqué d’entrée, ce qui participe à faire croire que c’est cette version à laquelle les utilisateurs auront prochainement accès.
On y voit des mains dessiner progressivement un canard, que Gemini arrive petit à petit à identifier. Il répond aux questions de celui qui dessine, pour décrire ce qu’il « voit ». Le tout en plusieurs langues et avec une latence assez courte, qui fait montrer que l’outil est puissant. Gemini peut créer des petits jeux, jouer à pierre-feuille-ciseau, au bonneteau ou à des tours de magie. On y voit également Gemini générer des images à partir de fils de laine.
Ce n’est pas la première fois que Google réalise des démonstrations d’IA « impressionnantes ». Google Duplex était un outil présenté lors de la Google I/O 2018, qui permettait de gérer les appels audio grâce à Google Assistant, sans rien faire. De quoi prendre un rendez-vous chez le coiffeur par exemple. Cinq ans plus tard, la fonctionnalité est morte et la démonstration était sans doute trop éloignée de la réalité. Pire encore : Google faisait parfois appel (vous l’avez ?) à des humains au lieu d’utiliser son IA.
Les petites astuces de Google pour montrer son IA sous son meilleur jour
L’illusion d’avoir un Jarvis ou un HAL 9000 à ses côtés tous les jours n’est plus, en tout cas pour l’instant. Le rêve se fissure dès la description de la vidéo, où il est écrit : « pour les besoins de cette démo, la latence a été réduite et les sorties Gemini ont été raccourcies par souci de concision. » Ce qui fait qu’on ne connaît pas le réel temps de réponse de l’outil. ChatGPT Voice semble avoir encore quelques beaux jours devant lui au moins.
Ce qu’on découvre sur le site de Google pour les développeurs, c’est tout d’abord que les interactions avec Gemini n’étaient pas vocales, mais textuelles. La personne qui s’exprime dans la vidéo ne parlait donc pas directement à l’IA. Et cette dernière ne voyait pas les objets en temps réel, mais via des images.
Quant aux différentes situations montrées, il y a là aussi de la manipulation du LLM, pour le guider ou lui donner des pistes de réponse. En détaillant le plus possible les questions, Google conditionne le LLM à formuler des réponses moins générales et qui semblent plus intelligentes. Pour le pierre-feuille-ciseau, les images de la pierre, de la feuille et du ciseau étaient montrées simultanément. Pour le jeu de l’ordre des planètes du système solaire, il a été précisé à Gemini de « considérer la distance du soleil et d’expliquer son raisonnement. ». Dans l’exemple de la voiture, la question n’était pas « d’après leur forme, laquelle irait le plus vite ? », mais « Laquelle de ces voitures est la plus aérodynamique ? Celui de gauche ou celui de droite ? Expliquez pourquoi, en utilisant des détails visuels spécifiques. » C’est sans doute ce qui a permis à Gemini de préciser sa réponse, en mentionnant d’office l’aérodynamisme.
Gemini vs GPT-4 : des capacités (presque) similaires
Au vu de cette démonstration impressionnante, on pouvait facilement se dire que Google avait rattrapé OpenAI et son GPT-4 avec Gemini. Ce serait oublier que, dans l’ombre, on peut penser que l’entreprise travaille sur GPT-5, bien que ce ne soit pas officiel. De plus, dans la plupart des tests, Gemini ne dépasse GPT que de quelques pourcentages.
L’avantage avec la démonstration de Gemini Ultra, c’est qu’on peut la répliquer… avec GPT-4, via ChatGPT Plus, l’abonnement payant de ChatGPT. C’est ce qu’a fait le professeur de Wharton Ethan Mollick dans une expérience racontée par Bloomberg. Pour lui, l’IA de Google était manipulée pour donner des réponses, bien qu’apparemment plus efficace pour interpréter l’intention. Mais en donnant des images à ChatGPT (qui peut les interpréter), il semble que les réponses soient similaires à celles de Gemini. Pour lui, « ces capacités ne sont pas aussi nouvelles qu’on le pense », a-t-il expliqué sur X.
Et si Google s’était tout simplement tiré une balle dans le pied en essayant de frimer ? Comme c’est déjà arrivé par le passé, l’entreprise a survendu l’une de ses technologies. Ce qui est dommage, puisque quoi que l’on dise, la démonstration reste au moins aussi impressionnante que GPT-4.
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix