Gemini : tout savoir sur l’IA de Google qui veut remplacer ChatGPT

 

Gemini fait régulièrement parler de lui, mais avec la nomenclature de Google et tous les outils que l'entreprise teste et met en ligne, difficile de s'y retrouver. Ce dossier est là pour vous expliquer tout ce qu'il faut savoir sur Gemini : à quoi il sert, comment l'utiliser et quels sont les projets de Google pour le futur de l'IA.

Logo de Gemini // Source : Google

6 décembre 2023, Google annonce quelque peu par surprise Gemini, son LLM, ou Large Language Model, grand modèle de langage en français. Il s’agit d’un modèle d’intelligence artificielle qui permet d’alimenter des chatbots comme ChatGPT. Gemini, dans certaines versions, est dit « multimodal », ce qui signifie qu’il peut interpréter plusieurs types d’éléments : du texte, de l’image, de la vidéo, ainsi que de l’audio. Voici tout ce qu’il faut comprendre sur Gemini.

Gemini : c’est quoi ce nouveau LLM de Google ?

Gemini, c’est tout simplement le dernier LLM de Google, qui selon ce dernier, est déjà capable de battre GPT-4, le LLM d’OpenAI qui est principalement utilisé sur ChatGPT et sur Copilot. L’idée, c’est que LaMDA et PaLM-2 n’étaient pas assez performants : avec Gemini, Google souhaite passer une nouvelle étape et il semblerait qu’il s’agisse d’un projet sur le long cours.

Source : Google

Cela semble fonctionner, puisque la première version dévoilée en décembre dernier battait GPT-4 sur 30 des 32 référentiels académiques. Il est très bon en résolution de problèmes de mathématiques et de physique, mais également sur la compréhension, moins sur la logique toutefois. Quid de la concurrence avec GPT-5 cependant ? Il sera intéressant de faire la comparaison quand ce sera possible.

Un modèle « multimodal », késako ?

Google qualifie son modèle de « multimodal » et c’est d’ailleurs la raison pour laquelle Google a abandonné ses autres modèles d’IA. Cela signifie qu’il peut interpréter de différentes manières son environnement et pas qu’à partir de texte : cela comprend le code informatique, l’audio, l’image ainsi que la vidéo.

Source : Google

De quoi étendre les possibilités d’usages et de performances. C’est d’ailleurs la grande différence avec GPT-4 d’OpenAI, qui n’est pas réellement multimodal : c’est le grand défi de son développeur.

Que signifie Gemini ?

Google a baptisé Gemini d’après Generalized Multimodal Intelligence Network. Littéralement, cela signifie « Réseau d’intelligence multimodale généralisée ». En latin, gemini signifie « jumeaux » : c’est là d’où vient la constellation des Gémeaux. En informatique, le nom se rapporte également à un protocole de communication client-serveur. Il a été créé pour servir d’étape dans la construction du web. Un protocole qui lui-même faisait référence au Programme Gemini de la NASA (dont le vaisseau avait le même nom), étape intermédiaire entre le Programme Mercury et le fameux Programme Apollo. Gemini de Google serait-il lui aussi une étape vers quelque chose de plus grand ?

Quelles sont les différences entre Gemini Nano, Pro et Ultra ?

Gemini est divisé en trois « tailles » en fonction du nombre de milliards de paramètres pris en compte durant leur fonctionnement. Plus la taille est grande, plus le modèle demande de ressources pour fonctionner (ou la génération des réponses est bien plus longue).

Gemini surpasse GPT-4 sur le texte… // Source : Google

Il y a donc :

  • Gemini Nano : le plus petit, qui est conçu pour fonctionner sur des appareils en local, comme des smartphones. Lui-même est divisé en Nano 1 (1,8 milliard de paramètres) et Nano 2 (3,25 milliards), pour s’adapter à la RAM des appareils ;
  • Gemini Pro : un modèle polyvalent, qui peut être déployé sur des applications ;
  • Gemini Flash : une version ultra-rapide, taillée pour les applications qui veulent utiliser l’API de Google ;
  • Gemini Ultra : le nec plus ultra de ce que sait faire Google.

Depuis la dernière Google I/O, la version la plus évoluée, c’est Gemini 1.5 Pro, qui propose une capacité de traitement jusqu’à un million de tokens, ce qui est beaucoup plus que les 32 000 de Gemini 1.0 Pro.

Comment s’y retrouver dans la nomenclature de Google : Bard est devenu Gemini

Au tout départ dans l’IA textuelle générative, il y avait Google Bard. Il s’agissait d’un chatbot de Google fonctionnant avec PaLM-2. Un outil présenté lors de la Google I/O 2023 et qui est resté expérimental toute sa vie avant de se transformer en Gemini. Depuis décembre dernier donc, Bard a disparu (application, site, mentions par Google) de la communication de l’entreprise au profit de Gemini. Même l’application Assistant with Bard a été tout simplement remplacée par Gemini. Un changement de nom peut-être lié aux bourdes de Bard durant sa présentation : elles avaient fait perdre 100 milliards de dollars à Google.

Google Bard // Source : Frandroid

Par ailleurs, Google a investi beaucoup d’argent dans Anthropic, une start-up spécialisée dans l’intelligence artificielle, qui commercialise son propre chatbot, baptisé Claude AI.

Gemini remplacera Google Assistant

Changement de technologie, changement de nom : c’est ce vers quoi Google tendrait avec Google Assistant. Son assistant vocal lancé en 2016 n’a jamais vraiment convaincu, et son développement semble au point mort depuis quelque temps. En effet, aucune grande nouveauté n’est apparue cette année. Pire encore : certaines fonctionnalités ont été supprimées par Google.

Source : Google

Pourtant, les progrès technologiques de Google sont au rendez-vous avec Gemini. Ce que Google devrait faire, c’est totalement faire disparaître Google Assistant au profit de Gemini. Ce dernier pourrait être un meilleur assistant vocal, sa conception lui permettant de mieux « comprendre » les requêtes des utilisateurs, et d’y répondre. La prochaine étape : lancer une fonction de discussion vocale sur Gemini, à l’instar de ChatGPT Voice.

Gemma : la version « ouverte » de Gemini

En février dernier, Google lançait Gemma, une famille de LLM basée sur ceux de Gemini. L’objectif : vendre ses solutions de Cloud pour faire face à Amazon et à Microsoft. Gemma peut être utilisée gratuitement et est « construit à l’aide des mêmes éléments techniques, de recherche et d’infrastructure que ceux utilisés pour créer les modèles Gemini ». Google argue même que « Gemma présente les meilleures performances de sa catégorie comparée aux autres modèles ouverts pour leur taille. »

Les performances de Gemma par rapport à d’autres LLM // Source : Google

Ainsi, il existe Gemma 2B et Gemma 7B (pour 2 et 7 milliards de paramètres). Il est même possible de faire fonctionner Gemma sur son ordinateur en local, par exemple via ChatRTX, un logiciel de Nvidia permettant d’utiliser des LLM.

Comment utiliser Gemini ?

Google oblige, Gemini s’immisce progressivement partout dans ses services. Voilà quelques portes d’accès au chatbot.

Via l’assistant Gemini

Anciennement Google Bard, l’agent conversationnel Google Gemini est disponible sur navigateur (gemini.google.com), mais pas encore via une application pour smartphones. Ce chatbot utilise Gemini Pro, la version intermédiaire du LLM. Pour le moment néanmoins, impossible de télécharger l’application Gemini en France et ce pour une bonne raison : pour des questions de RGPD, Google n’a pas lancé son assistant dans l’Union européenne.

La page de Google Gemini sur le Play Store // Source : Frandroid

Actuellement, Gemini (avec son abonnement Advanced) utilise Gemini Pro 1.5, une version de Gemini proche de Gemini 1.0 Ultra, qui possède une grande capacité de traitement : un million de jetons, contre 128 000 pour GPT-4. De quoi permettre à l’assistant d’analyse de très grandes quantités d’informations, comme 10 heures de vidéo ou des dizaines de milliers de lignes de codes.

Sur les Pixel 8

Gemini Nano est disponible sur les Pixel 8 et Pixel 8 Pro, le tout en local : toutes les opérations sont réalisées sur le smartphone et non sur les serveurs de Google. De quoi ne pas nécessiter de connexion à Internet et d’envoyer des informations à Google.

L’assistant permet de générer des réponses automatiques dans les conversations WhatsApp (en anglais seulement) depuis le clavier Gboard. Pour cela, Gemini Nano consulte la conversation, uniquement l’écran visible. Seule WhatsApp est disponible pour le moment, mais d’autres applications arriveront ensuite. Dans l’enregistreur vocal (le Pixel Recorder), on peut demander à Gemini de faire un résumé de la conversation.

Sur Chrome

Dans Chrome, vous pouvez taper « @gemini » dans la barre d’adresse en haut de l’écran suivi de votre requête. Alors, c’est le site gemini.google.com qui se lance avec votre requête à laquelle il répond.

Dans Google Messages

L’assistant est même accessible depuis Google Messages : dans l’application SMS/MMS de Google, il y a chez certains utilisateurs une discussion avec Gemini. De quoi lui demander de rédiger un SMS important, générer des images à envoyer à ses amis, etc.

Gemini dans Google Messages // Source : AssembleDebug – TheSpAndroid

Mais on peut tout à fait utiliser cette version de Gemini (moins puissante que l’assistant sur navigateur) pour demander tout et n’importe quoi : une recette de cuisine, des sujets de conversation pour la soirée qui approche, etc. Pour le moment, l’intégration n’est pas prévue chez les utilisateurs de l’Union européenne.

Dans Google Workspace

Gemini veut devenir un véritable outil de productivité, un assistant de travail, un collège ultime. C’est dans ce contexte que Google cherche à le déployer dans sa suite Workspace, la version par abonnement et pour les entreprises de Gmail, Drive, Docs, Sheets, etc. Par exemple, Gmail pourra lire, trier, rédiger et organiser vos mails si vous lui demandez.

Le chatbot pourra même être invoqué dans des conversations Google Chat, nourrit du travail de toute une équipe sur un projet (documents, discussions, agendas, etc.). La fonctionnalité a un nom plus précis : AI Teammate et semble très prometteuse.

Gemini sur iPhone ?

Bien qu’aucune application Gemini ne soit disponible sur l’App Store, Google pourrait bien apporter son assistant sur l’iPhone. Selon les rumeurs, Apple négocierait avec Google pour pouvoir utiliser Gemini sur iOS. Le fabricant de smartphones voudrait intégrer de l’IA générative au plus vite sur ses prochains modèles. De quoi interroger un chatbot directement dans iOS, sans devoir passer par une application ou par un site web.

iOS 17.5 // Source : Apple

Ce serait par ailleurs l’une des grandes nouveautés d’iOS 18, qui s’annonce déjà comme une évolution importante du système d’exploitation des iPhone. Réponse en juin prochain lors de la WWDC 2024, lors de laquelle Apple lèvera le voile sur le successeur d’iOS 17, à quelques mois de la présentation des iPhone 16.

De quoi est capable Google Gemini ?

L’IA de Google est capable d’accomplir énormément de tâches, tant et si bien qu’il est impossible de toutes les lister. Pour en savoir plus, nous vous invitons à lire notre dossier sur les usages de ChatGPT, qui peut aussi s’appliquer à Gemini.

Les résumés de texte

Comme bien d’autres chatbots, Gemini est un très bon outil de résumé de contenus textuels. Mails, articles, fichiers Docs : au fur et à mesure de son intégration dans les services et appareils de Google, les possibilités de résumés de texte sont de plus en plus grandes. Bientôt par exemple, un bouton « Résumer cet e-mail » apparaîtra dans l’application Gmail.

Gemini dans Gmail // Source : Google

Pour le moment, la fonctionnalité est déjà disponible dans certains pays dans la version navigateur de Gmail, pour les utilisateurs Workspace uniquement. L’avantage, c’est qu’on pourra résumer des chaînes de mails et non des messages séparés uniquement : de quoi comprendre l’essence d’une discussion à laquelle on n’a pas participé, mais dans laquelle on était en copie.

L’entraînement sportif

Pour le moment, les conseils d’entraînement sportif sont expérimentaux et n’arriveront pas tout de suite. Quoiqu’il en soit, Google a déjà annoncé l’arrivée de Fitbit Labs, un ensemble de fonctionnalités basées sur Gemini, façon chatbot et coach virtuel. Fitbit Labs sera naturellement intégré dans l’application Fitbit, dédiée aux montres et bracelets connectés de la marque.

Le chatbot sera capable de générer des graphiques mettant en relation plusieurs données (comme l’activité du jour et la qualité du sommeil de la nuit suivante). Ce « coach » pourra aussi programmer des entraînements personnalisés en fonction des données de santé actuelles. Une fonctionnalité qui devrait être réservée aux utilisateurs abonnés à Fitbit Premium.

Les extensions de Gemini

Sur la version navigateur du chatbot, il y a depuis peu un système d’extensions, disponible en France. Cela permet de connecter le chatbot à d’autres services de Google : Google Flights, Google Hotels, Google Maps, YouTube ainsi que la suite Workspace (Docs, Sheets, etc.). L’idée est de pouvoir « invoquer » ces extensions lorsqu’on tape une requête, afin que Gemini aille chercher des informations au sein d’autres services Google. De quoi avoir un lien vers Flights, Maps ou encore YouTube. Pour les fonctionnalités liées à Google Workspace, il faut donner les droits d’accès à Gemini, afin qu’il puisse consulter vos mails et vos documents.

Source : Capture d’écran par Frandroid

Ces extensions peuvent être désactivées à tout moment dans les paramètres de confidentialité de l’assistant. Pour le moment, aucune application tierces n’est disponible, mais on peut parier qu’à l’avenir, il y aura une boutique d’extensions, comme celle que propose ChatGPT. On sait d’ailleurs que YouTube Music va arriver très prochainement. Plus tard, ce sera au tour de Google Agenda, Google Tasks et Google Keep de devenir des extensions de Gemini.

Détecter les arnaques sur votre smartphone

Dans un futur proche, Gemini Nano pourra détecter les conversations téléphoniques qu’il juge frauduleuses et qui ressemblent trop à des arnaques. Le LLM fonctionne dans ce cas-là directement sur votre smartphone, sans communiquer avec les services de Google.

Dans le cas où il détecte une étrange conversation, un message de prévention s’affichera. On ignore pour quels modèles ce sera disponible : il est possible que ça n’arrive que pour les Pixel, ou bien sur certains appareils sous Android 15.

Retrouvez n’importe laquelle de vos photos

Autre fonctionnalité à venir propulsée par Gemini : Ask Photos, dans Google Photos. Elle offrira la possibilité de chercher du contenu dans une photo de manière très précise. Que ce soit une plaque d’immatriculation ou un plat (avec la recette), Gemini devrait pouvoir tout retrouver.

La fonctionnalité Ask Photos // Source : Google

En plus de ça, le chatbot pourra choisir une sélection de photos que vous lui aurez demandée : par exemple, toutes les photos de votre enfant en train de nager.

Ce dont le chatbot est incapable

Une récente étude de l’ONG Democracy Reporting International indiquait que Gemini, comme les autres chatbots, était incapable de donner des informations précises à propos des élections européennes. Ils n’arrivent pas à expliquer le fonctionnement du scrutin et génèrent des informations à partir de peu de données.

Gemini, de son côté, formule surtout des non-réponses et incite le plus les utilisateurs à se renseigner ailleurs. Cet exemple est certes isolé, mais montre l’une des limites de Gemini. D’ailleurs, Google avait tranché en mars dernier : Gemini ne fournira plus d’informations sur les élections européennes. Mis à part cela, on sait que prochainement, Gemini pourrait se souvenir de ce que vous voulez bien lui raconter, comme le fait ChatGPT depuis un certain temps.

Profiter de la version la plus évoluée de Gemini avec l’abonnement de Google

Lors de la dernière Google I/O, Google a lancé Gemini Advanced : il s’agit d’une version de l’abonnement Google One taillée pour les outils d’IA de la société. Il comprend tous les avantages du forfait Google One Premium, mais pas que. On profite avec celui-ci de 2 To d’espace de stockage sur le compte Google (au lieu de 15 Go pour un compte gratuit), mais aussi et surtout de l’intégration de Gemini dans les services Google, ainsi que la possibilité d’utiliser Gemini Advanced, à savoir Gemini 1.5 Pro (la version la plus évoluée du LLM). L’abonnement coûte 21,99 euros par mois et Google propose une offre d’essai de deux mois.

La page de vente de l’abonnement Google One AI Premium // Source : Frandroid

Sur son site, Google précise que « Gemini Advanced est bien plus efficace pour les tâches très complexes comme le codage, le raisonnement logique, le suivi d’instructions spécifiques et la collaboration créative. »

Attention cependant : Gemini Advanced n’est disponible et optimisé qu’en anglais, même s’il peut répondre en français. Et pour Gemini dans Gmail, Docs ou Slides, c’est uniquement en anglais américain. L’abonnement permettra prochainement d’accéder à des fonctionnalités exclusives. Parmi elles, il y a Gemini Live, qui permet de discuter avec le chatbot comme on le ferait avec une personne réelle. A priori, il peut être interrompu et on peut lui demander de changer sa voix à la volée. On pourra aussi utiliser la caméra en direct pour interagir avec Gemini. Le chatbot servira aussi de Guide du routard qui planifie votre voyage selon vos goûts et vos désirs.

Google compte par ailleurs lancer les Gems, des Gemini personnalités que l’on pourra créer soit même, comme « un compagnon de gym, un sous-chef, un partenaire de programmation ou un guide d’écriture créative », précise l’entreprise.

Pourquoi Gemini est-il aussi limité en France ?

Plusieurs fonctionnalités de Gemini ne sont pas disponibles en France, et plus généralement dans l’Union européenne. C’est principalement la législation européenne qui refroidit Google à lancer ses outils d’IA sur le Vieux Continent. Il y a tout d’abord la protection des données : Gemini, pour progresser, doit utiliser les conversations qu’il a avec ses utilisateurs, ce qui peut poser un souci de protection des données des utilisateurs du chatbot.

Images générées par Google Gemini

Ensuite, le Digital Markets Act : si Google déploie Gemini à grande échelle, l’entreprise pourrait se voir contraindre de lui faire respecter certaines règles. Entre autres, Gemini ne pourrait plus avantager les autres services de Google (YouTube, Maps, Workspace, etc.). Pourtant, c’est là que réside toute la force de l’outil : pouvoir se connecter aux autres services de la firme.

Google Gemini // Source : Frandroid

Enfin, il y a l’AI Act : un texte sur lequel le Parlement est tombé d’accord en mars dernier, qui vise à encadrer les IA génératives notamment. Il devrait officiellement être ratifié d’ici juillet prochain. Un texte qui obligerait Google à révéler à la Commission européenne les secrets de Gemini (contenus utilisés pour l’entraînement, algorithme, etc.), à forcer le watermark des contenus générés par l’outil (faire en sorte que les textes et images puissent être identifiés comme artificiels).


Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).

Les derniers articles