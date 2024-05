Gemini fait régulièrement parler de lui, mais avec la nomenclature de Google et tous les outils que l'entreprise teste et met en ligne, difficile de s'y retrouver. Ce dossier est là pour vous expliquer tout ce qu'il faut savoir sur Gemini : à quoi il sert, comment l'utiliser et quels sont les projets de Google pour le futur de l'IA.

6 décembre 2023, Google annonce quelque peu par surprise Gemini, son LLM, ou Large Language Model, grand modèle de langage en français. Il s’agit d’un modèle d’intelligence artificielle qui permet d’alimenter des chatbots comme ChatGPT. Gemini, dans certaines versions, est dit « multimodal », ce qui signifie qu’il peut interpréter plusieurs types d’éléments : du texte, de l’image, de la vidéo, ainsi que de l’audio. Voici tout ce qu’il faut comprendre sur Gemini.

Gemini : c’est quoi ce nouveau LLM de Google ?

Gemini, c’est tout simplement le dernier LLM de Google, qui selon ce dernier, est déjà capable de battre GPT-4, le LLM d’OpenAI qui est principalement utilisé sur ChatGPT et sur Copilot. L’idée, c’est que LaMDA et PaLM-2 n’étaient pas assez performants : avec Gemini, Google souhaite passer une nouvelle étape et il semblerait qu’il s’agisse d’un projet sur le long cours.

Cela semble fonctionner, puisque la première version dévoilée en décembre dernier battait GPT-4 sur 30 des 32 référentiels académiques. Il est très bon en résolution de problèmes de mathématiques et de physique, mais également sur la compréhension, moins sur la logique toutefois. Quid de la concurrence avec GPT-5 cependant ? Il sera intéressant de faire la comparaison quand ce sera possible.

Un modèle « multimodal », késako ?

Google qualifie son modèle de « multimodal » et c’est d’ailleurs la raison pour laquelle Google a abandonné ses autres modèles d’IA. Cela signifie qu’il peut interpréter de différentes manières son environnement et pas qu’à partir de texte : cela comprend le code informatique, l’audio, l’image ainsi que la vidéo.

De quoi étendre les possibilités d’usages et de performances. C’est d’ailleurs la grande différence avec GPT-4 d’OpenAI, qui n’est pas réellement multimodal : c’est le grand défi de son développeur.

Que signifie Gemini ?

Google a baptisé Gemini d’après Generalized Multimodal Intelligence Network. Littéralement, cela signifie « Réseau d’intelligence multimodale généralisée ». En latin, gemini signifie « jumeaux » : c’est là d’où vient la constellation des Gémeaux. En informatique, le nom se rapporte également à un protocole de communication client-serveur. Il a été créé pour servir d’étape dans la construction du web. Un protocole qui lui-même faisait référence au Programme Gemini de la NASA (dont le vaisseau avait le même nom), étape intermédiaire entre le Programme Mercury et le fameux Programme Apollo. Gemini de Google serait-il lui aussi une étape vers quelque chose de plus grand ?

Quelles sont les différences entre Gemini Nano, Pro et Ultra ?

Gemini est divisé en trois « tailles » en fonction du nombre de milliards de paramètres pris en compte durant leur fonctionnement. Plus la taille est grande, plus le modèle demande de ressources pour fonctionner (ou la génération des réponses est bien plus longue).

Il y a donc :

Gemini Nano : le plus petit, qui est conçu pour fonctionner sur des appareils en local, comme des smartphones. Lui-même est divisé en Nano 1 (1,8 milliard de paramètres) et Nano 2 (3,25 milliards), pour s’adapter à la RAM des appareils ;

Gemini Pro : un modèle polyvalent, qui peut être déployé sur des applications

Gemini Ultra : le nec plus ultra de ce que sait faire Google.

Comment s’y retrouver dans la nomenclature de Google : Bard est devenu Gemini

Au tout départ dans l’IA textuelle générative, il y avait Google Bard. Il s’agissait d’un chatbot de Google fonctionnant avec PaLM-2. Un outil présenté lors de la Google I/O 2023 et qui est resté expérimental toute sa vie avant de se transformer en Gemini. Depuis décembre dernier donc, Bard a disparu (application, site, mentions par Google) de la communication de l’entreprise au profit de Gemini. Même l’application Assistant with Bard a été tout simplement remplacée par Gemini. Un changement de nom peut-être lié aux bourdes de Bard durant sa présentation : elles avaient fait perdre 100 milliards de dollars à Google.

Par ailleurs, Google a investi beaucoup d’argent dans Anthropic, une start-up spécialisée dans l’intelligence artificielle, qui commercialise son propre chatbot, baptisé Claude AI.

Gemini remplacera Google Assistant

Changement de technologie, changement de nom : c’est ce vers quoi Google tendrait avec Google Assistant. Son assistant vocal lancé en 2016 n’a jamais vraiment convaincu, et son développement semble au point mort depuis quelque temps. En effet, aucune grande nouveauté n’est apparue cette année. Pire encore : certaines fonctionnalités ont été supprimées par Google.

Pourtant, les progrès technologiques de Google sont au rendez-vous avec Gemini. Ce que Google devrait faire, c’est totalement faire disparaître Google Assistant au profit de Gemini. Ce dernier pourrait être un meilleur assistant vocal, sa conception lui permettant de mieux « comprendre » les requêtes des utilisateurs, et d’y répondre. La prochaine étape : lancer une fonction de discussion vocale sur Gemini, à l’instar de ChatGPT Voice.

Gemma : la version « ouverte » de Gemini

En février dernier, Google lançait Gemma, une famille de LLM basée sur ceux de Gemini. L’objectif : vendre ses solutions de Cloud pour faire face à Amazon et à Microsoft. Gemma peut être utilisée gratuitement et est « construit à l’aide des mêmes éléments techniques, de recherche et d’infrastructure que ceux utilisés pour créer les modèles Gemini ». Google argue même que « Gemma présente les meilleures performances de sa catégorie comparée aux autres modèles ouverts pour leur taille. »

Ainsi, il existe Gemma 2B et Gemma 7B (pour 2 et 7 milliards de paramètres). Il est même possible de faire fonctionner Gemma sur son ordinateur en local, par exemple via ChatRTX, un logiciel de Nvidia permettant d’utiliser des LLM.

Comment utiliser Gemini ?

Google oblige, Gemini s’immisce progressivement partout dans ses services. Voilà quelques portes d’accès au chatbot.

Via l’assistant Gemini

Anciennement Google Bard, l’agent conversationnel Google Gemini est disponible sur navigateur (gemini.google.com), mais pas encore via une application pour smartphones. Ce chatbot utilise Gemini Pro, la version intermédiaire du LLM. Pour le moment néanmoins, impossible de télécharger l’application Gemini en France et ce pour une bonne raison : pour des questions de RGPD, Google n’a pas lancé son assistant dans l’Union européenne.

Actuellement, Gemini utilise Gemini Pro 1.5, une version de Gemini proche de Gemini 1.0 Ultra, qui possède une grande capacité de traitement : près d’un demi-million de jetons, contre 128 000 pour GPT-4. De quoi permettre à l’assistant d’analyse de très grandes quantités d’informations, comme 10 heures de vidéo ou des dizaines de milliers de lignes de codes.

Sur les Pixel 8

Gemini Nano est disponible sur les Pixel 8 et Pixel 8 Pro, le tout en local : toutes les opérations sont réalisées sur le smartphone et non sur les serveurs de Google. De quoi ne pas nécessiter de connexion à Internet et d’envoyer des informations à Google.

L’assistant permet de générer des réponses automatiques dans les conversations WhatsApp (en anglais seulement) depuis le clavier Gboard. Pour cela, Gemini Nano consulte la conversation, uniquement l’écran visible. Seule WhatsApp est disponible pour le moment, mais d’autres applications arriveront ensuite. Dans l’enregistreur vocal (le Pixel Recorder), on peut demander à Gemini de faire un résumé de la conversation.

Sur Chrome

Dans Chrome, vous pouvez taper « @gemini » dans la barre d’adresse en haut de l’écran suivi de votre requête. Alors, c’est le site gemini.google.com qui se lance avec votre requête à laquelle il répond.

Dans Google Messages

L’assistant est même accessible depuis Google Messages : dans l’application SMS/MMS de Google, il y a chez certains utilisateurs une discussion avec Gemini. De quoi lui demander de rédiger un SMS important, générer des images à envoyer à ses amis, etc.

Mais on peut tout à fait utiliser cette version de Gemini (moins puissante que l’assistant sur navigateur) pour demander tout et n’importe quoi : une recette de cuisine, des sujets de conversation pour la soirée qui approche, etc. Pour le moment, l’intégration n’est pas prévue chez les utilisateurs de l’Union européenne.

Gemini sur iPhone ?

Bien qu’aucune application Gemini ne soit disponible sur l’App Store, Google pourrait bien apporter son assistant sur l’iPhone. Selon les rumeurs, Apple négocierait avec Google pour pouvoir utiliser Gemini sur iOS. Le fabricant de smartphones voudrait intégrer de l’IA générative au plus vite sur ses prochains modèles. De quoi interroger un chatbot directement dans iOS, sans devoir passer par une application ou par un site web.

Ce serait par ailleurs l’une des grandes nouveautés d’iOS 18, qui s’annonce déjà comme une évolution importante du système d’exploitation des iPhone. Réponse en juin prochain lors de la WWDC 2024, lors de laquelle Apple lèvera le voile sur le successeur d’iOS 17, à quelques mois de la présentation des iPhone 16.

De quoi est capable Google Gemini ?

L’IA de Google est capable d’accomplir énormément de tâches, tant et si bien qu’il est impossible de toutes les lister. Pour en savoir plus, nous vous invitons à lire notre dossier sur les usages de ChatGPT, qui peut aussi s’appliquer à Gemini.

Les résumés de texte

Comme bien d’autres chatbots, Gemini est un très bon outil de résumé de contenus textuels. Mails, articles, fichiers Docs : au fur et à mesure de son intégration dans les services et appareils de Google, les possibilités de résumés de texte sont de plus en plus grandes. Bientôt par exemple, un bouton « Résumer cet e-mail » apparaîtra dans l’application Gmail.

Pour le moment, la fonctionnalité est déjà disponible dans certains pays dans la version navigateur de Gmail, pour les utilisateurs Workspace uniquement. L’avantage, c’est qu’on pourra résumer des chaînes de mails et non des messages séparés uniquement : de quoi comprendre l’essence d’une discussion à laquelle on n’a pas participé, mais dans laquelle on était en copie.

L’entraînement sportif

Pour le moment, les conseils d’entraînement sportif sont expérimentaux et n’arriveront pas tout de suite. Quoiqu’il en soit, Google a déjà annoncé l’arrivée de Fitbit Labs, un ensemble de fonctionnalités basées sur Gemini, façon chatbot et coach virtuel. Fitbit Labs sera naturellement intégré dans l’application Fitbit, dédiée aux montres et bracelets connectés de la marque.

Le chatbot sera capable de générer des graphiques mettant en relation plusieurs données (comme l’activité du jour et la qualité du sommeil de la nuit suivante). Ce « coach » pourra aussi programmer des entraînements personnalisés en fonction des données de santé actuelles. Une fonctionnalité qui devrait être réservée aux utilisateurs abonnés à Fitbit Premium.

Les extensions de Gemini

Sur la version navigateur du chatbot, il y a depuis peu un système d’extensions, disponible en France. Cela permet de connecter le chatbot à d’autres services de Google : Google Flights, Google Hotels, Google Maps, YouTube ainsi que la suite Workspace (Docs, Sheets, etc.). L’idée est de pouvoir « invoquer » ces extensions lorsqu’on tape une requête, afin que Gemini aille chercher des informations au sein d’autres services Google. De quoi avoir un lien vers Flights, Maps ou encore YouTube. Pour les fonctionnalités liées à Google Workspace, il faut donner les droits d’accès à Gemini, afin qu’il puisse consulter vos mails et vos documents.

Ces extensions peuvent être désactivées à tout moment dans les paramètres de confidentialité de l’assistant. Pour le moment, aucune application tierces n’est disponible, mais on peut parier qu’à l’avenir, il y aura une boutique d’extensions, comme celle que propose ChatGPT.

Ce dont le chatbot est incapable

Une récente étude de l’ONG Democracy Reporting International indiquait que Gemini, comme les autres chatbots, était incapable de donner des informations précises à propos des élections européennes. Ils n’arrivent pas à expliquer le fonctionnement du scrutin et génèrent des informations à partir de peu de données.

Gemini, de son côté, formule surtout des non-réponses et incite le plus les utilisateurs à se renseigner ailleurs. Cet exemple est certes isolé, mais montre l’une des limites de Gemini. D’ailleurs, Google avait tranché en mars dernier : Gemini ne fournira plus d’informations sur les élections européennes.

Profiter de la version la plus évoluée de Gemini avec l’abonnement de Google

Il y a quelques mois, Google a lancé Google One AI Premium : il s’agit d’une version de l’abonnement Google One taillée pour les outils d’IA de la société. Il comprend tous les avantages du forfait Google One Premium, mais pas que. On profite avec celui-ci de 2 To d’espace de stockage sur le compte Google (au lieu de 15 Go pour un compte gratuit), mais aussi et surtout de l’intégration de Gemini dans les services Google, ainsi que la possibilité d’utiliser Gemini Advanced, à savoir Gemini 1.0 Ultra (la version la plus évoluée du LLM). L’abonnement coûte 21,99 euros par mois et Google propose une offre d’essai de deux mois.

Sur son site, Google précise que « Gemini Advanced est bien plus efficace pour les tâches très complexes comme le codage, le raisonnement logique, le suivi d’instructions spécifiques et la collaboration créative. » Attention cependant : Gemini Advanced n’est disponible et optimisé qu’en anglais, même s’il peut répondre en français. Et pour Gemini dans Gmail, Docs ou Slides, c’est uniquement en anglais américain.

Pourquoi Gemini est-il aussi limité en France ?

Plusieurs fonctionnalités de Gemini ne sont pas disponibles en France, et plus généralement dans l’Union européenne. C’est principalement la législation européenne qui refroidit Google à lancer ses outils d’IA sur le Vieux Continent. Il y a tout d’abord la protection des données : Gemini, pour progresser, doit utiliser les conversations qu’il a avec ses utilisateurs, ce qui peut poser un souci de protection des données des utilisateurs du chatbot.

Ensuite, le Digital Markets Act : si Google déploie Gemini à grande échelle, l’entreprise pourrait se voir contraindre de lui faire respecter certaines règles. Entre autres, Gemini ne pourrait plus avantager les autres services de Google (YouTube, Maps, Workspace, etc.). Pourtant, c’est là que réside toute la force de l’outil : pouvoir se connecter aux autres services de la firme.

Enfin, il y a l’AI Act : un texte sur lequel le Parlement est tombé d’accord en mars dernier, qui vise à encadrer les IA génératives notamment. Il devrait officiellement être ratifié d’ici juillet prochain. Un texte qui obligerait Google à révéler à la Commission européenne les secrets de Gemini (contenus utilisés pour l’entraînement, algorithme, etc.), à forcer le watermark des contenus générés par l’outil (faire en sorte que les textes et images puissent être identifiés comme artificiels).

Pour tout savoir du futur de Gemini, rendez-vous est donné le 14 mai prochain lors de la Google I/O. Il s’agit de la grande conférence annuelle de Google dédiée aux nouveautés logicielles de l’entreprise. On devrait beaucoup y entendre parler de Gemini, avec en toute probabilité des annonces.