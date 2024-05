Lors de sa Google I/O, Google a annoncé que Gemini 1.5 Pro, la version la plus évoluée de son LLM, arrivait dans Gemini Advanced, sa formule par abonnement de son chatbot. Dans cet abonnement, d'autres fonctionnalités sont comprises : elles pourraient débarquer plus tard chez les utilisateurs gratuits.

Ce mardi 14 mai, c’était la Google I/O 2024, une grande conférence organisée par Google pour faire état de ses innovations logicielles. Cette année, l’intelligence artificielle est à l’honneur. Et pour cela, Google a présenté des changements pour Gemini Advanced, la version payante de Gemini, son chatbot concurrent de ChatGPT. Tour d’horizons des nouvelles fonctionnalités à venir qui doivent permettre à Google de concurrencer un ChatGPT Plus de plus en plus féroce.

Gemini 1.5 Pro : l’argument de vente de Gemini Advanced

Jusqu’à maintenant, Gemini Advanced ne proposait « que » Gemini 1.0 Ultra : la version Ultra étant jusqu’à présent le LLM le plus puissant proposé par Google. Gemini 1.5 Pro a été présenté par Google en février dernier, aux côtés de Gemini 1.5 tout court. Sa version Pro dépasse la 1.0 Pro dans 87% des tests de référence, se vantait alors Google. Plus rapide, plus efficace, bref cette version est boostée en pouvant traiter un million de jetons (tokens), ce qui est beaucoup plus que les 32 000 de Gemini 1.0 Pro. À titre de comparaison, GPT-4 peut en traiter 128 000. Plus de tokens ne signifie pas nécessairement plus de performances. À des fins d’optimisation, OpenAI cherche à compresser le nombre de tokens utilisés dans une tâche. C’est le cas avec GPT-4o, un modèle de langage présenté ce 13 mai, juste avant la conférence de Google. Quoiqu’il en soit, Gemini Advanced propose le chatbot avec le plus de tokens disponible sur le marché public.

L’avantage de Gemini 1.5 Pro, c’est qu’il permet de traiter beaucoup d’informations (jetons). Concrètement, on peut analyser 1500 pages de texte ou 100 courriels très rapidement. À terme, Google annonce que son LLM sera « capable de traiter une heure de contenu vidéo ou des bases de code de plus de 30 000 lignes. » Enfin, ce Gemini 1.5 Pro prend en charge l’audio, tant sur des fichiers audio que dans des pistes audios de vidéos. Google avait expliqué que « les utilisateurs bénéficient ainsi d’une analyse multimodale transparente, qui leur permet d’obtenir des informations sur les textes, les images, les vidéos et l’audio. Il fournit également une transcription de haute qualité et peut être utilisé pour rechercher du contenu audio et vidéo, par exemple pour rechercher, analyser et répondre à des questions lors d’appels d’offres ou de réunions d’investisseurs. »

Pour rappel, cette version est dite multimodale : on peut lui fournir une image et lui poser une question, ce qui fait que le chatbot utilisera ces deux contenus pour répondre à la requête. Google réserve toutefois ce modèle à ses utilisateurs les plus exigeants, par extension ceux qui sont prêts à payer un abonnement tous les mois.

L’entreprise précise que Gemini Advanced avec Gemini 1.5 Pro sera disponible dans plus de 150 pays et plus de 35 langues. A priori, les pays de l’Union européenne dont la France ne devraient pas être concernés : en cause, les différentes législations européennes en vigueur ou bientôt en vigueur, comme le RGPD, le DMA et l’AI Act prochainement.

Un chatbot plus « intelligent », mais « grâce » à vous

Si Google Gemini est capable de traiter moult données, encore faut-il lui en fournir. Et ça, dans la plupart des cas, c’est le rôle de l’utilisateur. C’est pourquoi Google ajoute la possibilité de télécharger des fichiers depuis son espace Google Drive ou depuis son appareil, directement dans la version Advanced du chatbot. L’entreprise s’explique : « vous pouvez obtenir rapidement des réponses et des informations sur des documents denses, par exemple pour connaître les détails de la politique relative aux animaux de compagnie dans votre contrat de location ou pour comparer les arguments clés de plusieurs longs documents de recherche. »

Google pense logiquement à la suite. La firme prévoit que bientôt, Gemini Advanced sera capable de construire des visualisations et des graphiques « à la volée » à partir des fichiers (comme des feuilles de calcul) que vous lui confiez. Pour rassurer ses utilisateurs, notamment les professionnels, GOogle rappelle que « Gemini ne divulgue par vos fichiers et ne les utilise pas pour entraîner nos modèles. »

Quels sont les avantages offerts par Gemini Advanced ?

Aujourd’hui, Google nomme Google One AI Premium sa formule permettant d’utiliser Gemini Advanced, bien que les deux se confondent au final. Ce forfait coûte 21,99 euros par mois (avec une offre d’essai de deux mois), pour voir :

Tous les avantages de Google One Premium ;

2 To de stockage sur le compte Google (au lieu de 15 Go pour les utilisateurs gratuits) ;

L’intégration de Gemini dans les services Google ;

L’utilisation de Gemini 1.5 Pro.

Les fonctionnalités qui vont arriver sur Gemini Advanced

Dans le même temps, Google a annoncé plusieurs fonctionnalités qui seront réservées aux abonnés à Gemini Advanced uniquement.

Gemini Live : vous serez dans les fauteuils de The Voice

Google compte déployer dans les mois à venir la fonction Live pour les utilisateurs d’Advanced. L’entreprise explicite l’idée : « vous pouvez parler à Gemini et choisir parmi une variété de voix naturelles qu’il peut utiliser pour vous répondre. » En somme, cela ressemble beaucoup à ChatGPT Voice, la fonction vocale du chatbot d’OpenAI avec laquelle on peut choisir de converser parmi cinq voix disponibles. Et comme pour les démonstrations impressionnantes de GPT-4o en mode vocal, Gemini Live peut être interrompu en cours de réponse.

D’ailleurs, Google a trouvé exactement le même exemple d’usage qu’OpenAI : « Imaginons que vous vous prépariez à un entretien d’embauche ou que vous répétiez un discours important : Il vous suffit d’aller en direct et de demander à Gemini de vous aider à vous préparer. Gemini vous suggérera des compétences à mettre en avant lorsque vous parlerez à votre employeur potentiel, ou des conseils pour parler en public afin de calmer vos nerfs avant de monter sur l’estrade. »

Autre nouveauté à venir dans le courant de l’année : la possibilité d’utiliser la caméra en direct, pour interagir avec Gemini à propos de ce que vous voyez autour de vous.

Gemini se la jouera tour operator et Guide du routard

Google veut que son chatbot devienne votre tour operator, en réalisant le programme de votre séjour selon vos envies et vos contraintes. Tout d’abord, Gemini Advanced pourra extraire les informations de votre trajet réservé (avion, train) depuis Gmail simplement en lui demandant. En prenant en compte tout cela, mais aussi « vos préférences en matière de repas et les informations sur les musées locaux, tout en sachant où se situe chaque étape et combien de temps il faut pour se rendre d’une activité à l’autre. »

Gemini peut consulter Google Maps pour savoir dans quel restaurant dîner ou quel musée visiter ; il utilise le moteur de recherche Google pour avoir des recommandations d’activités. Une expérience qui sera disponible pour les utilisateurs Advanced dans les mois à venir.

Avec Gems, le chatbot va avoir plusieurs personnalités

Autre fonctionnalité que Google souhaite lancer : les Gems. Il s’agira en fait de versions personnalisées de Gemini que l’on pourra créer soi-même, que ce soit « un compagnon de gym, un sous-chef, un partenaire de programmation ou un guide d’écriture créative », précise l’entreprise. La configuration semble assez simple : il suffit d’écrire ce que l’on souhaite pour créer son Gem. Les Gems s’amélioreront petit à petit au fil des instructions qu’on leur donnera. Là encore, la fonctionnalité arrivera « bientôt ».

Les services de Google arrivent progressivement dans Gemini : YouTube Music est le dernier arrivé

Depuis quelques mois sur Gemini, il y a les « extensions » : il s’agit de services de Google que l’on peut connecter au chatbot. Pour le moment, il y a Google Flights, Google Hotels, Google Maps, Google Workspace (Drive, Docs, Sheets, etc.) ainsi que YouTube. Google a annoncé lors de sa Google I/O déployer YouTube Music dans son chatbot. De quoi chercher une musique dont on ne connaît pas le titre en mentionnant l’artiste ou un morceau du couplet.

Google précise que bientôt, Google Agenda, Google Tasks et Google Keep arriveront dans Gemini en tant qu’extensions. L’entreprise a déjà des cas d’usages intéressants : « vous pourrez ainsi prendre une photo du programme scolaire de votre enfant et demander à Gemini de créer une entrée de calendrier pour chaque devoir, ou prendre une photo d’une nouvelle recette et l’ajouter à votre agenda sous forme de liste de courses. » Parmi les autres fonctionnalités auxquelles on s’attend, il y a la « mémoire » de Gemini : une fonction pour indiquer au chatbot ce dont on veut qu’il se souvienne. Pour le moment, cela n’a pas été officialisé par Google.