La version Pro de Google Gemini voit arriver une belle amélioration

 
Lors de son Ă©vĂ©nement Google Cloud Next 2024, la sociĂ©tĂ© a officialisĂ© l’arrivĂ©e en prĂ©visualisation privĂ©e de Gemini Pro 1.5, la nouvelle version de son LLM maison. DĂ©sormais, il prend en charge l’audio : de quoi le rendre rĂ©ellement multimodal.
Logo de Gemini // Source : Google

Alors que la confĂ©rence Google I/O 2024 se rapproche Ă  grands pas, Google s’est Ă©chauffĂ© avec sa semaine Google Cloud Next, dĂ©diĂ©e Ă  Google Cloud, mais pas que. AnnĂ©e 2024 oblige, la sociĂ©tĂ© a beaucoup parlĂ© d’intelligence artificielle gĂ©nĂ©rative et de son LLM, Gemini. Sa version Pro s’est d’ailleurs bien amĂ©liorĂ©e.

Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Gemini et autres ?

Gemini Pro 1.5 est lĂ  : il apporte la prise en charge de l’audio

En mettant Ă  jour Gemini Code Assist, l’outil de Google Cloud permettant de gĂ©nĂ©rer et tester du code informatique, que Google a officialisĂ© l’arrivĂ©e de Gemini Pro 1.5, qui pour le moment n’est disponible qu’auprès de certains utilisateurs. Le changement le plus important n’est pas tant l’amĂ©lioration globale des performances, mais la prise en charge de l’audio. Le tout bien que Gemini 1.5 Pro soit meilleur que sa version 1.0 dans 87% des tests de rĂ©fĂ©rence, et qu’il soit presque au mĂŞme niveau que la première itĂ©ration de Gemini Ultra, a prĂ©cisĂ© Google.

Source : Google

Cela concerne les pistes audio dans les fichiers vidĂ©o ainsi que la parole.  Google a expliquĂ© que « les utilisateurs bĂ©nĂ©ficient ainsi d’une analyse multimodale transparente, qui leur permet d’obtenir des informations sur les textes, les images, les vidĂ©os et l’audio. Il fournit Ă©galement une transcription de haut qualitĂ© et peut ĂŞtre utilisĂ© pour rechercher du contenu audio et vidĂ©o, par exemple pour rechercher, analyser et rĂ©pondre Ă  des questions lors d’appels d’offres ou de rĂ©unions d’investisseurs. »

Pour aller plus loin
Voici comment créer un bon prompt sur Gemini, ChatGPT ou Copilot selon Google

Cette nouvelle version Pro de Gemini devrait ĂŞtre rĂ©servĂ©e dans un premier temps aux utilisateurs Workspace, mais on peut penser qu’il sera accessible rapidement aux utilisateurs du chatbot Gemini.

L’audio et Google, ça commence Ă  dater

C’est loin d’ĂŞtre la première avancĂ©e de Google en matière d’audio et d’intelligence artificielle. Depuis longtemps, les smartphones Pixel disposent d’une fonction de transcription vocale dans l’application d’enregistrement audio. Un outil qui fonctionne très bien, puisqu’il peut notamment dĂ©tecter diffĂ©rents Ă©nonciateurs.

L’application Pixel Recorder // Source : Google

Cela n’est pas sans rappeler non plus Google Duplex, un outil mort-nĂ© de Google, prĂ©sentĂ© il y a quelques annĂ©es. Pour rappel, il pouvait vous permettre d’appeler quelqu’un sans avoir Ă  parler soi-mĂŞme. On pouvait demander Ă  Google Assistant de rĂ©server un rendez-vous chez le coiffeur et l’IA s’occupait de l’appel. Le souci, c’est qu’au dĂ©ploiement, c’Ă©taient en partie des humains qui passaient ces appels.


Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.

Recherche IA boostée par
Perplexity