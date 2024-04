Lors de son événement Google Cloud Next 2024, la société a officialisé l'arrivée en prévisualisation privée de Gemini Pro 1.5, la nouvelle version de son LLM maison. Désormais, il prend en charge l'audio : de quoi le rendre réellement multimodal.

Alors que la confĂ©rence Google I/O 2024 se rapproche Ă grands pas, Google s’est Ă©chauffĂ© avec sa semaine Google Cloud Next, dĂ©diĂ©e Ă Google Cloud, mais pas que. AnnĂ©e 2024 oblige, la sociĂ©tĂ© a beaucoup parlĂ© d’intelligence artificielle gĂ©nĂ©rative et de son LLM, Gemini. Sa version Pro s’est d’ailleurs bien amĂ©liorĂ©e.

Gemini Pro 1.5 est lĂ : il apporte la prise en charge de l’audio

En mettant Ă jour Gemini Code Assist, l’outil de Google Cloud permettant de gĂ©nĂ©rer et tester du code informatique, que Google a officialisĂ© l’arrivĂ©e de Gemini Pro 1.5, qui pour le moment n’est disponible qu’auprès de certains utilisateurs. Le changement le plus important n’est pas tant l’amĂ©lioration globale des performances, mais la prise en charge de l’audio. Le tout bien que Gemini 1.5 Pro soit meilleur que sa version 1.0 dans 87% des tests de rĂ©fĂ©rence, et qu’il soit presque au mĂŞme niveau que la première itĂ©ration de Gemini Ultra, a prĂ©cisĂ© Google.

Cela concerne les pistes audio dans les fichiers vidĂ©o ainsi que la parole. Google a expliquĂ© que « les utilisateurs bĂ©nĂ©ficient ainsi d’une analyse multimodale transparente, qui leur permet d’obtenir des informations sur les textes, les images, les vidĂ©os et l’audio. Il fournit Ă©galement une transcription de haut qualitĂ© et peut ĂŞtre utilisĂ© pour rechercher du contenu audio et vidĂ©o, par exemple pour rechercher, analyser et rĂ©pondre Ă des questions lors d’appels d’offres ou de rĂ©unions d’investisseurs. »

Cette nouvelle version Pro de Gemini devrait ĂŞtre rĂ©servĂ©e dans un premier temps aux utilisateurs Workspace, mais on peut penser qu’il sera accessible rapidement aux utilisateurs du chatbot Gemini.

L’audio et Google, ça commence Ă dater

C’est loin d’ĂŞtre la première avancĂ©e de Google en matière d’audio et d’intelligence artificielle. Depuis longtemps, les smartphones Pixel disposent d’une fonction de transcription vocale dans l’application d’enregistrement audio. Un outil qui fonctionne très bien, puisqu’il peut notamment dĂ©tecter diffĂ©rents Ă©nonciateurs.

Cela n’est pas sans rappeler non plus Google Duplex, un outil mort-nĂ© de Google, prĂ©sentĂ© il y a quelques annĂ©es. Pour rappel, il pouvait vous permettre d’appeler quelqu’un sans avoir Ă parler soi-mĂŞme. On pouvait demander Ă Google Assistant de rĂ©server un rendez-vous chez le coiffeur et l’IA s’occupait de l’appel. Le souci, c’est qu’au dĂ©ploiement, c’Ă©taient en partie des humains qui passaient ces appels.