OpenAI a réalisé une démonstration assez bluffante de ChatGPT Voice, la fonction vocale de son chatbot. Beaucoup d'améliorations sont au programme et ce qui est sûr, c'est que Google Assistant va pouvoir trembler.

Ce lundi 13 mai, OpenAI a tenu une conférence en direct pour présenter ses nouveautés pour ChatGPT et GPT-4. Il y a eu l’arrivée de GPT-4o, mais pas que : l’entreprise a fait la démonstration des améliorations de ChatGPT Voice. Demain, Google va présenter ce qui va arriver sur Gemini, et la concurrence va être très rude entre Google Assistant et le chatbot. OpenAI a également dévoilé l’application de bureau de ChatGPT.

Un ChatGPT Voice plus rapide et surtout plus naturel

232 millisecondes : c’est le temps de réponse minimal de la nouvelle version de ChatGPT Voice. En moyenne, OpenAI l’estime à 320 millisecondes, « ce qui est similaire au temps de réponse humain dans une conversation », avance l’entreprise dans son communiqué. En fait, OpenAI a revu techniquement la manière dont la fonction vocale de son chatbot fonctionnait. Auparavant, elle utilisait trois modèles :

Un pour transformer votre voix en texte ;

Un autre pour interpréter ce que vous dites et donner une réponse : soit GPT-4, soit GPT-3.5 ;

Un autre pour convertir cette réponse textuelle en audio.

Ce système ne prenait pas en compte « le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas restituer les chants ou exprimer les émotions. » ChatGPT Voice utilise désormais GPT-4o, un nouveau modèle « de bout en bout pour le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. » OpenAI indique même ne pas connaître toutes les capacités et limites de son propre modèle.

Dans les semaines à venir, cette nouvelle version de ChatGPT Voice sera disponible pour les abonnés ChatGPT Plus en version alpha. On ignore quand est-ce que cela sera disponible pour tous les utilisateurs. Le « Voice Mode » sera également accessible depuis l’application de bureau présentée par OpenAI ce jour-ci.

Des démonstrations assez impressionnantes de ChatGPT

Ce qui a retenu l’attention, ce sont surtout les démonstrations réalisées en direct (mais en mode avion étrangement) par OpenAI et ses chercheurs. Les démonstrations se sont déroulées à peu près sans couacs. Par exemple, ChatGPT a cru qu’on lui montrait un problème de mathématiques, alors que la caméra du smartphone n’était même pas allumée. Dans les usages imaginés par l’entreprise, il y a « par exemple, vous pourriez montrer à ChatGPT un match de sport en direct et lui demander de vous en expliquer les règles. »

Aussi, l’un des chercheurs de l’entreprise a demandé au chatbot de lui donner des conseils pour éviter d’être trop stressé durant sa présentation. Le chatbot a pu l’aider et lui a conseillé un exercice de respiration : il a même pu commenter la respiration (très exagérée) du chercheur. ChatGPT peut même répondre avec une élocution plus ou moins rapide, avec une intonation particulière, et même en chantonnant. Ce que met aussi OpenAI en avant, c’est le fait que ChatGPT soit capable d’interpréter les émotions des utilisateurs, en s’appuyant sur la manière dont ils parlent. Ce qui ressemble en fait à un assistant vocal peut même être coupé lorsqu’il parle : on peut apparemment l’ interrompre sans souci et le chatbot s’est montré réactif.

Au-delà de la voix donc, ChatGPT peut interagir en direct via la caméra de son smartphone. On peut lui demander de nous aider à résoudre un problème mathématique (qui était très simple dans la démonstration, c’est étonnant qu’un chercheur ne sache pas calculer une équation à une inconnue).

L’application ChatGPT sur ordinateur peut même vous aider dans votre code informatique, sans importer ce dernier dans l’application. De quoi en faire un assistant de programmation informatique utilisable dans n’importe quel logiciel de programmation. Enfin, OpenAI a fait la démonstration d’une interprétation de graphiques (assez simples) avec l’application de bureau du chatbot. Le tout en répondant à la voix. La même chose est possible avec des bases de données ou des tableurs.

