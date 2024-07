Le PDG d'OpenAI a annoncé que le déploiement du Voice Mode de ChatGPT, sa nouvelle version vocale, arriverait chez les utilisateurs abonnés dès la semaine prochaine. Une version très attendue après les démonstrations de l'entreprise en mai dernier.

En mai dernier, nous écrivions : Bienvenue dans le film « Her ». Et pour cause : OpenAI venait de faire la démonstration de GPT-4o, la nouvelle version de son LLM. Mais ce qui avait encore plus impressionné, c’est sa version vocale, très rapide, permettant d’entretenir des discussions fluides. Si quelques chanceux avaient eu la chance de tester cette IA après une bourde d’OpenAI, l’entreprise avait reporté l’arrivée de ce mode. Mais dans quelques jours, davantage d’utilisateurs vont pouvoir discuter avec ce nouveau ChatGPT.

Le mode vocal de ChatGPT arrive la semaine prochaine

C’est sur X que le PDG d’OpenAI, Sam Altman, a officialisé l’arrivée du mode vocal (Advanced Voice) de ChatGPT en début de semaine prochaine. Attention toutefois : tout le monde ne pourra pas en profiter. En effet, la fonctionnalité sera réservée uniquement aux abonnés à ChatGPT Plus.

Pour rappel, il s’agit d’une formule d’abonnement à 20 dollars par mois. Elle permet, entre autres, d’accéder plus longtemps à GPT-4o, de faire analyser ses fichiers, générer des images avec Dall-E, ou encore de créer des GPT personnalisés. On peut penser qu’à terme, OpenAI rendra gratuit l’accès au mode vocal de GPT-4o, et ce, pour tous les utilisateurs, mais ce ne sera pas pour tout de suite.

Ce qui va changer grâce aux discussions avec GPT-4o

Ce nouveau LLM est davantage gourmand en ressources, ce qui fait qu’il coûte plus cher de le faire fonctionner. L’un des grands avantages et qui va permettre à ChatGPT d’avoir plus de « naturel » (les guillemets sont importantes) dans les conversations, c’est le temps de réponse. Il est, selon OpenAI, de 320 millisecondes seulement, et comme le rappelle Neowin, c’est beaucoup moins qu’avec les précédents modèles. 2,8 secondes pour GPT-3.5 et même 5,4 secondes pour GPT-4.

Le tout avec une voix de synthèse qui paraît assez naturelle : on sait que GPT-4o est capable de simuler la respiration ou l’hésitation dans la voix. Par ailleurs, le LLM peut ajouter des bruitages dans ses réponses, notamment lorsqu’on lui demande de conter une histoire. Tout ceci fait que la sortie du mode Advanced Voice prévu pour la semaine prochaine est très attendue.