Oubliez tout ce que vous pensiez savoir sur les assistants vocaux. Moshi, la nouvelle IA de Kyutai, vient de changer les règles du jeu. Plus rapide que ChatGPT, plus naturelle que Siri, cet assistant vocal français pourrait bien révolutionner notre façon d’interagir avec l’intelligence artificielle. La conférence au lieu aujourd’hui, ce 3 juillet, et vous pouvez la revoir en ligne.
Une IA qui parle plus vite que son ombre
Le chiffre est impressionnant : 160 millisecondes. C’est le temps de latence annoncé pour Moshi, un record dans l’industrie. Pour vous donner une idée, c’est plus rapide que le temps qu’il vous faut pour cligner des yeux. Cette réactivité fulgurante permet des conversations d’une fluidité inédite, comme si vous parliez à un véritable être humain.
Mais la rapidité n’est pas le seul atout de Moshi. Contrairement aux autres assistants vocaux qui convertissent la voix en texte avant de répondre, Moshi traite directement le son. Résultat ? Il peut reconnaître et imiter jusqu’à 70 émotions différentes. C’est une IA qui est capable de chuchoter, de blaguer, ou même d’adopter l’accent de votre choix. L’équipe s’est également attaquée au défi de la latence, réussissant à la réduire à seulement 200 millisecondes. C’est un temps de réponse qui se rapproche remarquablement de celui d’une conversation entre humains, rendant les échanges avec Moshi étonnamment naturels. C’est la promesse de Moshi.
Enfin, Kyutai a optimisé le code et réduit la taille des modèles, permettant à Moshi de fonctionner localement sur des appareils comme un MacBook Pro. Cette prouesse technique ouvre la voie à une utilisation plus large et plus privée de l’assistant vocal, sans dépendance constante à une connexion internet.
L’Europe dans la course à l’IA
Derrière Moshi se cache Kyutai, un laboratoire co-fondé par Xavier Niel avec un objectif ambitieux : empêcher la fuite des cerveaux européens vers les États-Unis ou la Chine. En seulement six mois, une équipe de huit chercheurs a réussi à développer cette IA révolutionnaire. C’est un véritable tour de force qui montre que l’Europe a toutes les cartes en main pour rivaliser avec les géants de la Silicon Valley.
Pour aller plus loin
Comment Xavier Niel veut faire face à Google, OpenAI et Adobe
Mais Kyutai va plus loin que la simple compétition technologique. En choisissant une approche open source, le laboratoire veut démocratiser l’accès à l’IA de pointe. Malgré ses prouesses, Moshi n’est pas sans défauts. Pour l’instant, l’assistant ne parle qu’anglais, un choix stratégique pour toucher un public plus large rapidement. De plus, son modèle de langage Helium, avec ses 7 milliards de paramètres, reste modeste comparé aux mastodontes comme GPT-4. Ce dernier comporte 175 milliards de paramètres.
Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Google Bard et autres ?
La question de la vie privée se pose également. Moshi a été entraîné sur des enregistrements d’appels téléphoniques datant des années 90. Même si ces données sont anciennes, on peut s’interroger sur les implications éthiques d’une telle pratique.
En tout cas, Moshi frappe fort dans un domaine qui fait parler de lui en ce moment : celui de la voix. L’assistant vocal pourrait vraiment comprendre le ton de votre voix, réagir à votre humeur, et vous répondre de manière parfaitement naturelle. Le lancement de Moshi est un signal fort pour l’industrie de l’IA en Europe. Il montre qu’avec les bons investissements et une vision claire, le Vieux Continent peut non seulement rattraper son retard, mais aussi innover de manière significative.
Cependant, le vrai test pour Moshi et Kyutai commence maintenant. L’assistant sera bientôt disponible en version prototype pour le grand public sur le site officiel. On a hâte de tester ses capacités.
Notre émission Twitch SURVOLTÉS, c’est un mercredi sur deux de 17h à 19h : retrouvez-vous nous pour parler voiture électrique ou vélo électrique, autour de débats, d’interviews, d’analyses et de jeux !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix