Google explique comment il a réussi à différencier des intervenants dans une discussion en isolant les pistes audio et dans la retranscription écrite. Des fonctions disponibles sur certains smartphones Pixel dans l’application Pixel Recorder.
L’application Pixel Recorder de Google est bluffante
La Pixel Experience est complète. Et même lorsqu’on pense en avoir fait le tour, il reste des petites fonctions très utiles et surtout exclusives aux smartphones de Google. Il y a quelques jours, les Pixel 6, Pixel 6 Pro, Pixel 6a, Pixel 7 et Pixel 7 Pro ont reçu une mise à jour de leur système. Elle améliore l’application d’enregistrement audio Pixel Recorder.
Cette dernière arrive à identifier et à étiqueter chaque intervenant dans les enregistrements audio et dans la retranscription écrite (en sautant des lignes). Cela fonctionne par apprentissage automatique et l’on peut évidemment retoucher les textes par la suite, mais aussi attribuer des noms à ces étiquettes.
Comment Google arrive à identifier plusieurs intervenants dans une conversation
Dans un billet de blog, les ingénieurs de Google expliquent comment cette fonctionnalité arrive à transcrire de l’audio en différenciant les personnes qui parlent. Le principal responsable de cette transcription intelligente, c’est le nouveau système d’étiquetage des locuteurs développé par Google, nommé Turn-to-Diarize, présenté pour la première fois cette année.
Ce système doit composer avec les performances limitées d’un appareil mobile : il « s’appuie sur plusieurs modèles et algorithmes d’apprentissage automatique hautement optimisés » pour fonctionner en temps réel. Il est composé de trois éléments :
- Un modèle de détection de changement de locuteur ;
- Un modèle d’encodage du locuteur qui extrait les caractéristiques vocales de chaque prise de parole de locuteur ;
- Un algorithme de regroupement multi-étapes qui annote les étiquettes de locuteur à chaque prise de parole.
Plus l’enregistrement audio est long, plus l’apprentissage automatique est fiable, car il acquiert des données au fur et à mesure. On peut alors sans problème enregistrer plusieurs heures (jusqu’à 18 heures), c’est même mieux. D’ailleurs, ce système d’étiquetage peut parfois corriger les étiquettes de locuteur qu’il a données plus tôt dans l’enregistrement, s’il se rend compte qu’il s’est trompé.
Pour le moment, Turn-to-Diarize fonctionne sur la partie CPU des puces Tensor de Google, mais ses ingénieurs espèrent déléguer davantage les calculs au bloc TPU, dédié aux usages de l’intelligence artificielle et qui compose en partie le moteur neuronal des puces. Cela permettrait de gagner en efficacité énergétique.
Rejoignez-nous de 17 à 19h, un jeudi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix