Une erreur dans le texte ?

C'est le bon endroit pour nous l'indiquer !
Attention, ce formulaire ne doit servir qu'à signaler une erreur. N'hésitez pas à utiliser la page de contact pour nous contacter ou nous faire part de vos suggestions. Merci.

Etape 1

Cliquez sur les paragraphes contenant des erreurs !

Comment les Pixel arrivent à différencier plusieurs personnes dans un enregistrement audio

Google explique comment il a réussi à différencier des intervenants dans une discussion en isolant les pistes audio et dans la retranscription écrite. Des fonctions disponibles sur certains smartphones Pixel dans l'application Pixel Recorder.

L'application Pixel Recorder de Google est bluffante

La Pixel Experience est complète. Et même lorsqu'on pense en avoir fait le tour, il reste des petites fonctions très utiles et surtout exclusives aux smartphones de Google. Il y a quelques jours, les Pixel 6, Pixel 6 Pro, Pixel 6a, Pixel 7 et Pixel 7 Pro ont reçu une mise à jour de leur système. Elle améliore l'application d'enregistrement audio Pixel Recorder.

Cette dernière arrive à identifier et à étiqueter chaque intervenant dans les enregistrements audio et dans la retranscription écrite (en sautant des lignes). Cela fonctionne par apprentissage automatique et l'on peut évidemment retoucher les textes par la suite, mais aussi attribuer des noms à ces étiquettes.

Comment Google arrive à identifier plusieurs intervenants dans une conversation

Dans un billet de blog, les ingénieurs de Google expliquent comment cette fonctionnalité arrive à transcrire de l'audio en différenciant les personnes qui parlent. Le principal responsable de cette transcription intelligente, c'est le nouveau système d'étiquetage des locuteurs développé par Google, nommé Turn-to-Diarize, présenté pour la première fois cette année.

Ce système doit composer avec les performances limitées d'un appareil mobile : il « s'appuie sur plusieurs modèles et algorithmes d'apprentissage automatique hautement optimisés » pour fonctionner en temps réel. Il est composé de trois éléments :

Plus l'enregistrement audio est long, plus l'apprentissage automatique est fiable, car il acquiert des données au fur et à mesure. On peut alors sans problème enregistrer plusieurs heures (jusqu'à 18 heures), c'est même mieux. D'ailleurs, ce système d'étiquetage peut parfois corriger les étiquettes de locuteur qu'il a données plus tôt dans l'enregistrement, s'il se rend compte qu'il s'est trompé.

Pour le moment, Turn-to-Diarize fonctionne sur la partie CPU des puces Tensor de Google, mais ses ingénieurs espèrent déléguer davantage les calculs au bloc TPU, dédié aux usages de l'intelligence artificielle et qui compose en partie le moteur neuronal des puces. Cela permettrait de gagner en efficacité énergétique.