Comment les Pixel arrivent à différencier plusieurs personnes dans un enregistrement audio

Google révèle les secrets de son application d’enregistrement audio. Plus qu’une simple application préinstallée, elle permet de faire de la transcription écrite et même de différencier les locuteurs. Une prouesse technologique intégrée dans les smartphones Pixel que Google a expliquée.

L’application d’enregistrement audio sur les Pixel // Source : Google

Google explique comment il a réussi à différencier des intervenants dans une discussion en isolant les pistes audio et dans la retranscription écrite. Des fonctions disponibles sur certains smartphones Pixel dans l’application Pixel Recorder.

L’application Pixel Recorder de Google est bluffante

La Pixel Experience est complète. Et même lorsqu’on pense en avoir fait le tour, il reste des petites fonctions très utiles et surtout exclusives aux smartphones de Google. Il y a quelques jours, les Pixel 6, Pixel 6 Pro, Pixel 6a, Pixel 7 et Pixel 7 Pro ont reçu une mise à jour de leur système. Elle améliore l’application d’enregistrement audio Pixel Recorder.

Une démonstration de la transcription écrite dans Pixel Recorder sans et avec étiquetage des locuteurs // Source : Google

Cette dernière arrive à identifier et à étiqueter chaque intervenant dans les enregistrements audio et dans la retranscription écrite (en sautant des lignes). Cela fonctionne par apprentissage automatique et l’on peut évidemment retoucher les textes par la suite, mais aussi attribuer des noms à ces étiquettes.

Comment Google arrive à identifier plusieurs intervenants dans une conversation

Dans un billet de blog, les ingénieurs de Google expliquent comment cette fonctionnalité arrive à transcrire de l’audio en différenciant les personnes qui parlent. Le principal responsable de cette transcription intelligente, c’est le nouveau système d’étiquetage des locuteurs développé par Google, nommé Turn-to-Diarize, présenté pour la première fois cette année.

Ce système doit composer avec les performances limitées d’un appareil mobile : il « s’appuie sur plusieurs modèles et algorithmes d’apprentissage automatique hautement optimisés » pour fonctionner en temps réel. Il est composé de trois éléments :

Un modèle de détection de changement de locuteur ;
Un modèle d’encodage du locuteur qui extrait les caractéristiques vocales de chaque prise de parole de locuteur ;
Un algorithme de regroupement multi-étapes qui annote les étiquettes de locuteur à chaque prise de parole.

L’application Pixel Recorder // Source : Google

Plus l’enregistrement audio est long, plus l’apprentissage automatique est fiable, car il acquiert des données au fur et à mesure. On peut alors sans problème enregistrer plusieurs heures (jusqu’à 18 heures), c’est même mieux. D’ailleurs, ce système d’étiquetage peut parfois corriger les étiquettes de locuteur qu’il a données plus tôt dans l’enregistrement, s’il se rend compte qu’il s’est trompé.

Pour le moment, Turn-to-Diarize fonctionne sur la partie CPU des puces Tensor de Google, mais ses ingénieurs espèrent déléguer davantage les calculs au bloc TPU, dédié aux usages de l’intelligence artificielle et qui compose en partie le moteur neuronal des puces. Cela permettrait de gagner en efficacité énergétique.

9 /10