Comment fonctionne Google TurboQuant : la solution ultime régler la crise de la RAM ?

Google TurboQuant est un impressionnant algorithme capable de diviser par six la consommation de mémoire des modèles IA. Une solution parfaite contre la crise de la RAM ?

Google contre la crise de la RAM // Source : Frandroid

La crise de la RAM fait grimper tous les prix sur les marchés de la tech. La cause principale pointée du doigt ? La montée de l’IA et de ses besoins gourmands en ressources notamment sur la RAM. Le schéma de cette crise peut être grossièrement résumé comme suit.

L’intelligence artificielle est gourmande en mémoire vive.
Le marché de l’IA explose.
Les fabricants de RAM ont du mal à suivre la cadence et cela crée une pénurie.
Ils augmentent les prix de la RAM face à la demande.
Les prix de quasi tous les produits tech augmentent.

Google divise par six l’usage de la mémoire vive !

C’est là que Google (et plus précisément la branche Google Research) débarque avec une solution ultime qui porte le doux nom de TurboQuant. Mais c’est quoi Google TurboQuant ?

Il s’agit d’un algorithme qui promet de diviser par six les besoins en RAM des grands modèles de langage (LLM) qui servent de base à toutes les IA. C’est énorme !

Pour le dire autrement : TurboQuant peut drastiquement alléger les ressources nécessaires au bon fonctionnement des intelligences artificielles et donc, potentiellement, alléger à terme la pression folle mise sur les stocks de RAM disponibles. Google tient peut-être la solution la plus efficace pour mettre un terme à la crise de l’IA qui génère des hausses de prix à tout va.

Ce que fait TurboQuant

Pour comprendre ce que fait TurboQuant concrètement, il faut se pencher sur le fonctionnement de la mémoire de travail des IA, souvent appelée le cache KV (Key-Value). Lorsqu’un modèle génère du texte ou analyse une vidéo, il doit stocker temporairement le contexte des éléments précédents pour maintenir la cohérence de son raisonnement. Plus on lui demande d’ingérer un contexte long (un document de plusieurs centaines de pages, par exemple), plus ce cache sature rapidement l’espace disponible.

L’application Gemini sur smartphone // Source : Frandroid

Google décrit ce cache comme une « antisèche numérique » qui permet à un LLM d’être cohérent dans ses réponses et donc de donner l’impression de maîtriser le sujet abordé alors qu’il ne sait fondamentalement rien, comme le rappelle très justement ArsTechnica.

Une histoire de mathématiques

L’équipe de Google Research a décidé d’intervenir précisément sur ce cache KV. Au lieu de réduire la taille du modèle en lui-même, TurboQuant compresse ces données temporaires pour les faire tenir sur seulement 3 ou 4 bits par vecteur.

Si vous êtes arrivés jusque-là, vous vous demandez peut-être ce qu’est un vecteur pour un LLM. Pour comprendre, il faut partir d’un principe simple : les ordinateurs ne comprennent pas les mots, ils ne comprennent que les nombres. Les vecteurs sont le moyen par lequel un LLM transforme le langage humain (des mots, des concepts, des nuances) en mathématiques pour pouvoir les traiter.

Illustration officielle de TurboQuant // Source : Google

Sans trop entrer dans les détails, les vecteurs permettent à un LLM de cartographier une sorte d’espace sémantique où les mots qui ont des sens similaires sont placés proches les uns des autres. Le vecteur de « chat » sera très proche de celui de « chien » ou « félin » par exemple.

Ainsi, Google TurboQuant réduit énormément les ressources nécessaires à l’IA pour se créer cette espèce de carte mentale indispensable pour la cohérence de ses raisonnements et de ses propos.

Des IA améliorées

Cerise sur le gâteau : TurboQuant ne se contente pas de diviser l’utilisation de la mémoire par six : l’algorithme promet aussi de multiplier par huit la vitesse de calcul de l’attention du modèle. Par ailleurs, et c’est peut-être le plus impressionnant, Google affirme qu’il n’y a pas de dégradation notable de l’intelligence globale du système et qu’il n’y a pas besoin d’un réentraînement fastidieux des modèles existants.

TurboQuant s’appuie en effet sur un autre outil très ingénieux baptisé PolarQuant. Là aussi, ce sont de complexes formules mathématiques qui permettent une compression très agressive des vecteurs tout en conservant leur intégrité structurelle.

Google précise avoir rigoureusement testé son algorithme en utilisant à la fois les modèles ouverts Gemma et Mistral et les résultats sont très encourageants d’après le géant américain.

TurboQuant : que des effets positifs ?

S’il se retrouve implémenté à grande échelle, TurboQuant pourrait faire une réelle différence en rendant l’exécution des LLM moins gourmande en mémoire vive et moins chère.

Mais attention au trop-plein d’optimisme : une telle avancée technique pourrait aussi tout simplement inciter les géants de l’IA à développer des modèles encore plus complexes et toujours plus gourmands. On peut aussi se demander si la compression opérée par TurboQuant ne risque pas d’augmenter la charge processeur sur les machines et donc de susciter une hausse de la demande de ce côté-là. Ce sera à surveiller.

Il n’empêche qu’on a quand même bon espoir de voir des effets positifs sur les outils IA intégrés dans les produits grand public comme les smartphones ou les PC portables pour augmenter le nombre de tâches réalisables en local, sans passer par une connexion cloud.

Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.

Tout comprendre à la Pénurie de RAM