Llama.cpp intègre Google TurboQuant : quels gains pour votre PC ou Mac ?

 
L’IA locale a un problème de place, pas seulement de muscle. Avec TurboQuant, Google propose une solution pour faire tenir des contextes énormes dans de petites cartes graphiques.

Vous n’avez pas pu passer à côté du phénomène TurboQuant. Google a jeté un pavé dans la mare avec cette nouvelle méthode de quantification du cache KV (Key-Value), promettant de libérer nos machines des chaînes de la mémoire vive.

Pour aller plus loin
La solution radicale de Google contre la crise de la RAM est super astucieuse : voici TurboQuant

Forcément, quand on annonce des gains de performance potentiels de 8x sur des puces professionnels, le grand public commence à rêver d’un MacBook Air qui ferait tourner des modèles géants.

Si vous ne le saviez pas, on peut faire tourner des grands modèles de langage sur beaucoup de machines, un smartphone ou un PC. Vous pouvez avoir votre « ChatGPT » en local. Et cela tombe bien, TurboQuant est compatible avec llama.cpp, un des moteurs d’inférence qui un mode interactif similaire à ChatGPT.

Et l’intégration de TurboQuant dans des outils comme llama.cpp commence à nous donner une image plus claire de ce qui nous attend vraiment sur nos PC. Comme vous allez le voir, c’est une excellente nouvelle pour vos usages, mais ce n’est pas forcément le boost de vitesse que vous espériez. On est ici sur une optimisation de l’espace, pas sur une accélération magique du processeur.

TurboQuant : on compresse la mémoire, pas le temps

Le vrai goulot d’étranglement de l’IA locale, ce n’est pas seulement la puissance de calcul brute, c’est la mémoire. Plus vous demandez à un modèle de se souvenir d’une longue conversation ou d’analyser un gros document, plus son cache KV, sa mémoire de travail, gonfle. Jusqu’ici, c’était simple : soit vous aviez 24 Go de VRAM, soit vous étiez limité à des échanges courts. Et avec 8 Go de mémoire partagée entre le CPU et l’iGPU… encore plus courts. TurboQuant propose une réduction de l’usage mémoire d’au moins 6x. Sur le papier, c’est colossal.

Concrètement, cela signifie qu’un PC équipé d’une carte graphique milieu de gamme avec 8 ou 12 Go de VRAM peut désormais viser des fenêtres de contexte de 32 000 à 64 000 tokens.

Mais attention : si le modèle « tient » désormais en mémoire sans faire planter votre système, il ne répond pas forcément plus vite. Les premiers retours sur matériel grand public montrent que les gains de tokens par seconde sont très variables, voire inexistants dans certains cas.

Pourquoi ? Parce que la compression a un coût. Il faut déquantifier les données à la volée pour que le GPU puisse les traiter. De plus, le « prefill« , cette étape où le modèle lit votre loooong prompt avant de commencer à répondre, reste un exercice de calcul intensif.

TurboQuant aide à stocker le résultat de ce calcul, mais il ne supprime pas le temps nécessaire pour l’effectuer. Sur des machines puissantes comme les H100 de Nvidia, l’optimisation est telle qu’on gagne en vitesse. Sur votre GPU de gamer, on gagne surtout le droit de ne pas saturer sa mémoire dès la dixième question.

Le cas Apple Silicon : un potentiel encore bridé

Sur Mac, la situation est encore plus spécifique. Les possesseurs de MacBook avec puces M2 ou M3 espéraient beaucoup de l’optimisation Metal pour TurboQuant.

La réalité ? Les premiers tests rapportent des débits parfois 50 % plus faibles qu’en format classique (f16) selon les réglages. Ce n’est pas un échec de la technologie, mais plutôt la preuve que les implémentations logicielles sont encore très jeunes. L’optimisation pour l’architecture de mémoire unifiée d’Apple demande une précision chirurgicale que les ports actuels n’ont pas encore atteinte.

Le problème sur Mac n’est d’ailleurs pas seulement la capacité, mais la bande passante. Même si TurboQuant réduit la place prise par le cache, la machine doit toujours faire circuler des masses de données vers le processeur.

Un MacBook Air avec 16 Go de RAM devient certes plus capable sur les longs prompts, ce qui évite les blocages, mais il ne se transforme pas en station IA haut de gamme. Le vrai gain est ailleurs : il se trouve dans la stabilité. On évite les chutes de performances liées au swap (quand la machine utilise le disque dur comme mémoire de secours), ce qui rend l’expérience beaucoup plus fluide sur la durée.

Vous pouvez utiliser Atomic Chat, qui est justement un fork de llama.ccp avec TurboQuant activé. Plusieurs autres projets similaires sont disponibles. C’est le cas aussi des GPU Nvidia, avec le support Cuda, plusieurs forks existent.

Maintenant, regardons plus loin. Ce que TurboQuant apporte vraiment, c’est une démocratisation du « long contexte ». On n’est plus obligé d’investir dans un GPU à 2000 euros pour travailler sur des documents longs. Si vous cherchez la course brute au débit, vous serez déçus. Si vous cherchez à rendre votre IA locale réellement utile pour traiter un peu plus de données, c’est une petite révolution.


Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.

Recherche IA boostée par
Perplexity