Google dévoile la révolution TurboQuant sans partager le code : un développeur seul le recrée en 7 jours grâce à l’IA

Un développeur seul, armé de l’IA Claude, a réussi à implémenter la méthode révolutionnaire de Google pour mettre fin à la crise de la RAM. La conséquence : il est désormais possible de faire tourner des modèles d’IA ultra puissants sur un simple ordinateur personnel comme un MacBook Air.

L’histoire commence par une publication scientifique presque passée inaperçue auprès du grand public, mais qui a fait trembler les marchés financiers. Google a présenté fin mars 2026 lors de la conférence ICLR un nouvel algorithme nommé TurboQuant. L’objectif : réduire les besoins en RAM des intelligences artificielles gourmandes et potentiellement mettre fin à la crise de la RAM qui touche le grand public.

L’entreprise a publié les mathématiques derrière cette avancée, mais a fait un choix singulier : ne partager aucune ligne de code exploitable.

C’est ici qu’intervient Tom Turney, un développeur indépendant qui, armé de son terminal et de l’assistant IA Claude, a décidé de recréer cette technologie depuis zéro comme on peut le lire sur Medium. En seulement 7 jours, le développeur a réussi à recréer et même améliorer l’algorithme secret de Google. Le projet : TurboQuant+ sur GitHub.

Le problème de la mémoire des intelligences artificielles

Pour comprendre l’exploit, il faut d’abord s’attarder sur la manière dont fonctionnent les modèles de langage actuels. Quand vous discutez avec une intelligence artificielle, celle-ci ne se contente pas de lire votre dernière phrase. Elle doit conserver l’historique complet de la conversation pour rester cohérente. Ces données sont stockées dans ce que l’on appelle le cache KV, pour « Key-Value ».

Le problème de ce cache, c’est qu’il grossit de manière linéaire à chaque nouveau mot généré. Sur une longue conversation, cette mémoire temporaire finit par consommer plus d’espace que le modèle d’intelligence artificielle lui-même.

Pour aller plus loin
Votre ordinateur ou smartphone peut-il faire tourner une IA ? Ce site vous donne la réponse en un clic

C’est la raison principale pour laquelle il est si difficile de faire tourner des modèles performants sur un ordinateur personnel. L’algorithme de Google apporte une réponse mathématique à ce blocage. Si vous souhaitez approfondir la mécanique de base, nous avons déjà détaillé comment cette solution permet de réduire massivement la consommation de mémoire de nos IA.

Un sprint de sept jours pour dépasser Google

Face au document de recherche de Google, Tom Turney n’a pas attendu. En l’espace de sept jours, il a transformé des équations complexes en un programme fonctionnel.

Les trois premiers jours ont été consacrés au prototypage en langage Python afin de valider les mathématiques de base. Ensuite, il a porté ce code vers des langages plus performants pour exploiter les puces graphiques des ordinateurs Apple.

La partie la plus intéressante réside dans l’optimisation. La première version de son code était relativement lente. Selon les données partagées par le développeur, le traitement initial plafonnait à 739 tokens par seconde (l’unité de performance des modèles d’IA).

Grâce à un travail minutieux sur la gestion de la mémoire et des calculs graphiques, il a réussi à pousser cette vitesse à 2 747 tokens par seconde. Le résultat final est non seulement fonctionnel, mais il s’avère plus rapide que les méthodes de compression standards existantes.

Mais le développeur ne s’est pas arrêté là. Il a ajouté sa propre couche de recherche par-dessus l’algorithme de Google avec une fonction baptisée Sparse V. Il a remarqué que lors de longues conversations, l’intelligence artificielle n’accorde de l’importance qu’à une infime partie des mots stockés.

En décidant de ne pas traiter les données inutiles, il explique pouvoir ignorer 90 % des décompressions de valeurs. Le gain de vitesse est notable, et l’impact sur la qualité des réponses de l’IA est, selon ses propres tests, de « 0,0000 ». Une précision absolue.

La panique de Wall Street face à une équation

L’annonce de Google a eu un effet collatéral inattendu. Les marchés financiers, craignant que cette optimisation logicielle ne détruise la demande en composants matériels (dont la RAM), ont massivement vendu leurs actions.

Des entreprises comme Samsung, Micron ou NVIDIA ont vu leur cours baisser drastiquement en l’espace de 48 heures. Le PDG de Cloudflare, Matthew Prince, a d’ailleurs qualifié cette publication de « Google’s DeepSeek moment ».

Pourtant, cette réaction du marché manque de nuance. Rendre une technologie plus économe en ressources ne réduit pas nécessairement sa consommation globale, bien au contraire. C’est ce que l’on appelle le paradoxe de Jevons.

Pour aller plus loin
Cet outil intègre déjà Google TurboQuant : voici les gains attendus pour votre PC ou Mac

En diminuant le coût matériel nécessaire pour faire fonctionner ces modèles, de nouveaux usages deviennent possibles pour le grand public. L’intégration rapide de ces découvertes nous donne d’ailleurs un premier aperçu très concret de la puissance qui arrive sur nos ordinateurs personnels avec des applications déjà prêtes à télécharger, qui utilisent l’algorithme Google TurboQuant.

Ce qui s’est passé cette semaine marque un tournant. Le fossé entre la recherche théorique et son application pratique n’a jamais été aussi mince. Grâce à l’initiative d’un développeur indépendant, il est aujourd’hui possible de faire tourner un modèle d’intelligence artificielle de 35 milliards de paramètres, avec un contexte immense, sur un simple MacBook.

Le tout, sans même que l’entreprise à l’origine de l’algorithme n’ait eu besoin de publier son propre code.

Votre café et votre dose de tech vous attendent sur WhatsApp chaque matin avec Frandroid.