8 ans, 100 dollars, et plus rapide qu’une RTX 3060 pour faire tourner un LLM en local

100 dollars, gros bricolage

 
Une carte serveur Nvidia de 2017, payée 100 dollars sur eBay, qui sort plus de tokens par seconde qu’une RTX 3060 sur des modèles d’IA en local. L’expérience d’un YouTubeur rappelle que le matériel enterprise d’occasion reste un angle mort du marché.

La scène vient de la chaîne YouTube Hardware Haven, relayée par Tom’s Hardware et VideoCardz. L’idée : prendre une Nvidia Tesla V100 SXM2 16 Go, vieille de huit ans, conçue pour les racks de centres de données, et la glisser dans un PC standard.

Pour environ 200 dollars au total (la carte plus un adaptateur SXM2 vers PCIe, un ventilateur Noctua 80 mm et un carénage imprimé en 3D), le montage tourne.

À sa sortie en 2017, cette même carte se négociait au-delà de 10 000 dollars. Elle embarque 5120 cœurs CUDA et 640 cœurs Tensor, première génération de ces unités dédiées au calcul d’IA chez Nvidia, sans la moindre sortie vidéo : c’est un accélérateur de calcul, pas une carte graphique.

Plus efficace qu’une RTX 3060, mais pas pour longtemps

Les chiffres piquent face aux cartes récentes. Sur le modèle gpt-oss-20b via Ollama, du LLM en local, la V100 atteint environ 130 tokens par seconde, contre 90 pour une RX 7800 XT 16 Go. Le LLM Gemma 4 de Google s’y prête évidemment très bien aussi.

Plus parlant : bridées toutes les deux à 100 W côté GPU, la V100 sort 95 tokens/s quand la RTX 3060 12 Go plafonne à 68, selon Tom’s Hardware.

Soit 0,55 contre 0,39 token par watt, en faveur de la vieille. Au repos, elle pompe quand même 45 W contre 35 pour la 3060, pas neutre pour une machine qui tourne 24/7.

Pour aller plus loin
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous

À ce prix, la V100 reste un terrain de jeu remarquable pour qui veut faire tourner un LLM chez soi, à condition d’accepter que Nvidia a déjà gelé la prise en charge CUDA de Volta avec la version 12.8 du toolkit et que la prochaine mise à jour majeure ne compilera plus pour cette architecture. Bref, il faut savoir ce que l’on fait, mais l’expérience reste intéressante.


Chaque matin, WhatsApp s’anime avec les dernières nouvelles tech. Rejoignez notre canal Frandroid pour ne rien manquer !

Recherche IA boostée par
Perplexity