Test du Nvidia DGX Spark (Dell) : le mini PC IA à 128 Go de RAM

Le mini-monstre qui cloue le cloud

Avec son DGX Spark, Nvidia propose un mini supercalculateur dédié au deep learning local. Dans un boîtier à peine plus gros qu'un Mac Mini, 128 Go de mémoire unifiée et une puce maison capable de faire tourner des modèles d'IA jusque-là réservés aux datacenters. On l'a testé dans sa version Dell Pro Max.
Dell Pro Max avec GB10
 

En octobre dernier débarque au catalogue du géant vert une bien curieuse machine. Dans un tout petit boîtier guère plus gros qu’un Mac mini se cache une quantité pharaonique de mémoire et ce que son concepteur appelle un Superchip.

Pour aller plus loin
C’est quoi cette mystérieuse carte mère Nvidia ? On vous explique

Destinée aux professionnels du deep learning et au monde de la création assistée par IA, cette machine préfigure surtout une révolution dans l’usage de l’informatique grand public.

Le moins que l’on puisse dire, c’est que les DGX Spark ne passent pas inaperçus // Source : Nvidia

S’il reste encore un peu confidentiel, il existe désormais un marché pour les ordinateurs ultra-compacts bourrés de mémoire vive et équipés d’une puce capable de s’attaquer à l’accélération d’applications locales d’intelligence artificielle. Apple propose ce concept depuis 2022 avec ses Mac Studio, des stations de travail miniatures et musclées destinées aux créateurs.

Sur le marché du PC, AMD a lancé une contre-attaque avec sa gamme d’APU Ryzen AI Max, désormais intégrée dans des PC portables professionnels et des mini-ordinateurs qui reprennent peu ou prou la formule du Mac Studio.

Il était donc logique que le leader des processeurs dédiés à l’apprentissage profond décide à son tour de proposer sa version du concept. Annoncée en janvier 2025 sous le nom de projet DIGITS, la machine débarque finalement au dernier trimestre de la même année sous la forme du DGX Spark.

GB10 Superchip : un petit monstre sous le capot

Au cœur de cette machine quelque peu hors norme, on retrouve le GB10, un system on chip que la firme de Santa Clara n’hésite pas à qualifier de Superchip.

Et pour cause : avec ses dix cœurs haute performance ARM Cortex X925, ses dix cœurs basse consommation Cortex A725 et une partie GPU embarquant quarante-huit Stream Multiprocessors à l’instar du GB205 qui équipe la RTX 5070, le GB10 est un véritable petit monstre. Sans atteindre les TDP gargantuesques des B200 qui équipent les DGX SuperPod destinés aux datacenters d’IA, la puce dissipe malgré tout 140 W en charge. Une valeur supérieure à celle du M5 Max d’Apple, équivalente à celle d’une carte graphique de jeu d’entrée de gamme, et qui montre la volonté de Nvidia d’embarquer le maximum de puissance possible dans un facteur de forme compact.

Le GB10 Superchip est un vrai petit monstre // Source : Nvidia

Mais en deep learning, le nerf de la guerre, c’est la mémoire vive. Le DGX Spark est donc équipé d’une quantité très généreuse de RAM de 128 Go de LPDDR5X, interfacée via un large bus 256 bits avec le SoC de la machine.

Tout l’intérêt du Spark réside dans son espace mémoire unifié, adressable dans sa totalité tant par le CPU que par la partie GPU de la puce : il s’affranchit ainsi des limites imposées par les cartes graphiques grand public. Si ces dernières peuvent être suffisamment performantes en inférence pour un particulier ou un créateur, elles souffrent de la modeste quantité de VRAM qu’elles embarquent, ce qui empêche purement et simplement d’utiliser les réseaux neuronaux gourmands en mémoire ou de paralléliser l’usage de plusieurs petits modèles.

Cette générosité a toutefois une contrepartie : interfacée sur un bus 256 bits, la LPDDR5X du Spark plafonne à 273 Go/s de bande passante. Très loin des ~800 Go/s qu’Apple sert sur les variantes Ultra de ses puces M-series depuis 2022, et des 1,8 To/s de la GDDR7 d’une RTX 5090. C’est précisément cette limite qui plombera plus tard les performances en inférence de gros LLM.

Aussi monstrueuse soit-elle, la RTX 5090 est limitée en deep learning par ses 32 Go de VRAM // Source : Nvidia

Dell Pro Max : la version sobre du Spark

La machine que nous avons en test aujourd’hui nous vient de chez Dell. S’il ne s’agit pas du modèle présenté par Nvidia en octobre dernier, elle en reprend la totalité de la recette : la carte mère très compacte embarquant le GB10 tient dans un boîtier de quinze centimètres de côté pour cinq centimètres de haut.

Ce volume est par ailleurs presque exclusivement dédié au système de refroidissement, un large radiateur surmonté de deux ventilateurs à flux radial (les blowers) qui, bonne nouvelle, peinent à se faire réellement entendre même en pleine charge.

Difficile de faire plus discret que ce Dell Pro Max // Source : Dell

Esthétiquement moins extravagante que celle proposée par Nvidia, la plastique de ce Dell Pro Max fait dans le minimalisme avec les codes familiers de l’assembleur : du noir, du gris foncé et une façade en nid d’abeille.

La machine se fait facilement oublier sur un coin de bureau, par sa taille et son silence // Source : photo Frandroid

Dell a équipé notre modèle d’un SSD NVMe de 4 To, un stockage généreux qui se remplit malgré tout assez vite lorsque l’on doit jongler avec une grande quantité de modèles neuronaux. L’intérêt du DGX Spark étant justement de pouvoir charger des modèles occupant plus de 100 Go de mémoire, on a vite fait d’épuiser l’espace disque.

Fiche technique du Dell Pro Max avec GB10

DétailsCaractéristiques
PuceNvidia GB10 Superchip (architecture Grace Blackwell)
CPU20 cœurs ARMv9.2 — 10× Cortex-X925 + 10× Cortex-A725
GPUBlackwell, 6 144 cœurs CUDA (équivalent RTX 5070)
Performance IA1 000 TFLOPS FP4 (1 pétaFLOP en sparse)
Mémoire128 Go LPDDR5X unifiée, bus 256 bits, 273 Go/s de bande passante
StockageSSD M.2 NVMe — 1 To, 2 To ou 4 To selon configuration (SED Ready)
SystèmeNvidia DGX OS 7 (basé sur Ubuntu Linux)
Connectique4× USB-C Gen 2×2 (dont 1 dédié à l’alimentation, 3 avec DisplayPort Alt mode), 1× HDMI 2.1b, 1× RJ-45 10 GbE, ConnectX-7 Smart NIC avec 2× QSFP 200 Gbps
Sans-filWi-Fi 7 (puce MediaTek MTK7925), Bluetooth
SécuritéTPM 2.0
ChâssisDell L6, façade en nid d’abeille gris anthracite
Dimensions150 × 150 × 51 mm
Poids1,31 kg
Modèles d’IA supportésJusqu’à 200 milliards de paramètres en local (400 milliards en cluster de deux machines via QSFP)

Du côté des connectiques, aucune surprise : elles sont les mêmes pour toutes les variantes du Spark embarquant cette carte mère.

La connectique du Dell Pro Max, identique à celle du DGX Spark Founder’s Edition // Source : Dell

Quatre ports USB-C dont un dédié à l’alimentation, un port HDMI, un port RJ45 10 Gbps et, bien sûr, deux ports QSFP 200 Gbps permettant de connecter plusieurs machines entre elles (à partir de trois, un switch sera nécessaire) pour mutualiser leurs espaces mémoire et charger des modèles d’IA encore plus lourds. Enfin, notons la présence d’une carte Wi-Fi équipée d’une puce MediaTek MT7925 compatible Wi-Fi 7, mais limitée à un canal d’une largeur de 160 MHz.

DGX OS : du Linux qui se fait oublier

La prise en main du Spark est rapide et les habitués des systèmes Linux retrouveront vite leurs repères avec DGX OS, qui n’est qu’une Ubuntu rhabillée par Nvidia. L’application Nvidia Sync permet un accès rapide au tableau de bord et au terminal de la machine depuis un poste de travail.

S’il est bien entendu possible de relier la station à un écran et à un ensemble clavier/souris, ce n’est vraiment pas nécessaire : le petit supercalculateur est conçu pour se faire oublier dans un coin de bureau et être géré depuis son PC, que ce soit via un terminal SSH ou via l’application dédiée (disponible pour Windows, Mac et Ubuntu).

Le dashboard du DGX Spark accessible via navigateur permet de visualiser et gérer l’état du système // Source : capture Frandroid

L’installation est on ne peut plus aisée : au premier démarrage, la station diffuse un réseau Wi-Fi sur lequel l’utilisateur peut se connecter pour lancer la configuration initiale, les mises à jour et la création des profils.

On peut aussi le faire au clavier et à la souris, mais il est globalement inutile de s’encombrer de périphériques sur cette machine qui n’en aura que rarement besoin, pour peu que l’on soit un minimum familier d’un terminal Linux.

À quoi sert vraiment cette machine ?

Vient la question que beaucoup vont avoir sur les lèvres : qu’est-ce qu’on fait de cette machine ? Eh bien beaucoup de choses.

Sa philosophie première est de permettre aux développeurs spécialisés dans l’apprentissage profond de concevoir et qualifier en toute liberté leurs applications d’IA, sans avoir à disposer de la puissance d’un datacenter ni à dépendre de services en ligne, qui vont de la location de calcul GPU à la mise à disposition de plateformes d’IA complètes. La machine s’intègre au passage parfaitement dans un environnement articulé autour de l’écosystème Nvidia, où elle peut être vue comme un composant additionnel permettant de prototyper rapidement avant de déployer en production sur des SuperPod.

Mais que l’on se rassure, l’usage de cette machine ne s’arrête pas là. Avec 128 Go de mémoire vive, il devient possible de manipuler des réseaux de neurones suffisamment gros et performants pour envisager de se passer des services cloud proposés aux créateurs et aux particuliers par les géants de la tech comme OpenAI, xAI, Microsoft ou encore Anthropic, pour ne citer qu’eux. Globalement, tout ce qu’on peut faire en ligne à l’aide de plateformes payantes est reproductible en local sur le DGX Spark. Chatbots, génération et retouche d’images, création vidéo, agents autonomes, ordonnancement de flux de travail, les usages ne manquent pas.

Et l’on touche ici à la plus grande force du concept : être entièrement autonome et libre d’utiliser comme on l’entend les services d’IA que l’on a soi-même déployés.

Dans un monde où la souveraineté numérique et la confidentialité des données sont devenues un enjeu majeur, tant pour les États que pour les citoyens, disposer d’une machine permettant de profiter de la puissance de l’IA sans sacrifier ses données et sa vie privée est un luxe difficilement estimable. Les services hébergés localement nous mettent aussi à l’abri des mauvaises surprises, comme les modifications d’abonnements ou la suppression pure et simple de certaines fonctionnalités par les grandes plateformes.

Un chatbot maison, sans dépendre d’OpenAI

La première chose qu’on a envie de tester sur cette machine, c’est un agent conversationnel : les chatbots sont les porte-étendards des applications d’IA les plus connues du grand public.

Nvidia met à disposition des néophytes toute la documentation nécessaire pour procéder à l’installation, mais les plus aguerris pourront passer par les dépôts Git, les containers Docker libres ou ceux issus du catalogue de microservices mis à disposition par Nvidia (les NIM).

Avec un compte développeur gratuit, on accède à une bonne partie du catalogue de microservices d’IA de la firme // Source : capture Frandroid

Bon point, le système d’exploitation customisé par le constructeur embarque tous les pilotes et les librairies CUDA nécessaires au déploiement rapide d’applications accélérées par le GPU. Pas besoin de passer des heures à chercher les bonnes dépendances et à configurer les chemins des librairies. Descendre les images Docker Ollama et OpenWebUI accélérées CUDA n’est qu’une formalité, et en quelques minutes on dispose d’un chatbot fonctionnel prêt à répondre à nos requêtes.

Si l’installation d’une telle application n’a plus rien de vraiment sorcier sur une machine équipée d’un processeur graphique récent, la force du DGX Spark vient du fait que l’on peut enfin s’attaquer au chargement de gros modèles dont la pertinence n’a plus grand-chose à voir avec celle des petits réseaux qui tiennent dans la mémoire d’une carte graphique grand public. Qwen3.5-122B-A10B, un large modèle multimodal, nous paraît être le candidat idéal pour ce test : malgré ses 85 Go d’occupation mémoire, son architecture mixture of experts à dix milliards de paramètres activés par token devrait permettre au GB10 de travailler suffisamment vite pour un usage personnel.

Vous avez peut-être déjà testé Ollama sur votre PC de jeu, mais avec un modèle à plus d’une centaine de milliards de paramètres, on rentre dans la cour des grands // Source : capture Frandroid

On met donc notre agent au travail avec le développement d’un petit projet : une application qui résume automatiquement les vidéos d’une chaîne YouTube pour les poster sur le canal d’une communauté Discord. Qwen3.5 établit rapidement une architecture à la fois simple et solide capable de répondre à notre besoin, et produit les scripts Python associés.

Nous aurions pu pousser l’intégration jusqu’à laisser le LLM exécuter et vérifier lui-même son code grâce à un agent comme OpenHands ou Hermes, mais nous n’en avons même pas ressenti le besoin.

L’architecture définie à l’aide de notre modèle local // Source : capture Frandroid

La vitesse d’inférence modeste du GB10 sur un modèle de cette taille, couplée à la longueur de la conversation qui dépasse rapidement les soixante-cinq mille tokens, font que les réponses de notre chatbot prennent parfois jusqu’à trois minutes — de l’évaluation du prompt à la sortie finale, en passant par la phase de réflexion.

L’orchestration du workflow dans n8n, entièrement hébergée sur le Spark // Source : capture Frandroid

Néanmoins, notre projet prend vie en une après-midi : notre bot, propulsé par Ollama et Scriberr et orchestré par n8n, est fonctionnel et ne manque plus aucune vidéo de notre chaîne préférée.

Le bot en action sur un canal Discord // Source : capture Frandroid

S’il n’est pas nécessaire d’investir dans une machine à plus de six mille euros pour réaliser ce genre d’application, on rappelle qu’ici tout est fait en local, sans une ligne de code s’aventurant hors de notre réseau et surtout sans dépendre d’une limite d’utilisation ou de fonctionnalités fixées par une plateforme cloud. On utilise la machine comme on le souhaite, et c’est ce qui fait sa force.

Génération d’images locale avec Krita et ComfyUI

De nombreuses applications open source permettant de se passer d’écosystèmes payants et propriétaires commencent désormais à intégrer des fonctionnalités d’IA locale.

Pour aller plus loin
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous

C’est par exemple le cas de Krita, une alternative gratuite au célèbre Photoshop d’Adobe, qui dispose d’un plug-in permettant de connecter le logiciel à un serveur ComfyUI, une application très connue dans le monde de l’IA libre, qui permet d’utiliser de très nombreux modèles d’IA générative. Nous installons ComfyUI depuis la page GitHub du projet et nous configurons le plug-in Krita pour attaquer notre instance locale.

ComfyUI est un outil un peu austère mais très performant, et peut être utilisé par d’autres applications // Source : capture Frandroid

L’énorme quantité de mémoire offerte par le Spark permet de s’attaquer directement à Qwen-Image, l’un des générateurs d’images les plus performants disponibles en open weight.

Krita est désormais connecté à l’instance hébergée sur le Spark // Source : capture Frandroid

On peut désormais générer, éditer et améliorer à notre guise des assets graphiques grâce à la puissance de l’IA, sans dépendre des quotas d’utilisation d’un service externe et, surtout, sans qu’un seul pixel ne parte chez un tiers.

On peut maintenant dessiner, éditer et augmenter nos artworks grâce à l’IA locale // Source : capture Frandroid

Fine-tuning : entraîner ses propres modèles à la maison

Le DGX Spark n’est cependant pas destiné uniquement à l’inférence : il est avant tout taillé pour l’entraînement de modèles difficiles, voire impossibles, à charger dans la mémoire d’une carte graphique, aussi haut de gamme soit-elle.

Le fine-tuning fait partie des usages multiples de cette machine et, à l’aide d’outils comme Llama-Factory ou AI-Toolkit, il est facile d’entraîner un réseau neuronal sur un jeu de données spécifique. Nous avons utilisé le petit dataset fourni par Nvidia pour entraîner Flux.1 Dev à reproduire fidèlement une version « jouet » du big boss de la firme.

L’entraînement d’un LoRA pour Flux.1 Dev via AI-Toolkit // Source : capture Frandroid

L’entraînement d’un Low Rank Adapter, un fichier agissant comme une sorte de couche additionnelle pour le modèle de base, prend environ trois heures sur le DGX Spark pour obtenir un résultat convaincant. Une GeForce RTX disposant d’au moins 24 Go de VRAM aurait pu terminer ce travail sensiblement plus vite, mais au prix d’une consommation électrique supérieure et de temps passé à régler l’outil pour faire tenir le modèle en mémoire.

Après entraînement, Jensen est désormais très reconnaissable // Source : capture Frandroid

Avec le Spark, on ne se soucie plus de ces problématiques : on lance l’entraînement et on récupère un LoRA pouvant être réutilisé avec des modèles quantifiés que l’on peut inférer sur un GPU grand public.

Poussons le concept plus loin, avec un modèle 3D généré à partir de notre image // Source : capture Frandroid

Pour les développeurs et les créateurs, disposer d’une telle possibilité est un vrai luxe.

Et si vous avez une imprimante 3D sous la main, vous n’avez pas fini de vous amuser… // Source : photo Frandroid

Performances : ne pas se tromper de cible

S’il y a une chose que le DGX Spark n’est pas, c’est un serveur d’inférence. Certains pourraient le voir comme une solution d’entreprise économique pour servir des modèles à leurs clients, mais si le GB10 est réellement impressionnant pour un SoC dédié à l’IA, ses performances restent somme toute modestes.

Hors de question de servir un LLM énorme à plusieurs utilisateurs en simultané. L’inférence de Qwen3.5-122B-A10B, malgré son architecture mixture of experts n’activant que dix milliards de paramètres par token, peine à dépasser les 20 tokens/s. C’est aussi la vitesse que l’on aura avec Qwen3.5-14B qui, lui, peut en revanche tenir dans la mémoire vidéo d’un GPU grand public, plus rapide, à condition d’utiliser une version quantifiée.

On le répète, la force du GB10, c’est surtout l’accès à 128 Go de VRAM // Source : benchmarks Frandroid

Les performances en inférence d’un LLM sont fortement conditionnées par la bande passante mémoire offerte par la LPDDR5X du Spark, qui ne peut réellement lutter avec celle de la GDDR7 des dernières GeForce Blackwell. Dans cet exercice, une GeForce RTX 5060 Ti 16 Go, référence la plus intéressante pour un néophyte qui aimerait s’initier à l’IA locale avec de petits réseaux sans dépenser une fortune, est presque deux fois plus rapide.

Le GB10 est en revanche plus à l’aise avec les modèles de diffusion comme Flux.1 Dev FP8, où ses performances en inférence dépassent assez nettement celles de la RTX 5060 Ti et se rapprochent de ce que peut encore proposer une RTX 3090, l’ancien très haut de gamme Ampère, significativement plus bruyant et énergivore.

Dans l’ensemble, les performances du GB10 sont suffisantes pour prototyper un projet ou créer du contenu, mais il faut bien garder à l’esprit que cette machine n’a pas vocation à être intégrée dans un environnement de production.

Le DGX Spark s’en sort nettement mieux avec les modèles de diffusion // Source : benchmarks Frandroid

Prix et disponibilité

Ce mini PC Nvidia x Dell est à plus de 7 000 euros dans cette configuration très musclée.

Mais notez que ce même design de référence se retrouve d’ailleurs chez de nombreux autres constructeurs partenaires de Nvidia, parmi lesquels Asus (Ascent GX10), Lenovo (ThinkStation PGX), HP, Gigabyte (AI Top Atom) ou encore MSI (EdgeXpert) : tous ces mini-PC partagent la même base technique et ne se différencient finalement que par leur habillage, leur capacité de stockage et leur tarif.

Note finale du test
8 /10
Ce DGX Spark sauce Dell nous a impressionnés. Il s'agit d'un vrai produit fini, bien réfléchi et cohérent, même s'il fait un peu figure de proof of concept dans le monde naissant des mini-supercalculateurs dédiés à l'accélération du deep learning à la maison. S'affranchir des services en ligne et travailler dans un écosystème d'IA locale taillé sur mesure, dans lequel on ne se préoccupe plus de la limite que constitue généralement la mémoire vidéo de nos cartes graphiques, est d'une liberté et d'un confort sans commune mesure.

À 6 400 €, le jeu en vaut-il la chandelle ? Pour un créateur ou un professionnel du deep learning, notre réponse tend vers le oui, les tarifs des Mac Studio aidant à relativiser celui de ce Dell Pro Max. Pour un passionné de tech qui aimerait s'initier à l'IA hors des sentiers balisés par les géants du numérique, on trouve des alternatives moins onéreuses à base de Ryzen AI Max, mais cela implique de se passer du support de CUDA et de passer du temps à paramétrer le système. Les cartes graphiques de jeu équipées d'une quantité raisonnable de VRAM peuvent éventuellement satisfaire la curiosité d'un néophyte, mais trouveront vite leurs limites.

Les fonctionnalités d'IA accélérée localement sont un vrai besoin, et il y a fort à parier que ce GB10 Superchip nous donne un avant-goût de ce que seront les futurs processeurs pour machines grand public.

Pour situer le tarif : la version Founder's Edition de Nvidia est commercialisée à 3 999 dollars HT aux États-Unis pour la même configuration 4 To. Le surcoût de la version Dell s'explique surtout par la TVA et le positionnement « workstation pro » de la marque, avec garantie sur site et support entreprise inclus.

Points positifs du Nvidia DGX Spark (Dell)

  • Système Linux pré configuré, imédiatemment exploitable

  • Support de CUDA

  • Discret, compact et silencieux

  • Enorme quantité de VRAM

  • Possibilité de connecter plusieurs machines entre elles

Points négatifs du Nvidia DGX Spark (Dell)

  • Tarif très élevé

  • GPU bridé par la LPDDR5X

Recherche IA boostée par
Perplexity