En octobre dernier débarque au catalogue du géant vert une bien curieuse machine. Dans un tout petit boîtier guère plus gros qu’un Mac mini se cache une quantité pharaonique de mémoire et ce que son concepteur appelle un Superchip.
Pour aller plus loin
C’est quoi cette mystérieuse carte mère Nvidia ? On vous explique
Destinée aux professionnels du deep learning et au monde de la création assistée par IA, cette machine préfigure surtout une révolution dans l’usage de l’informatique grand public.

S’il reste encore un peu confidentiel, il existe désormais un marché pour les ordinateurs ultra-compacts bourrés de mémoire vive et équipés d’une puce capable de s’attaquer à l’accélération d’applications locales d’intelligence artificielle. Apple propose ce concept depuis 2022 avec ses Mac Studio, des stations de travail miniatures et musclées destinées aux créateurs.
Sur le marché du PC, AMD a lancé une contre-attaque avec sa gamme d’APU Ryzen AI Max, désormais intégrée dans des PC portables professionnels et des mini-ordinateurs qui reprennent peu ou prou la formule du Mac Studio.
Il était donc logique que le leader des processeurs dédiés à l’apprentissage profond décide à son tour de proposer sa version du concept. Annoncée en janvier 2025 sous le nom de projet DIGITS, la machine débarque finalement au dernier trimestre de la même année sous la forme du DGX Spark.
GB10 Superchip : un petit monstre sous le capot
Et pour cause : avec ses dix cœurs haute performance ARM Cortex X925, ses dix cœurs basse consommation Cortex A725 et une partie GPU embarquant quarante-huit Stream Multiprocessors à l’instar du GB205 qui équipe la RTX 5070, le GB10 est un véritable petit monstre. Sans atteindre les TDP gargantuesques des B200 qui équipent les DGX SuperPod destinés aux datacenters d’IA, la puce dissipe malgré tout 140 W en charge. Une valeur supérieure à celle du M5 Max d’Apple, équivalente à celle d’une carte graphique de jeu d’entrée de gamme, et qui montre la volonté de Nvidia d’embarquer le maximum de puissance possible dans un facteur de forme compact.

Mais en deep learning, le nerf de la guerre, c’est la mémoire vive. Le DGX Spark est donc équipé d’une quantité très généreuse de RAM de 128 Go de LPDDR5X, interfacée via un large bus 256 bits avec le SoC de la machine.
Tout l’intérêt du Spark réside dans son espace mémoire unifié, adressable dans sa totalité tant par le CPU que par la partie GPU de la puce : il s’affranchit ainsi des limites imposées par les cartes graphiques grand public. Si ces dernières peuvent être suffisamment performantes en inférence pour un particulier ou un créateur, elles souffrent de la modeste quantité de VRAM qu’elles embarquent, ce qui empêche purement et simplement d’utiliser les réseaux neuronaux gourmands en mémoire ou de paralléliser l’usage de plusieurs petits modèles.
Cette générosité a toutefois une contrepartie : interfacée sur un bus 256 bits, la LPDDR5X du Spark plafonne à 273 Go/s de bande passante. Très loin des ~800 Go/s qu’Apple sert sur les variantes Ultra de ses puces M-series depuis 2022, et des 1,8 To/s de la GDDR7 d’une RTX 5090. C’est précisément cette limite qui plombera plus tard les performances en inférence de gros LLM.

Dell Pro Max : la version sobre du Spark
La machine que nous avons en test aujourd’hui nous vient de chez Dell. S’il ne s’agit pas du modèle présenté par Nvidia en octobre dernier, elle en reprend la totalité de la recette : la carte mère très compacte embarquant le GB10 tient dans un boîtier de quinze centimètres de côté pour cinq centimètres de haut.
Ce volume est par ailleurs presque exclusivement dédié au système de refroidissement, un large radiateur surmonté de deux ventilateurs à flux radial (les blowers) qui, bonne nouvelle, peinent à se faire réellement entendre même en pleine charge.

Esthétiquement moins extravagante que celle proposée par Nvidia, la plastique de ce Dell Pro Max fait dans le minimalisme avec les codes familiers de l’assembleur : du noir, du gris foncé et une façade en nid d’abeille.

Dell a équipé notre modèle d’un SSD NVMe de 4 To, un stockage généreux qui se remplit malgré tout assez vite lorsque l’on doit jongler avec une grande quantité de modèles neuronaux. L’intérêt du DGX Spark étant justement de pouvoir charger des modèles occupant plus de 100 Go de mémoire, on a vite fait d’épuiser l’espace disque.
Fiche technique du Dell Pro Max avec GB10
| Détails | Caractéristiques |
|---|---|
| Puce | Nvidia GB10 Superchip (architecture Grace Blackwell) |
| CPU | 20 cœurs ARMv9.2 — 10× Cortex-X925 + 10× Cortex-A725 |
| GPU | Blackwell, 6 144 cœurs CUDA (équivalent RTX 5070) |
| Performance IA | 1 000 TFLOPS FP4 (1 pétaFLOP en sparse) |
| Mémoire | 128 Go LPDDR5X unifiée, bus 256 bits, 273 Go/s de bande passante |
| Stockage | SSD M.2 NVMe — 1 To, 2 To ou 4 To selon configuration (SED Ready) |
| Système | Nvidia DGX OS 7 (basé sur Ubuntu Linux) |
| Connectique | 4× USB-C Gen 2×2 (dont 1 dédié à l’alimentation, 3 avec DisplayPort Alt mode), 1× HDMI 2.1b, 1× RJ-45 10 GbE, ConnectX-7 Smart NIC avec 2× QSFP 200 Gbps |
| Sans-fil | Wi-Fi 7 (puce MediaTek MTK7925), Bluetooth |
| Sécurité | TPM 2.0 |
| Châssis | Dell L6, façade en nid d’abeille gris anthracite |
| Dimensions | 150 × 150 × 51 mm |
| Poids | 1,31 kg |
| Modèles d’IA supportés | Jusqu’à 200 milliards de paramètres en local (400 milliards en cluster de deux machines via QSFP) |
Du côté des connectiques, aucune surprise : elles sont les mêmes pour toutes les variantes du Spark embarquant cette carte mère.

Quatre ports USB-C dont un dédié à l’alimentation, un port HDMI, un port RJ45 10 Gbps et, bien sûr, deux ports QSFP 200 Gbps permettant de connecter plusieurs machines entre elles (à partir de trois, un switch sera nécessaire) pour mutualiser leurs espaces mémoire et charger des modèles d’IA encore plus lourds. Enfin, notons la présence d’une carte Wi-Fi équipée d’une puce MediaTek MT7925 compatible Wi-Fi 7, mais limitée à un canal d’une largeur de 160 MHz.
DGX OS : du Linux qui se fait oublier
La prise en main du Spark est rapide et les habitués des systèmes Linux retrouveront vite leurs repères avec DGX OS, qui n’est qu’une Ubuntu rhabillée par Nvidia. L’application Nvidia Sync permet un accès rapide au tableau de bord et au terminal de la machine depuis un poste de travail.
S’il est bien entendu possible de relier la station à un écran et à un ensemble clavier/souris, ce n’est vraiment pas nécessaire : le petit supercalculateur est conçu pour se faire oublier dans un coin de bureau et être géré depuis son PC, que ce soit via un terminal SSH ou via l’application dédiée (disponible pour Windows, Mac et Ubuntu).

L’installation est on ne peut plus aisée : au premier démarrage, la station diffuse un réseau Wi-Fi sur lequel l’utilisateur peut se connecter pour lancer la configuration initiale, les mises à jour et la création des profils.
On peut aussi le faire au clavier et à la souris, mais il est globalement inutile de s’encombrer de périphériques sur cette machine qui n’en aura que rarement besoin, pour peu que l’on soit un minimum familier d’un terminal Linux.
À quoi sert vraiment cette machine ?
Vient la question que beaucoup vont avoir sur les lèvres : qu’est-ce qu’on fait de cette machine ? Eh bien beaucoup de choses.
Sa philosophie première est de permettre aux développeurs spécialisés dans l’apprentissage profond de concevoir et qualifier en toute liberté leurs applications d’IA, sans avoir à disposer de la puissance d’un datacenter ni à dépendre de services en ligne, qui vont de la location de calcul GPU à la mise à disposition de plateformes d’IA complètes. La machine s’intègre au passage parfaitement dans un environnement articulé autour de l’écosystème Nvidia, où elle peut être vue comme un composant additionnel permettant de prototyper rapidement avant de déployer en production sur des SuperPod.
Mais que l’on se rassure, l’usage de cette machine ne s’arrête pas là. Avec 128 Go de mémoire vive, il devient possible de manipuler des réseaux de neurones suffisamment gros et performants pour envisager de se passer des services cloud proposés aux créateurs et aux particuliers par les géants de la tech comme OpenAI, xAI, Microsoft ou encore Anthropic, pour ne citer qu’eux. Globalement, tout ce qu’on peut faire en ligne à l’aide de plateformes payantes est reproductible en local sur le DGX Spark. Chatbots, génération et retouche d’images, création vidéo, agents autonomes, ordonnancement de flux de travail, les usages ne manquent pas.
Et l’on touche ici à la plus grande force du concept : être entièrement autonome et libre d’utiliser comme on l’entend les services d’IA que l’on a soi-même déployés.
Dans un monde où la souveraineté numérique et la confidentialité des données sont devenues un enjeu majeur, tant pour les États que pour les citoyens, disposer d’une machine permettant de profiter de la puissance de l’IA sans sacrifier ses données et sa vie privée est un luxe difficilement estimable. Les services hébergés localement nous mettent aussi à l’abri des mauvaises surprises, comme les modifications d’abonnements ou la suppression pure et simple de certaines fonctionnalités par les grandes plateformes.
Un chatbot maison, sans dépendre d’OpenAI
La première chose qu’on a envie de tester sur cette machine, c’est un agent conversationnel : les chatbots sont les porte-étendards des applications d’IA les plus connues du grand public.
Nvidia met à disposition des néophytes toute la documentation nécessaire pour procéder à l’installation, mais les plus aguerris pourront passer par les dépôts Git, les containers Docker libres ou ceux issus du catalogue de microservices mis à disposition par Nvidia (les NIM).

Bon point, le système d’exploitation customisé par le constructeur embarque tous les pilotes et les librairies CUDA nécessaires au déploiement rapide d’applications accélérées par le GPU. Pas besoin de passer des heures à chercher les bonnes dépendances et à configurer les chemins des librairies. Descendre les images Docker Ollama et OpenWebUI accélérées CUDA n’est qu’une formalité, et en quelques minutes on dispose d’un chatbot fonctionnel prêt à répondre à nos requêtes.
Si l’installation d’une telle application n’a plus rien de vraiment sorcier sur une machine équipée d’un processeur graphique récent, la force du DGX Spark vient du fait que l’on peut enfin s’attaquer au chargement de gros modèles dont la pertinence n’a plus grand-chose à voir avec celle des petits réseaux qui tiennent dans la mémoire d’une carte graphique grand public. Qwen3.5-122B-A10B, un large modèle multimodal, nous paraît être le candidat idéal pour ce test : malgré ses 85 Go d’occupation mémoire, son architecture mixture of experts à dix milliards de paramètres activés par token devrait permettre au GB10 de travailler suffisamment vite pour un usage personnel.

On met donc notre agent au travail avec le développement d’un petit projet : une application qui résume automatiquement les vidéos d’une chaîne YouTube pour les poster sur le canal d’une communauté Discord. Qwen3.5 établit rapidement une architecture à la fois simple et solide capable de répondre à notre besoin, et produit les scripts Python associés.
Nous aurions pu pousser l’intégration jusqu’à laisser le LLM exécuter et vérifier lui-même son code grâce à un agent comme OpenHands ou Hermes, mais nous n’en avons même pas ressenti le besoin.

La vitesse d’inférence modeste du GB10 sur un modèle de cette taille, couplée à la longueur de la conversation qui dépasse rapidement les soixante-cinq mille tokens, font que les réponses de notre chatbot prennent parfois jusqu’à trois minutes — de l’évaluation du prompt à la sortie finale, en passant par la phase de réflexion.

Néanmoins, notre projet prend vie en une après-midi : notre bot, propulsé par Ollama et Scriberr et orchestré par n8n, est fonctionnel et ne manque plus aucune vidéo de notre chaîne préférée.

S’il n’est pas nécessaire d’investir dans une machine à plus de six mille euros pour réaliser ce genre d’application, on rappelle qu’ici tout est fait en local, sans une ligne de code s’aventurant hors de notre réseau et surtout sans dépendre d’une limite d’utilisation ou de fonctionnalités fixées par une plateforme cloud. On utilise la machine comme on le souhaite, et c’est ce qui fait sa force.
Génération d’images locale avec Krita et ComfyUI
De nombreuses applications open source permettant de se passer d’écosystèmes payants et propriétaires commencent désormais à intégrer des fonctionnalités d’IA locale.
Pour aller plus loin
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous
C’est par exemple le cas de Krita, une alternative gratuite au célèbre Photoshop d’Adobe, qui dispose d’un plug-in permettant de connecter le logiciel à un serveur ComfyUI, une application très connue dans le monde de l’IA libre, qui permet d’utiliser de très nombreux modèles d’IA générative. Nous installons ComfyUI depuis la page GitHub du projet et nous configurons le plug-in Krita pour attaquer notre instance locale.

L’énorme quantité de mémoire offerte par le Spark permet de s’attaquer directement à Qwen-Image, l’un des générateurs d’images les plus performants disponibles en open weight.

On peut désormais générer, éditer et améliorer à notre guise des assets graphiques grâce à la puissance de l’IA, sans dépendre des quotas d’utilisation d’un service externe et, surtout, sans qu’un seul pixel ne parte chez un tiers.

Fine-tuning : entraîner ses propres modèles à la maison
Le DGX Spark n’est cependant pas destiné uniquement à l’inférence : il est avant tout taillé pour l’entraînement de modèles difficiles, voire impossibles, à charger dans la mémoire d’une carte graphique, aussi haut de gamme soit-elle.
Le fine-tuning fait partie des usages multiples de cette machine et, à l’aide d’outils comme Llama-Factory ou AI-Toolkit, il est facile d’entraîner un réseau neuronal sur un jeu de données spécifique. Nous avons utilisé le petit dataset fourni par Nvidia pour entraîner Flux.1 Dev à reproduire fidèlement une version « jouet » du big boss de la firme.

L’entraînement d’un Low Rank Adapter, un fichier agissant comme une sorte de couche additionnelle pour le modèle de base, prend environ trois heures sur le DGX Spark pour obtenir un résultat convaincant. Une GeForce RTX disposant d’au moins 24 Go de VRAM aurait pu terminer ce travail sensiblement plus vite, mais au prix d’une consommation électrique supérieure et de temps passé à régler l’outil pour faire tenir le modèle en mémoire.

Avec le Spark, on ne se soucie plus de ces problématiques : on lance l’entraînement et on récupère un LoRA pouvant être réutilisé avec des modèles quantifiés que l’on peut inférer sur un GPU grand public.

Pour les développeurs et les créateurs, disposer d’une telle possibilité est un vrai luxe.

Performances : ne pas se tromper de cible
S’il y a une chose que le DGX Spark n’est pas, c’est un serveur d’inférence. Certains pourraient le voir comme une solution d’entreprise économique pour servir des modèles à leurs clients, mais si le GB10 est réellement impressionnant pour un SoC dédié à l’IA, ses performances restent somme toute modestes.
Hors de question de servir un LLM énorme à plusieurs utilisateurs en simultané. L’inférence de Qwen3.5-122B-A10B, malgré son architecture mixture of experts n’activant que dix milliards de paramètres par token, peine à dépasser les 20 tokens/s. C’est aussi la vitesse que l’on aura avec Qwen3.5-14B qui, lui, peut en revanche tenir dans la mémoire vidéo d’un GPU grand public, plus rapide, à condition d’utiliser une version quantifiée.

Les performances en inférence d’un LLM sont fortement conditionnées par la bande passante mémoire offerte par la LPDDR5X du Spark, qui ne peut réellement lutter avec celle de la GDDR7 des dernières GeForce Blackwell. Dans cet exercice, une GeForce RTX 5060 Ti 16 Go, référence la plus intéressante pour un néophyte qui aimerait s’initier à l’IA locale avec de petits réseaux sans dépenser une fortune, est presque deux fois plus rapide.
Le GB10 est en revanche plus à l’aise avec les modèles de diffusion comme Flux.1 Dev FP8, où ses performances en inférence dépassent assez nettement celles de la RTX 5060 Ti et se rapprochent de ce que peut encore proposer une RTX 3090, l’ancien très haut de gamme Ampère, significativement plus bruyant et énergivore.
Dans l’ensemble, les performances du GB10 sont suffisantes pour prototyper un projet ou créer du contenu, mais il faut bien garder à l’esprit que cette machine n’a pas vocation à être intégrée dans un environnement de production.

Prix et disponibilité
Ce mini PC Nvidia x Dell est à plus de 7 000 euros dans cette configuration très musclée.
Mais notez que ce même design de référence se retrouve d’ailleurs chez de nombreux autres constructeurs partenaires de Nvidia, parmi lesquels Asus (Ascent GX10), Lenovo (ThinkStation PGX), HP, Gigabyte (AI Top Atom) ou encore MSI (EdgeXpert) : tous ces mini-PC partagent la même base technique et ne se différencient finalement que par leur habillage, leur capacité de stockage et leur tarif.



Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et .
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.