Avec sa Coralboard, Google fait tourner Gemma sans internet ni cloud

IA sans cloud, vraiment

 
Google et Synaptics ont dévoilé la Coralboard, une carte de développement taillée pour faire tourner des modèles d’IA générative directement sur l’appareil. Traduction vocale, contrôle d’objets connectés, génération musicale : tout passe en local, sans serveur ni connexion.

Il y a eu beaucoup d’annonces à l’I/O 2026. Quelques jours après, on en découvre encore. La Coralboard a été présentée à Google I/O 2026 et embarque le Coral NPU, l’architecture de puce IA que Google Research avait dévoilée en octobre 2025.

Trois démos étaient au programme : traduction vocale en temps réel, contrôle d’appareils par commande en langage naturel, et une installation baptisée Jellectronica, où un modèle de détection d’objets YOLOv8 suit en direct le mouvement de méduses filmées à l’aquarium de Monterey Bay pour piloter une performance musicale générée par Lyria, le modèle de Google DeepMind. Le tout, sans jamais appeler un serveur distant.

Mais qu’est-ce qu’on retrouve dedans ? Un SoC Synaptics Astra SL2619 (deux cœurs ARM Cortex-A55 à 2 GHz épaulés par un cœur Cortex-M52), 2 Go de mémoire DDR4 et un NPU (le processeur dédié à l’IA) capable de 1 TOPS, soit mille milliards d’opérations par seconde.

C’est cette puce qui exécute Gemma 3 270M, le plus petit modèle de la famille de LLM (grands modèles de langage) ouverts de Google DeepMind, à seulement 270 millions de paramètres : assez léger pour tenir sur un objet alimenté par batterie. Le Coral NPU lui-même est open source et basé sur RISC-V, une architecture libre concurrente d’ARM, avec une consommation annoncée de quelques milliwatts pour 512 GOPS sur le design de référence : la cible affichée, ce sont les montres, lunettes AR et écouteurs.

De la carte de dev au futur wearable

La Coralboard reste pour l’instant un outil de prototypage destiné aux ingénieurs ML et aux fabricants, pas un produit grand public. Une édition limitée a été remise aux participants de Google I/O 2026 qui se sont prêtés à une expérience sur place, selon CNX Software, le prix et la disponibilité générale seront annoncés plus tard cette année.

Ici, Google pousse son Coral NPU comme brique standardisée pour exécuter des LLM sur wearables, sans cloud ni latence. Concrètement, ce qui demande aujourd’hui une connexion à ChatGPT ou Gemini pourrait demain tourner sur une bague connectée, sans qu’une seule donnée ne sorte de l’appareil. Côté logiciel, l’ensemble s’appuie sur des outils open source (le toolchain Torq de Synaptics, basé sur MLIR, et les frameworks TensorFlow, JAX, PyTorch) : une manière de casser le verrouillage propriétaire qu’impose chaque fondeur avec son propre toolchain.

Pour les bidouilleurs qui aiment déjà faire tourner un LLM en local sur PC ou Mac, c’est une plateforme à suivre, d’autant que les modèles Gemma commencent aussi à débarquer sur smartphone via l’app AI Edge.

Pour aller plus loin
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous


Retrouvez un résumé du meilleur de l’actu tech tous les matins sur WhatsApp, c’est notre nouveau canal de discussion Frandroid que vous pouvez rejoindre dès maintenant !

Recherche IA boostée par
Perplexity