Gemma 4 : installer l'IA de Google sur PC et Mac

Le petit dernier de Gemma 4, la famille de modèles d’IA open source de Google qui tourne sur votre propre PC ou Mac sans cloud ni abonnement, c’est le 12B. Et c’est sans doute le plus malin de la bande pour un ordinateur portable. On vous explique comment l’installer et ce que ça vaut vraiment.

Faire tourner une IA digne de ce nom directement sur son PC portable, sans envoyer la moindre donnée dans le cloud. C’est exactement ce que promet Gemma 4 12B, le nouveau venu chez Google, sorti ce 3 juin 2026. Et contrairement aux gros modèles de la famille, celui-là est pensé pour tenir dans la mémoire d’un laptop. On peut l’avoir opérationnel en deux minutes.

Petit rappel pour ceux qui découvrent : un modèle ouvert (ou open weight), c’est une IA dont les fichiers, appelés les poids, sont téléchargeables. Vous les rapatriez sur votre disque, et l’IA tourne en local, sans connexion. À l’opposé de Gemini ou ChatGPT, qui vivent sur les serveurs de leurs propriétaires et facturent l’usage.

Gemma 4 12B, c’est quoi exactement ?

Le 12B est le cinquième membre de la famille Gemma 4, publié comme les autres sous licence Apache 2.0.

Concrètement, cette licence autorise l’usage commercial, la modification et la redistribution sans payer de royalties à Google : c’est l’une des plus permissives du marché. Sa particularité tient dans son nom complet, « 12B Unified ».

Là où les autres Gemma 4 passent par des encodeurs dédiés pour traiter l’image ou le son, le 12B s’en débarrasse. Pour la vision, lil utilise un module léger, c’est le cœur du modèle qui prend en charge l’analyse visuelle. Pour l’audio, c’est encore plus radical : pas d’encodeur du tout, le signal sonore brut est projeté directement dans le même espace que les jetons de texte. On a donc une seule architecture sans pièces rapportées, moins de latence, moins de mémoire, et plus simple à faire tourner en local.

Et il est complet : il avale du texte, de l’image, de la vidéo et de l’audio, avec une fenêtre de contexte de 256 000 jetons, de quoi ingérer un long document ou un dépôt de code d’un seul tenant. Détail qui compte : c’est le plus gros Gemma 4 capable de comprendre l’audio. Les 26B et 31B, eux, se limitent au texte et à l’image. Si vous voulez de la transcription ou de la traduction vocale en local, le 12B est votre meilleur choix dans la gamme.

Le bond de performance est réel. D’après InfoQ, Gemma 4 a quasiment doublé son score de raisonnement scientifique en une génération : sur le test GPQA Diamond, le 12B grimpe à 78,8 %, contre 42,4 % pour le Gemma 3 27B de l’an dernier. Un modèle deux fois plus léger qui dépasse l’ancien fleuron, voilà l’idée. Si le sujet de l’IA de Google vous intéresse plus largement, on a aussi un guide complet sur Gemini.

Pourquoi le 12B est le bon choix sur un PC portable

C’est là que tout se joue. Google annonce un modèle « laptop ready » : il tourne en local avec seulement 16 Go de VRAM ou de mémoire unifiée. Mieux, il offre des performances très proches du 26B, le modèle au-dessus, pour moins de la moitié de son empreinte mémoire. En clair, vous récupérez l’essentiel de la qualité du gros modèle sans avoir besoin d’une machine de gamer ou d’une station de travail. C’est le nouveau point d’équilibre entre qualité et mémoire, et c’est précisément le créneau du PC portable.

Sur Mac, l’avantage est encore plus net. La mémoire y est unifiée : RAM et VRAM ne font qu’un, et un MacBook Air ou Pro avec 16 Go partage tout ce stock avec le modèle. Sur un PC portable, c’est votre carte graphique (ou la mémoire système si vous n’avez pas de GPU dédié) qui fait le travail. Dans les deux cas, 16 Go suffisent à faire respirer le 12B. Ce qui est compliqué sur un PC portable, mais il y a des PC portables désormais équipées de mémoire unifiée.

Ce qu’il faut comme machine, et comment l’installer

Le nerf de la guerre, c’est la mémoire. Pas le processeur, pas la carte graphique en soi : la quantité de RAM ou de VRAM (la mémoire dédiée de la carte graphique) disponible. Règle simple : votre mémoire totale doit dépasser la taille du fichier que vous téléchargez. Sur Mac, RAM et VRAM ne font qu’un, c’est la fameuse mémoire unifiée, et ça joue en faveur des MacBook récents.

Voici ce que demande chaque variante en pratique, sur la base des recommandations de la communauté et des fichiers GGUF (le format compressé utilisé pour l’usage local).

Modèle	Type	Mémoire conseillée	Pour quelle machine
E2B / E4B	Edge	~3 à 4 Go	Smartphone, Raspberry Pi
12B Unified	Dense	~8 Go (Q4)	PC portable avec 16 Go unifiés/VRAM, MacBook Air/Pro avec au moins 16 Go
26B A4B	MoE	~14 Go (Q4)	GPU 16 Go, Mac 18 Go+
31B	Dense	~18 Go (Q4)	RTX 3090/4090, Mac 24 Go+

Ce qu’il faut retenir : avec 16 Go de mémoire, le 12B en version 4 bits passe tranquillement et garde de la marge pour le contexte. C’est le meilleur compromis qualité-mémoire pour un laptop. Si vous êtes à 8 Go, descendez sur une quantification plus agressive du 12B ou rabattez-vous sur l’E4B, plus modeste mais utilisable. Et un avertissement net : ne tentez pas le 26B ou le 31B sur un simple PC portable de 16 Go, vous obtiendrez des sorties incohérentes et des plantages.

Pour aller plus loin
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous

Pour l’installation, le plus simple s’appelle Ollama, une application qui gère le téléchargement et la mémoire toute seule. Installez la dernière version, puis une seule ligne dans le terminal : ollama run gemma4:12b.

Sur Mac Apple Silicon, MLX est le moteur natif le plus rapide. Les amateurs d’interface graphique préféreront LM Studio, et les bricoleurs llama.cpp pour le contrôle fin. Les poids se téléchargent depuis Hugging Face et Kaggle ; l’équipe Unsloth propose en plus des GGUF « Dynamic » optimisés qui font tourner le 12B de façon plus efficace. Si vous voulez la méthode pas à pas tous systèmes confondus, notre guide pour installer un LLM en local détaille tout.

Ce qu’on peut en faire

Une fois installé, Gemma 4 12B fait du raisonnement multi-étapes, de la génération de code, de l’analyse d’images et de documents. Comme il est multimodal, vous pouvez lui balancer une capture d’écran de tableur ou de facture et lui demander de l’interpréter. Et puisqu’il comprend l’audio, il sait aussi transcrire, mettre en forme et traduire de la voix, entièrement hors ligne : Google le démontre avec son application AI Edge Eloquent. C’est quelque chose que les gros Gemma 4, limités au texte et à l’image, ne savent pas faire. Il gère enfin l’appel d’outils et la sortie JSON structurée, ce qui en fait un moteur crédible pour des agents autonomes maison.

L’intérêt réel, au-delà des scores : tout reste sur votre machine. Pas de données qui partent chez un tiers, pas de coût par requête, pas de limite de débit. Pour de l’analyse de documents sensibles ou du code confidentiel, c’est un argument de poids. Le chercheur Nathan Lambert résume bien l’enjeu : le succès de Gemma 4 se jouera d’abord sur sa facilité d’usage, plus que sur quelques points de benchmark. Et de ce point de vue, un modèle qui tient dans un PC portable coche la bonne case.

Si vous avez un PC portable récent avec 16 Go de mémoire ou un MacBook à mémoire unifiée, foncez tester le 12B : c’est l’IA locale la plus aboutie du moment pour un laptop, gratuite et sans laisse. Si vous êtes sur une machine plus modeste ou que les lignes de commande vous donnent de l’urticaire, restez sur l’E4B via Ollama ou LM Studio. Dans tous les cas, l’époque où l’IA potable exigeait une connexion et un abonnement est officiellement derrière nous.

Pour aller plus loin
Comment installer Google Gemma 4 sur votre smartphone Android ou iPhone : un « ChatGPT » gratuit et sans connexion

Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.