Google lance Gemma 4, un modèle open-source : voici comment l'essayer sur votre PC ou votre Mac

Google franchit le pas du véritable open source en adoptant la licence Apache 2.0. Voici Gemma 4, ses nouveautés et comment l’installer sur votre PC ou votre serveur.

Et voilà un nouveau modèle de langage de Google. Cette fois, c’est un modèle ouvert, vous pouvez l’installer sur vote machine. Gemma 4, c’est la nouvelle famille de modèles ouverts de Google DeepMind.

Google la présente comme sa famille de modèles ouverts la plus capable à ce jour, avec une licence Apache 2.0, donc assez ouverte pour être utilisée dans beaucoup de cas.

Les nouveautés les plus visibles, c’est le côté multimodal natif, texte, image, et selon les versions aussi audio, un contexte beaucoup plus long pouvant aller jusqu’à 128K ou 256K selon les modèles, et de meilleures capacités de raisonnement et de function calling pour construire des assistants plus autonomes.

Lien YouTube S’abonner à Frandroid

Petite anecdote : la vidéo est présentée par Olivier Lacombe, un français qui travaille chez Google DeepMind. Il utilise un exemple en langue française dans sa présentation de Gemma 4.

Gemma 4 repose sur les mêmes recherches que Gemini 3, mais dans un format optimisé pour tourner sur vos machines de bureau, vos smartphones… et même des mini PC.

Puissance, agents et multimodalité native

D’accord, mais qu’est-ce que permet de faire Gemma 4 ? La famille Gemma 4 se décline en quatre tailles : E2B et E4B pour le mobile (2 et 4 milliards de paramètres), et les versions 26B (Mixture of Experts) et 31B (Dense) pour les gros PC et serveurs.

Comptez environ 5 Go de VRAM pour le petit modèle E2B sur smartphone, mais prévoyez au moins 20 Go (soit une GeForce RTX 5090 ou un APU AMD avec mémoire unifiée) pour exploiter le mastodonte 31B.

Il permet de faire du chat, rédaction, résumé de documents, réponse à des questions, et génération de contenu, avec de meilleures capacités de raisonnement que les anciennes générations. Il est aussi pensé pour des usages plus avancés comme la planification en plusieurs étapes, la génération de code, et la création d’agents capables d’interagir avec des outils via des appels de fonctions et des sorties structurées.

Le gain en « intelligence par paramètre » est assez énorme. Le modèle 31B se hisse déjà à la troisième place mondiale des modèles ouverts sur le benchmark Arena AI, il bat des modèles vingt fois plus gros.

La grande nouveauté, c’est que Gemma 4 est qu’il ne fait pas que de la discussion. Il est conçu pour devenir un « agent ». Il supporte nativement le function-calling et les sorties JSON structurées. Il peut piloter des outils, interagir avec des API et automatiser des flux de travail complexes. C’est le chaînon manquant pour créer des assistants personnels qui font vraiment le boulot au lieu de simplement rédiger des poèmes.

Côté capacités, Google a mis le paquet sur la multimodalité. Tous les modèles traitent nativement la vidéo et les images. Les versions « Edge » (E2B et E4B) vont encore plus loin en intégrant l’audio nativement pour la reconnaissance vocale. Ajoutez à cela une fenêtre de contexte allant jusqu’à 256 000 tokens et vous avez un outil capable d’analyser des dépôts de code entiers ou des documents massifs en quelques secondes sur votre PC.

Comment essayer Gemma 4 ?

Comment ça tourne ? Google et Nvidia ont travaillé main dans la main pour que Gemma 4 brille sur les GPU RTX. Grâce à l’optimisation des Tensor Cores et à la pile logicielle CUDA.

C’est aussi le cas sur AMD dès sa sortie, avec support day-zero sur les GPU AMD Instinct, les Radeon et les processeurs Ryzen AI, surtout avec ROCm.

Pour aller plus loin
Test du Framework Desktop : ne le commandez pas avant d’avoir lu ça

Pareil, sur Mac, ça fonctionne aussi, surtout sur Mac Apple Silicon (M1/M2/M3/M4/M5) avec mémoire unifiée. En pratique, sur un MacBook Air ou Pro, on peut s’en servir pour du chat local, du résumé, de la génération de texte, de la traduction, de l’analyse de documents et, selon votre configuration, du traitement multimodal. Par exemple, sur MacBook Air M5 avec 24 Go de mémoire vive, Gemma 4 E4B semble le modèle le plus logique.

Si vous voulez mettre les mains dans le cambouis, c’est très simple. Le moyen le plus rapide reste de passer par Google AI Studio pour tester les modèles 26B et 31B directement dans votre navigateur.

Pour ceux qui préfèrent le local, Ollama et LM Studio proposent déjà un support « Day One ». Il suffit de télécharger l’application, de chercher « Gemma 4 » et vous voilà avec un clone de Gemini 3 sur votre disque dur.

Pour aller plus loin
Comment installer un modèle LLM type ChatGPT sur PC ou Mac en local ? Voici le guide ultime pour tous

Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.