Comment Apple fait tourner une IA géante dans l'iPhone sans saturer la RAM

Pour faire tourner son modèle d’IA le plus costaud directement dans l’iPhone, Apple a sorti une astuce d’ingénierie rare : le ranger dans la mémoire flash plutôt que dans la RAM. Apple a détaillé tout ça dans un billet de recherche publié par Apple au moment de la WWDC 2026.

Faire tenir un gros modèle d’IA dans un téléphone, c’est d’abord un problème de place. Ces modèles sont énormes, et la mémoire vive d’un iPhone, la RAM, est limitée et déjà très sollicitée. La règle habituelle veut que l’intégralité des paramètres réside dans cette RAM, ce qui plafonne vite la taille du modèle. Dans son billet de recherche publié pour la WWDC 2026, Apple explique comment il a fait sauter ce plafond avec son modèle local le plus avancé, l’AFM 3 Core Advanced.

Ce modèle compte 20 milliards de paramètres, mais n’en active que 1 à 4 milliards à la fois, selon la difficulté de la demande. Surtout, le modèle complet n’est pas chargé en RAM : il reste stocké dans la mémoire flash, la NAND, celle qui sert d’ordinaire au stockage. Le souci, c’est que le débit entre la flash et la RAM est trop lent pour échanger les paramètres en continu, token après token, comme l’exigent les architectures classiques. Apple a contourné l’obstacle en déplaçant le moment de la décision.

Offre exclusive : 600€ de réduction et des cadeaux supplémentaires !

Le HONOR Magic V6 repousse les limites du smartphone pliable avec un design distinctif et robuste, des performances photo de haut niveau et une batterie généreuse conçue pour durer.

À noter : la technique de fond, stocker les paramètres en mémoire flash et ne charger en RAM que ceux qui servent, n’est pas une nouveauté de cette année. Apple l’avait posée dès 2023 dans son article de recherche « LLM in a flash », qui montrait déjà comment faire tourner un modèle deux fois plus gros que la RAM disponible. L’AFM 3 Core Advanced en est l’aboutissement produit.

Décider une fois par requête, pas en permanence

Concrètement, au lieu de choisir en permanence quelles parties du modèle, les « experts », activer, l’AFM 3 Core Advanced fait son choix une fois par requête. Un petit bloc dense sélectionne au démarrage un jeu fixe d’experts, qu’il réactualise de temps en temps pendant la génération. Pour limiter les transferts, le modèle garde une grosse part d’experts toujours actifs, et ne fait venir en RAM les experts spécialisés que lorsqu’ils sont nécessaires. Cette mécanique repose sur une technique maison, l’élagage guidé par l’instruction, ou Instruction-Following Pruning, développée par des chercheurs d’Apple et de l’université de Californie à Santa Barbara.

L’intérêt va au-delà de l’économie de place. Le modèle ajuste le nombre de paramètres actifs selon la tâche : peu pour une requête simple, davantage pour une demande complexe. Une forme d’élasticité qui permet, sur le papier, de viser une taille de modèle bien supérieure aux limites de la RAM, tout en gardant la latence sous contrôle. C’est ce compromis entre ambition et contrainte physique qui rend l’IA locale crédible sur un appareil de poche.

Voyons maintenant qui en profite concrètement. Cette gymnastique explique pourquoi l’AFM 3 Core Advanced est réservé aux puces les plus musclées, soit l’iPhone 17 Pro et plus récents, les Mac équipés d’une puce M3 ou supérieure et les iPad M4 ou supérieurs.

Ce modèle sert surtout aux fonctions vocales, comme les voix expressives et la dictée améliorée, où Apple revendique un net bond de qualité. Pour le reste, la grande majorité des nouveautés tourne sur le modèle local standard ou dans le cloud, et fonctionne dès l’iPhone 15 Pro. La preuve qu’avoir le dernier modèle n’est pas indispensable pour profiter d’iOS 27.