Apple montre enfin une réponse pertinente à ChatGPT : c'est déjà impressionnant

On le sait, Apple est dans la course à l’IA. L’entreprise serait même prête à s’associer avec Google en intégrant Gemini dans ses iPhone. En attendant, elle développe aussi ses propres modèles d’intelligence artificielle, à l’image de la série de modèles MM1.

Alors que le temps presse pour Apple avec l’arrivée prochaine d’iOS 18, la firme pourrait faire appel à Google afin d’intégrer Gemini dans ses iPhone. Dans le même temps, elle travaille sur ses propres modèles d’intelligence artificielle. C’est le cas avec MM1, dont les conclusions de recherche ont été publiées. De quoi en apprendre plus sur la philosophie de l’IA façon Apple et des potentielles intégrations de la technologie dans les produits de la marque.

Pour aller plus loin
C’est quoi un LLM ? Comment fonctionnent les moteurs de ChatGPT, Gemini et autres ?

L’IA d’Apple veut se mettre au niveau de Gemini de Google

C’est entièrement assumé par Brandon McKinzie, spécialiste des LLM chez Apple, qui a participé aux recherches autour de MM1. Selon lui (via X), la série de modèles est aussi performante que la première version de Gemini et ce peu importe la taille des modèles. Il explique que la version avec 30 milliards de paramètres de MM1 (la plus poussée) surpasse d’autres modèles.

Une démonstration de prédiction de MM1 // Source : Apple

Afin de comprendre comment les modèles multimodaux (qui peuvent traiter simultanément plusieurs types d’entrées, comme du texte, des images ou du son), les chercheurs ont procédé à des ablations, à savoir des suppressions de certains composants de systèmes d’IA afin de comprendre ce qu’apportent lesdits composants au système en général.

De quoi aussi apprendre à construire des modèles. Les équipes d’Apple racontent avoir réalisé des expériences à petite échelle dans l’optique d’étudier l’impact de certains facteurs sur les performances. Comme le précise Favtutor, on apprend que « des facteurs tels que la résolution de l’image et la capacité de l’encodeur visuel sont cruciaux, tandis que la méthode d’introduction des données visuelles dans le modèle a moins d’influence. »

À quoi servirait ce modèle d’IA créé par Apple ?

Dans les conclusions des chercheurs, il y a aussi le fait que « MM1 bénéficie de propriétés attrayantes telles que l’amélioration de l’apprentissage en contexte et le raisonnement multi-images, ce qui permet de lancer des chaînes de pensée en quelques clics. » On peut lire que MM1 arrive à rédiger des descriptions d’images très précises, qu’il peut répondre aux questions qu’on lui pose à propos d’images. Cela comprend même des notions très difficiles à « capter » pour les IA, comme les émotions.

Parmi les usages qu’on peut imaginer, il y a la génération de balises alternatives d’images. Un tel système mis en place sur les iPhone permettrait de rédiger automatiquement des descriptions d’images. De quoi aider les personnes malvoyantes à comprendre ce qui est affiché sur leurs appareils. On peut aussi imaginer de la transcription en temps réel de ce que l’iPhone voit ou entend, comme en parle Korben.

MM1 arrive à décrire précisément des images // Source : Apple

On ne connaît pas précisément quels sont les projets d’Apple pour l’intégration de l’IA dans les iPhone et les Mac. Il se murmure naturellement une refonte complète de Siri, l’assistant vocal, façon ChatGPT. Brandon McKinzie a déclaré que son équipe travaillait déjà sur une prochaine génération de modèles.

Rejoignez-nous de 17 à 19h, un mercredi sur deux, pour l’émission UNLOCK produite par Frandroid et Numerama ! Actus tech, interviews, astuces et analyses… On se retrouve en direct sur Twitch ou en rediffusion sur YouTube !