Microsoft lance trois modèles IA maison sur Foundry : une nouvelle étape vers l’indépendance technologique

 
Microsoft vient de rendre disponibles trois modèles d’intelligence artificielle développés en interne — MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 — sur sa plateforme Microsoft Foundry. Une offensive devrait permettre de mieux concurrencer OpenAI et Google.
Microsoft ChatGPT vs Google Bard, les deux IA sont représentées par des robots // Source : Image créée par Frandroid avec Midjourney

Pendant des années, Microsoft a bâti son assistant Copilot et ses services connectés sur les modèles d’OpenAI, notamment la famille GPT. Cette dépendance, longtemps assumée, semble aujourd’hui révolue. Depuis août 2025, la division Microsoft AI (MAI), dirigée par Mustafa Suleyman — cofondateur de DeepMind et ancien PDG d’Inflection — développe et commercialise ses propres modèles fondamentaux.

Le 1er avril 2026, l’entreprise a officialisé la mise à disposition de trois nouvelles technologies maison sur Microsoft Foundry, sa plateforme destinée aux développeurs d’applications IA.

Des modèles plus adaptés

Ces trois modèles — MAI-Transcribe-1 pour la reconnaissance vocale, MAI-Voice-1 pour la synthèse vocale et MAI-Image-2 pour la génération d’images — ne sont pas de simples prototypes de laboratoire. Selon Microsoft, ils alimentent d’ores et déjà plusieurs produits grand public et professionnels, dont Copilot, Bing, PowerPoint et Azure Speech. Leur ouverture aux développeurs externes via Foundry, c’est une étape supplémentaire dans la stratégie d’autonomisation technologique de l’entreprise.

MAI-Transcribe-1 : la reconnaissance vocale à coût réduit

Premier modèle de transcription développé intégralement en interne par Microsoft, MAI-Transcribe-1 prend en charge jusqu’à 25 langues et vise un niveau de précision qualifié d’entreprise par la marque. Selon Microsoft, son coût d’utilisation GPU serait environ 50 % inférieur à celui des alternatives comparables sur le marché — une affirmation qui reste à vérifier en conditions réelles d’exploitation.

Microsoft MAI-Transcribe-1 erreurs // Source : Microsoft

Techniquement, il faut savoir que le modèle repose sur une architecture combinant un encodeur audio bidirectionnel et un décodeur de texte de type transformer. Il accepte des fichiers audio en formats MP3, WAV et FLAC, avec une taille maximale de 200 Mo par fichier. À terme, selon le fabricant, MAI-Transcribe-1 devrait également prendre en charge la diarisation (identification des locuteurs), le biais contextuel pour les termes spécialisés, et le traitement en flux continu en temps réel — des fonctionnalités qui font aujourd’hui la force de solutions comme Whisper d’OpenAI ou les outils Google Speech-to-Text. Question prix, Microsoft affiche un prix de 0,36 $ par heure d’audio transcrite.

Selon Microsoft, MAI-Transcribe-1 est d’ores et déjà intégré dans Copilot Voice Mode et dans la fonction de dictée de Copilot.

MAI-Voice-1 : une synthèse vocale d’une rapidité revendiquée

MAI-Voice-1, le modèle de génération vocale de Microsoft, avait déjà été présenté en août 2025 lors de l’annonce des premiers modèles MAI. Sa principale particularité, c’est sa capacité à produire une minute entière d’audio en moins d’une seconde, sur un seul GPU. Toutefois, plusieurs tests indépendants semblent montrer que l’on est plutôt de de l’ordre de trois à quatre secondes par extrait, ce qui reste malgré tout une vitesse supérieure à la grande majorité des solutions concurrentes disponibles sur le marché.

Le modèle alimente actuellement les fonctions Audio Expressions et Podcast de Copilot, ainsi que Copilot Daily. Il est désormais proposé aux développeurs sur Foundry à un tarif annoncé de 22 $ par million de caractères. MAI-Voice-1 fait directement face à ElevenLabs, OpenAI TTS ou Google Text-to-Speech.

MAI-Image-2 : la génération d’images atteint le top 3

Le troisième modèle annoncé, MAI-Image-2, c’est la deuxième génération du moteur de création d’images propriétaire de Microsoft. Son prédécesseur, MAI-Image-1 — lancé en octobre 2025 et intégré à Bing Image Creator et Copilot en novembre — avait débuté dans le top 10 du classement LMArena. Mais MAI-Image-2 fait encore mieux.

Microsoft MAI-Image-2 // Source : Microsoft

En effet, toujours selon Microsoft, le modèle a débuté à la troisième place du classement Arena.ai pour les familles de modèles d’images, un classement qui est, rappelons-le établi par vote humain en aveugle.

Pour aller plus loin
Pourquoi OpenAI a fini par abandonner Sora ? Voici les raisons de l’échec

Le modèle est conçu pour produire des visuels photoréalistes, avec une attention toute particulière portée à l’éclairage, aux textures et à la précision des détails. D’après la marque, il a été développé avec une sélection rigoureuse des données d’entraînement, notamment avec des pratiques respectueuses du droit d’auteur pour minimiser les biais et les répétitions visuelles. Avec Bing Image Creator, les utilisateurs peuvent désormais choisir entre MAI-Image-2, DALL-E 3 et GPT-4o d’OpenAI — une possibilité qui montre la double posture de Microsoft, étant à la fois fournisseur de sa propre technologie et plateforme d’intégration multi-modèles.

Malgré tout cela, Microsoft maintient son partenariat avec OpenAI, au moins jusqu’en 2032, selon Suleyman.


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !

Recherche IA boostée par
Perplexity