
Pendant des années, Microsoft a bâti son assistant Copilot et ses services connectés sur les modèles d’OpenAI, notamment la famille GPT. Cette dépendance, longtemps assumée, semble aujourd’hui révolue. Depuis août 2025, la division Microsoft AI (MAI), dirigée par Mustafa Suleyman — cofondateur de DeepMind et ancien PDG d’Inflection — développe et commercialise ses propres modèles fondamentaux.
Le 1er avril 2026, l’entreprise a officialisé la mise à disposition de trois nouvelles technologies maison sur Microsoft Foundry, sa plateforme destinée aux développeurs d’applications IA.
Des modèles plus adaptés
Ces trois modèles — MAI-Transcribe-1 pour la reconnaissance vocale, MAI-Voice-1 pour la synthèse vocale et MAI-Image-2 pour la génération d’images — ne sont pas de simples prototypes de laboratoire. Selon Microsoft, ils alimentent d’ores et déjà plusieurs produits grand public et professionnels, dont Copilot, Bing, PowerPoint et Azure Speech. Leur ouverture aux développeurs externes via Foundry, c’est une étape supplémentaire dans la stratégie d’autonomisation technologique de l’entreprise.
MAI-Transcribe-1 : la reconnaissance vocale à coût réduit
Premier modèle de transcription développé intégralement en interne par Microsoft, MAI-Transcribe-1 prend en charge jusqu’à 25 langues et vise un niveau de précision qualifié d’entreprise par la marque. Selon Microsoft, son coût d’utilisation GPU serait environ 50 % inférieur à celui des alternatives comparables sur le marché — une affirmation qui reste à vérifier en conditions réelles d’exploitation.

Techniquement, il faut savoir que le modèle repose sur une architecture combinant un encodeur audio bidirectionnel et un décodeur de texte de type transformer. Il accepte des fichiers audio en formats MP3, WAV et FLAC, avec une taille maximale de 200 Mo par fichier. À terme, selon le fabricant, MAI-Transcribe-1 devrait également prendre en charge la diarisation (identification des locuteurs), le biais contextuel pour les termes spécialisés, et le traitement en flux continu en temps réel — des fonctionnalités qui font aujourd’hui la force de solutions comme Whisper d’OpenAI ou les outils Google Speech-to-Text. Question prix, Microsoft affiche un prix de 0,36 $ par heure d’audio transcrite.
Selon Microsoft, MAI-Transcribe-1 est d’ores et déjà intégré dans Copilot Voice Mode et dans la fonction de dictée de Copilot.
MAI-Voice-1 : une synthèse vocale d’une rapidité revendiquée
MAI-Voice-1, le modèle de génération vocale de Microsoft, avait déjà été présenté en août 2025 lors de l’annonce des premiers modèles MAI. Sa principale particularité, c’est sa capacité à produire une minute entière d’audio en moins d’une seconde, sur un seul GPU. Toutefois, plusieurs tests indépendants semblent montrer que l’on est plutôt de de l’ordre de trois à quatre secondes par extrait, ce qui reste malgré tout une vitesse supérieure à la grande majorité des solutions concurrentes disponibles sur le marché.
Le modèle alimente actuellement les fonctions Audio Expressions et Podcast de Copilot, ainsi que Copilot Daily. Il est désormais proposé aux développeurs sur Foundry à un tarif annoncé de 22 $ par million de caractères. MAI-Voice-1 fait directement face à ElevenLabs, OpenAI TTS ou Google Text-to-Speech.
MAI-Image-2 : la génération d’images atteint le top 3
Le troisième modèle annoncé, MAI-Image-2, c’est la deuxième génération du moteur de création d’images propriétaire de Microsoft. Son prédécesseur, MAI-Image-1 — lancé en octobre 2025 et intégré à Bing Image Creator et Copilot en novembre — avait débuté dans le top 10 du classement LMArena. Mais MAI-Image-2 fait encore mieux.

En effet, toujours selon Microsoft, le modèle a débuté à la troisième place du classement Arena.ai pour les familles de modèles d’images, un classement qui est, rappelons-le établi par vote humain en aveugle.
Pour aller plus loin
Pourquoi OpenAI a fini par abandonner Sora ? Voici les raisons de l’échec
Le modèle est conçu pour produire des visuels photoréalistes, avec une attention toute particulière portée à l’éclairage, aux textures et à la précision des détails. D’après la marque, il a été développé avec une sélection rigoureuse des données d’entraînement, notamment avec des pratiques respectueuses du droit d’auteur pour minimiser les biais et les répétitions visuelles. Avec Bing Image Creator, les utilisateurs peuvent désormais choisir entre MAI-Image-2, DALL-E 3 et GPT-4o d’OpenAI — une possibilité qui montre la double posture de Microsoft, étant à la fois fournisseur de sa propre technologie et plateforme d’intégration multi-modèles.
Malgré tout cela, Microsoft maintient son partenariat avec OpenAI, au moins jusqu’en 2032, selon Suleyman.
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !


Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et .
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.