Microsoft (MSFT) dévoile trois modèles d'IA propriétaires dans le cadre d'un changement stratégique majeur

Microsoft a exécuté mercredi sa décision la plus audacieuse à ce jour dans la course à l'IA, en dévoilant trois modèles exclusifs qui positionnent le géant de la technologie comme un rival direct d'OpenAI, de Google et des sociétés émergentes d'IA. Microsoft Corporation, MSFT Le trio nouvellement publié – MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 – est désormais accessible via Microsoft Foundry et un MAI Playground dédié. Ces outils englobent la reconnaissance vocale, la synthèse vocale et la génération de contenu visuel. Mustafa Suleiman, PDG de l'IA de Microsoft, a qualifié ces débuts de produit inaugural de son « équipe de superintelligence », créée à peine six mois auparavant. MICROSOFT A ANNONCÉ son intention de développer des modèles d'IA avancés d'ici 2027. — First Squawk (@FirstSquawk) 2 avril 2026 Les actions MSFT ont connu leur trimestre le plus difficile depuis 2008, en baisse d'environ 17 % depuis le début de l'année. Cette introduction de modèle marque la première réponse publique de Suleiman aux demandes des actionnaires de retours significatifs sur des investissements substantiels en IA. MAI-Transcribe-1 constitue l'offre phare. Il offre le taux d'erreur de mots moyen le plus bas du benchmark FLEURS pour les 25 langues les plus utilisées dans les produits Microsoft, enregistrant une moyenne de 3,8 %. La société affirme qu’elle dépasse les performances Whisper-large-v3 d’OpenAI dans les 25 langues et dépasse le Gemini 3.1 Flash de Google dans 22 des 25 langues. Le système gère les fichiers MP3, WAV et FLAC jusqu’à 200 Mo, avec des vitesses de traitement par lots 2,5 fois plus rapides que les solutions Azure actuelles. Des tests sont déjà en cours au sein de Teams et de Copilot Voice. MAI-Voice-1 produit 60 secondes de sortie audio réaliste en une seconde seulement et permet la génération de voix personnalisée à partir d'un minimum d'échantillons audio ne durant que quelques secondes. Le prix est fixé à 22 $ par million de caractères. MAI-Image-2 s'est classé parmi les trois premiers du classement Arena.ai et est en cours d'intégration dans Bing et PowerPoint, avec un prix de 5 $ par million de jetons d'entrée et de 33 $ par million de jetons de sortie d'image. WPP est devenu l’une des premières entreprises à adopter la technologie à grande échelle. Ce lancement de produit n’aurait pas pu avoir lieu douze mois plus tôt. Jusqu’en octobre 2025, Microsoft était confronté à des restrictions contractuelles empêchant le développement indépendant de l’intelligence artificielle générale dans le cadre de son accord OpenAI initial de 2019. Lorsqu'OpenAI a recherché des ressources de calcul supplémentaires au-delà de Microsoft – en établissant des partenariats avec SoftBank et d'autres – Microsoft a lancé des renégociations de contrat. L’accord mis à jour permet à Microsoft de développer des modèles frontières propriétaires tout en conservant les droits de licence sur les développements d’OpenAI jusqu’en 2032. Suleiman a expliqué à VentureBeat : « En septembre de l’année dernière, nous avons renégocié le contrat avec OpenAI, ce qui nous a permis de poursuivre de manière indépendante notre propre superintelligence. » Il a souligné que le partenariat OpenAI se poursuivrait jusqu'en 2032 au moins. Parmi les révélations les plus frappantes de l'annonce : des équipes de développement de moins de 10 ingénieurs ont créé chaque modèle. Suleiman a indiqué que l'équipe de modélisation audio était composée de 10 personnes, avec des améliorations de performances provenant de choix architecturaux et de conservation des données plutôt que de l'expansion des effectifs. « Notre équipe image, également, compte moins de 10 personnes », a-t-il noté. Cette méthodologie contraste fortement avec les pratiques dominantes du secteur, où des organisations comme Meta auraient étendu les rémunérations individuelles des chercheurs allant de 100 à 200 millions de dollars. Microsoft met l'accent sur ses prix intentionnellement compétitifs, structurés pour saper Amazon et Google. Suleiman l’a qualifié de « le moins cher de tous les hyperscalers ». L'organisation planifie déjà les déploiements de clusters GPU à l'échelle révolutionnaire au cours des 12 à 18 prochains mois. Suleiman a validé qu'un grand modèle de langage apparaît sur la feuille de route de développement, déclarant que Microsoft vise à devenir « complètement indépendant » tout en fournissant « des modèles de pointe dans toutes les modalités ».