Microsoft (MSFT) stellt drei proprietäre KI-Modelle im Rahmen eines großen strategischen Wandels vor

Inhaltsverzeichnis Microsoft hat am Mittwoch seinen bisher kühnsten Schritt im KI-Wettbewerb vollzogen und drei proprietäre Modelle vorgestellt, die den Technologieriesen als direkten Konkurrenten zu OpenAI, Google und aufstrebenden KI-Unternehmen positionieren. Microsoft Corporation, MSFT Auf das neu veröffentlichte Trio – MAI-Transcribe-1, MAI-Voice-1 und MAI-Image-2 – kann jetzt über Microsoft Foundry und einen speziellen MAI Playground zugegriffen werden. Diese Tools umfassen Spracherkennung, Sprachsynthese und die Generierung visueller Inhalte. Mustafa Suleiman, AI-CEO von Microsoft, bezeichnete das Debüt als das erste Produkt seines „Superintelligence-Teams“, das erst sechs Monate zuvor gegründet worden war. MICROSOFT kündigte Pläne zur Entwicklung fortschrittlicher KI-Modelle bis 2027 an. – First Squawk (@FirstSquawk) 2. April 2026 MSFT-Aktien erlebten ihr schwierigstes Quartal seit 2008 und fielen seit Jahresbeginn um etwa 17 %. Diese Modelleinführung markiert Suleimans erste öffentliche Reaktion auf die Forderungen der Aktionäre nach sinnvollen Renditen für umfangreiche KI-Investitionen. MAI-Transcribe-1 ist das Flaggschiff-Angebot. Es liefert die niedrigste durchschnittliche Wortfehlerrate im FLEURS-Benchmark für die 25 am häufigsten in Microsoft-Produkten verwendeten Sprachen und liegt bei durchschnittlich 3,8 %. Das Unternehmen behauptet, dass es die Whisper-large-v3-Leistung von OpenAI in allen 25 Sprachen übertrifft und Googles Gemini 3.1 Flash in 22 von 25 Sprachen übertrifft. Das System verarbeitet MP3-, WAV- und FLAC-Dateien mit bis zu 200 MB, wobei die Stapelverarbeitungsgeschwindigkeit 2,5-mal schneller ist als bei aktuellen Azure-Lösungen. Die Tests in Teams und Copilot Voice laufen bereits. MAI-Voice-1 erzeugt 60 Sekunden realistische Audioausgabe in nur einer Sekunde und ermöglicht die individuelle Sprachgenerierung aus minimalen Audio-Samples, die nur Sekunden dauern. Der Preis beträgt 22 US-Dollar pro Million Zeichen. MAI-Image-2 sicherte sich einen Platz unter den ersten drei auf der Arena.ai-Bestenliste und wird in Bing und PowerPoint integriert. Der Preis beträgt 5 US-Dollar pro Million Eingabe-Tokens und 33 US-Dollar pro Million Bild-Ausgabe-Tokens. WPP hat sich zu einem frühen Unternehmensanwender entwickelt, der die Technologie in großem Maßstab implementiert. Diese Produkteinführung hätte nicht zwölf Monate früher stattfinden können. Bis Oktober 2025 war Microsoft im Rahmen seiner ursprünglichen OpenAI-Vereinbarung von 2019 mit vertraglichen Beschränkungen konfrontiert, die eine unabhängige Entwicklung künstlicher allgemeiner Intelligenz verhinderten. Als OpenAI nach zusätzlichen Rechenressourcen über Microsoft hinaus suchte und Partnerschaften mit SoftBank und anderen aufbaute, leitete Microsoft Vertragsneuverhandlungen ein. Die aktualisierte Vereinbarung ermöglicht es Microsoft, proprietäre Grenzmodelle zu entwickeln und gleichzeitig die Lizenzrechte an den Entwicklungen von OpenAI bis 2032 zu behalten. Suleiman erklärte gegenüber VentureBeat: „Bereits im September letzten Jahres haben wir den Vertrag mit OpenAI neu ausgehandelt, und das hat es uns ermöglicht, unabhängig unsere eigene Superintelligenz zu verfolgen.“ Er betonte, dass die OpenAI-Partnerschaft mindestens bis 2032 andauere. Zu den auffälligsten Enthüllungen der Ankündigung gehörte, dass jedes Modell von Entwicklungsteams mit weniger als 10 Ingenieuren erstellt wurde. Suleiman gab an, dass das Audiomodellteam aus 10 Personen bestand, wobei die Leistungsverbesserungen eher auf Architekturentscheidungen und Datenkuratierung als auf eine Erweiterung der Belegschaft zurückzuführen waren. „Unser Bildteam besteht ebenfalls aus weniger als zehn Leuten“, bemerkte er. Diese Methodik steht in krassem Gegensatz zu den vorherrschenden Branchenpraktiken, in denen Organisationen wie Meta angeblich die Vergütungspakete für einzelne Forscher auf 100 bis 200 Millionen US-Dollar ausgeweitet haben. Microsoft betont seine bewusst wettbewerbsfähige Preisgestaltung, die darauf abzielt, Amazon und Google zu unterbieten. Suleiman bezeichnete es als „das günstigste aller Hyperscaler“. Die Organisation plant bereits bahnbrechende GPU-Cluster-Implementierungen in den kommenden 12 bis 18 Monaten. Suleiman bestätigte, dass ein großes Sprachmodell auf der Entwicklungs-Roadmap steht, und erklärte, dass Microsoft bestrebt sei, „völlig unabhängig“ zu werden und gleichzeitig „modernste Modelle über alle Modalitäten hinweg“ bereitzustellen.