Mit MAI-Voice-1 liefert
Microsoft ein besonders schnelles Sprachmodell für natürliche, ausdrucksstarke Stimmen. Parallel erprobt das Team mit MAI-1-preview sein erstes durchgängig intern entwickeltes Grundmodell, das zunächst über LMArena bewertet und schrittweise in Copilot eingebunden wird. Beides ist Teil der seit 2024 verfolgten Strategie, neben den OpenAI-Modellen eigene Basismodelle aufzubauen (IT Magazine
berichtete).
Laut Microsoft kann MAI-Voice-1 auf einer einzelnen GPU rund eine Minute Audio in weniger als einer Sekunde erzeugen und eignet sich für Szenarien mit einem oder mehreren Sprechern. Neben der Integration in Copilot Daily und Podcasts lässt sich das Modell in
Copilot Labs ausprobieren – inklusive Demos für Erzähldialoge und ausdrucksstarke Sprachvarianten.
MAI-1-preview ist ein Mixture-of-Experts-Modell, das auf etwa 15'000 Nvidia H100-GPUs vor- und nachtrainiert wurde. Es ziele auf gutes Befolgen von Anweisungen und hilfreiche Antworten im Alltag und soll in den kommenden Wochen für ausgewählte Textanwendungsfälle in Copilot ausgerollt werden. Zusätzlich stehe die Vorschau auf LMArena zur Community-Bewertung bereit, und vertrauenswürdige Tester können über eine API Zugang anfragen. Microsoft betont, dass MAI-1-preview die Partnermodelle – etwa von OpenAI sowie aus der Open-Source-Community – nicht ersetzt, man wolle je nach Aufgabe die jeweils besten Modelle orchestrieren.
Strategisch ordnet Microsoft AI die beiden Modelle in die Mission "KI für alle" ein. Das Team verweist zudem auf eine bereits betriebsbereite Next-Gen-Infrastruktur (GB200-Cluster) für die weitere Modellentwicklung und kündigt zusätzliche Verbesserungen in den kommenden Monaten an.
(dow)