微软 (MSFT) 在重大战略转变中推出三种专有人工智能模型

周三，微软在人工智能竞赛中采取了迄今为止最大胆的举措，推出了三种专有模型，使这家科技巨头成为 OpenAI、谷歌和新兴人工智能公司的直接竞争对手。微软公司、MSFT 新发布的三重奏——MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2——现在可以通过 Microsoft Foundry 和专用的 MAI Playground 进行访问。这些工具包括语音识别、语音合成和视觉内容生成。微软人工智能首席执行官穆斯塔法·苏莱曼 (Mustafa Suleiman) 将此次首次亮相描述为他的“超级智能团队”的首个产品，该团队仅在六个月前成立。微软宣布计划到 2027 年开发先进的人工智能模型。 — First Squawk (@FirstSquawk) 2026 年 4 月 2 日 MSFT 股价经历了 2008 年以来最具挑战性的季度，今年迄今下跌了约 17%。这一模型的推出标志着苏莱曼首次公开回应股东要求大量人工智能投资获得有意义回报的要求。 MAI-Transcribe-1 是旗舰产品。在 Microsoft 产品中使用的前 25 种语言的 FLEURS 基准测试中，它的平均单词错误率最低，平均为 3.8%。该公司声称，它在所有 25 种语言上都超过了 OpenAI 的 Whisper-large-v3 性能，并在 25 种语言中的 22 种上超过了 Google 的 Gemini 3.1 Flash。该系统可处理高达 200MB 的 MP3、WAV 和 FLAC 文件，批处理速度比当前 Azure 解决方案快 2.5 倍。 Teams 和 Copilot Voice 已在进行测试。 MAI-Voice-1 只需一秒即可产生 60 秒的真实音频输出，并能够从仅持续几秒的最小音频样本生成自定义语音。定价为每百万字符 22 美元。 MAI-Image-2 在 Arena.ai 排行榜上占据了前三名的位置，并且正在集成到 Bing 和 PowerPoint 中，定价为每百万输入代币 5 美元和每百万图像输出代币 33 美元。 WPP 已成为大规模实施该技术的早期企业采用者。该产品不可能提前十二个月发布。截至 2025 年 10 月，微软在其最初的 2019 年 OpenAI 协议下面临着阻止独立通用人工智能开发的合同限制。当 OpenAI 寻求微软以外的额外计算资源（与软银和其他公司建立合作伙伴关系）时，微软启动了合同重新谈判。更新后的协议允许微软开发专有的前沿模型，同时在 2032 年之前保留 OpenAI 开发成果的许可权。Suleiman 向 VentureBeat 解释道：“早在去年 9 月，我们就与 OpenAI 重新谈判了合同，这使我们能够独立追求自己的超级智能。”他强调 OpenAI 的合作伙伴关系至少会持续到 2032 年。此次公告中最引人注目的启示之一是：由 10 名以下工程师组成的开发团队创建了每个模型。 Suleiman 表示音频模型团队由 10 人组成，性能改进源于架构选择和数据管理，而不是劳动力扩张。 “我们的形象团队同样不到 10 人，”他指出。这种方法与流行的行业惯例形成鲜明对比，据称 Meta 等组织已将个人研究人员的薪酬方案从 1 亿美元延长到 2 亿美元。微软强调其有意竞争的定价——旨在削弱亚马逊和谷歌的优势。苏莱曼将其称为“所有超大规模企业中最便宜的”。该组织已经规划出未来 12 到 18 个月内前沿规模的 GPU 集群部署。 Suleiman 证实，开发路线图上出现了一个大型语言模型，并表示微软的目标是“完全独立”，同时提供“跨所有模式的最先进的模型”。