Claude Opus 4.7 来了:Anthropic 的最新模型交付了,但它是一个吃代币的机器

简而言之
Anthropic 刚刚发布了迄今为止最强大的 Opus 模型,Claude Opus 4.7。
该模型在编码和推理方面提供了强劲的基准收益,但不是 Anthropic 向精选合作伙伴提供的有争议的 Mythos 模型。
Claude Opus 4.7 显示了明显的思想链和异常高的代币使用率。
Anthropic 今天发布了 Claude Opus 4.7,称其为该公司迄今为止功能最强大的 Opus 型号。我们对其进行了测试,营销效果与结果相符。
“我们的最新型号 Claude Opus 4.7 现已全面上市。”该公司在其官方公告中表示。 “用户表示能够放心地将他们最困难的编码工作(以前需要密切监督的工作)交给 Opus 4.7。”
该型号是在用户抱怨 Opus 4.6 据称失去优势数周后推出的。 GitHub、Reddit 和 X 上的开发者记录了他们所谓的“AI 收缩膨胀”——感觉他们一直花钱购买的模型已经悄然变得更糟。正如我们昨天报道的那样,Anthropic 已经在准备 4.7,同时还有一些更强大但无法公开发布的东西:Claude Mythos。
当今天早上宣布这一消息时,那些对 4.6 降级反应最强烈的 X 用户很快就以讽刺的方式回应:有些人开玩笑说,Opus 4.7 感觉就像“早期的 Opus 4.6”——人们真正喜欢的版本,然后他们相信 Anthropic 悄悄地把旋钮调低了。当然,Anthropic 否认曾通过降低模型权重来管理计算需求。
欢迎回来 opus 4.6 pic.twitter.com/hpwNkrq1tD
— Dev Ed (@developmentbyed) 2026 年 4 月 16 日
基准支持了 Anthropic 的主张。在衡量编码技能的 SWE-bench Multilingual 基准上,Opus 4.7 的得分为 80.5%,而 4.6 的得分为 77.8%。
在 GDPVal-AA(对金融和法律领域具有经济价值的知识工作的第三方评估)上,4.7 的 Elo 得分为 1,753,而 GPT-5.4 的得分为 1,674,明显领先于最接近的竞争对手。
通过 OfficeQA Pro 进行的文档推理显示出最明显的跳跃:4.7 为 80.6%,4.6 为 57.1%,GPT-5.4 和 Gemini 3.1 Pro 分别为 51.1% 和 42.9%。 Vending-Bench 2 的长期一致性是一个衡量模型在长上下文和推理任务(例如拥有一家自动售货公司)上的表现的基准,其货币余额为 10,937 美元,而 4.6 的货币余额为 8,018 美元——衡量模型在长期自主运行中维持有用行为的程度。
网络安全是 Anthropic 刻意回避的领域之一。 Opus 4.7 推出了自动防护措施,可以检测并阻止禁止或高风险的网络安全请求。 Anthropic 证实,它在训练期间“尝试了不同程度地降低”4.7 的网络能力。
安全专业人员可以申请新的网络验证计划来访问这些功能。这是该公司对其最终需要大规模部署 Mythos 级模型的保障措施的测试。
Opus 4.7 是公开发布的最强大的模型。 Mythos Preview 是 Anthropic 真正的前沿模型,仍然仅限于经过审查的安全公司。正如英国人工智能安全研究所上周评估的那样,Mythos 是第一个完成“The Last Ones”的人工智能,这是一个 32 步的企业网络攻击模拟,通常需要人类红队 20 个小时的时间。
Opus 4.7 并非如此。但 Anthropic 将使用面向公众的模型来了解这些安全护栏在野外如何保持,然后才敢于释放任何更可怕的东西。
在令牌方面,Opus 4.7 使用更新的令牌生成器,可以根据内容类型将相同的输入映射到大约 1.0 倍到 1.35 倍的令牌。该模型还在更高的努力水平上进行更多推理,特别是在代理工作流程的后期阶段。 Anthropic 为计划从 4.6 升级的开发人员发布了迁移指南。
我们运行了自己的测试——与我们用来评估每个主要模型版本的游戏构建提示相同。 Opus 4.7 产生了我们从任何模型中获得的最佳结果。视觉效果最精美的游戏,最具挑战性的难度曲线,最好的机制,以及最具创意的输赢屏幕。它似乎是按程序生成关卡的,而且没有一个感觉是不可能的——这种平衡已经多次绊倒其他模型。
您可以在这里测试游戏
Emerge:游戏,由 Claude Opus 4.7 创建
这不是零射击。 Opus 4.6 已经通过了相同的测试,没有任何修复。 Opus 4.7 需要一轮错误修复。这可能是运气不好——单次迭代是一个薄样本——但值得注意。更让我们震惊的是模型如何处理这一轮:它自己发现了额外的错误,而不是被引导去发现它们。 Opus 4.6 通常等待被告知去哪里寻找。
小米 MiMo v2 Pro 是迄今为止效果最好的型号,但与 Opus 不同的是,它无需多次迭代即可产生工作结果。有些人可能会说它在视觉上更令人愉悦并且有配乐,这是一个优势,但游戏的逻辑和物理