Cryptonews

重大升级揭晓:Opus 4.8 速度提升 300%,定价大幅下调,备受期待的 Mythos 即将推出

Source
CryptoNewsTrend
Published
重大升级揭晓:Opus 4.8 速度提升 300%,定价大幅下调,备受期待的 Mythos 即将推出

Anthropic 于周三宣布发布 Claude Opus 4.8,将快速模式定价降低了三分之二。该公司暗示其最强大的模型 Mythos 将在几周内向所有用户提供。

根据 Anthropic 的博客,Opus 4.8 的标准定价保持不变,即每百万代币投入 5 美元,产出 25 美元。

Opus 4.8 低于 GPT-5.5 并在大多数基准测试中击败它

快速模式现在每百万代币的输入成本为 10 美元,输出成本为 50 美元,速度为 2.5 倍。在 Opus 4.7 上,同一级别的价格为 30 美元/150 美元。按照标准费率,Opus 4.8 每百万输出代币收费 25 美元。 GPT-5.5 收费 30 美元。

基准测试

作品 4.7

作品 4.8

GPT-5.5

双子座3.1专业版

SWE 工作台 Pro

64.3%

69.2%

58.6%

54.2%

SWE-bench 已验证

87.6%

88.6%

USAMO 2026 数学

69.3%

96.7%

终端工作台 2.1

66.1%

74.6%

GraphWalks F1(1M 代币)

40.3%

68.1%

在线-Mind2Web

84%

低于84%

GPT-5.5 在终端和 CLI 工作流程方面具有优势。 VentureBeat 报告称,Opus 4.8 在至少 12 个跨越知识工作、代理工具使用和长上下文任务的基准测试中优于 GPT-5.5。

企业合作伙伴确认了生产收益。 Databricks 报告称,通过 PDF 和图表的多模式效率,其 Genie 数据代理内部“代理推理发生了一步变化”,“代币成本比 Opus 4.7 便宜 61%”。

Cognition 表示 4.8 修复了 4.7 中的注释冗长和工具调用问题。赫比亚指出,密集的财务文件的引用精度更高。

Opus 4.8 的错位得分与 Mythos 相当

Anthropic 的对齐团队使用 Opus 4.8 进行了约 2,600 次模拟调查。他们发现 Opus 4.7 的错位率约为 1.9,而 Opus 4.7 的错位率为 2.5。这个值几乎与Mythos Preview持平。

该模型让自己生成的代码中的缺陷通过而不标记它们的可能性比 4.7 低四倍。它在不加批判地报告有缺陷的结果方面得分为 0%,这是第一个达到该分数的 Claude 模型。

人类提出了一个担忧。人类确定了一个值得关注的领域。在大约 5% 的训练实例中,模型在不知道自己正在接受评估的情况下就开始推理评估标准。

据 VentureBeat 报道,该公司表示,这并没有产生更糟糕的可观察行为,但称其为“一个令人担忧的趋势,可能会使未来的培训变得复杂”。

Mythos Preview 仍然仅限于 Glasswing 项目下的少数组织进行网络安全工作。据 Axios 报道,Anthropic 表示,一旦额外的网络安全措施到位,预计将在未来几周内向所有客户提供 Mythos 级模型。该公司还预告了更便宜的型号,这些型号将提供“许多与 Opus 相同的功能”。

正如 Cryptopolitan 在 11 月份发布 Opus 4.5 时所指出的那样,自 2026 年以来,Anthropic 的发布计划大约是每两个月一次。Opus 4.8 在 Opus 4.7 发布后仅 41 天就到来,加快了这一计划。

同周 DeepSeek 差距扩大

两天前,DeepSeek 将 V4-Pro 产出定价永久下调至每百万代币 0.87 美元。 Opus 4.8 标准输出为 25 美元。快速模式售价 50 美元。

加密货币交易机器人和 DeFi 代理每个会话处理数百万个代币。就这些数量而言,DeepSeek 的成本为 0.87 美元是有道理的。 Opus 的 25 美元费用则不然。