美国政府称中国最好的人工智能模型落后。专家不太确定

简而言之

CAISI 的评估结果显示 DeepSeek V4 Pro 比美国领先水平晚了 8 个月，该评估使用基于 IRT 的评分系统，涵盖九个基准（包括两个私人的、无法验证的数据集）。

成本比较排除了所有被认为太贵或太弱的美国型号，只留下 GPT-5.4 mini，而 DeepSeek 在七个基准测试中的五个中仍然更便宜。

斯坦福大学 2026 年人工智能指数发现，中美在公共排行榜上的表现差距已缩小至 2.7%。

美国一家政府机构公布了对中国最强大人工智能的结论：落后了八个月，而且时间越长，差距就越大。互联网阅读了该方法并开始提出问题。

NIST 旗下人工智能标准与创新中心 CAISI 于 5 月 1 日发布了对 DeepSeek V4 Pro 的评估。结论是：DeepSeek 的开放重量旗舰产品“落后前沿约 8 个月”。

蔡斯还称其为迄今为止评估过的最有能力的中国人工智能模型。

评分系统

CAISI 不像大多数评估者那样平均基准分数。相反，它应用项目反应理论（标准化测试的一种统计方法）来评估每个模型的潜在能力，通过跟踪它解决的问题和不解决的问题，跨越五个领域的九个基准：网络安全、软件工程、自然科学、抽象推理和数学。

IRT 估计的 Elo 分数：GPT-5.5 为 1,260 分，Anthropic 的 Claude Opus 4.6 为 999 分。DeepSeek V4 Pro 得分约为 800 (±28)，非常接近 GPT-5.4 mini 的 749 分。在 CAISI 的系统中，DeepSeek 更接近老一代的 GPT mini，而不是 Opus。

基准分数中的评分系统模拟了标准化测试对学生进行评分的方式——不是通过原始的正确百分比，而是通过对他们解决的问题和错过的问题进行加权，产生一个仅与同一评估中的其他模型相关的分数估计。一般来说，分数越多，模型就越好，最好模型的分数成为衡量模型能力的参考点。

不可能重现 CAISI 的结果，因为九个基准中有两个是非公开的，而这两个基准中差距最大。例如，GPT-5.5 在 CAISI 的网络安全测试之一 CTF-Archive-Diamond 上得分为 71%，而 DeepSeek 得分约为 32%。

在公共基准上，情况发生了变化。 GPQA-Diamond（博士级科学推理，按正确百分比评分）将 DeepSeek 评为 90%，比 Opus 4.6 的 91% 落后一分。数学奥林匹克基准测试（OTIS-AIME-2025、PUMaC 2024、SMT 2025）将 DeepSeek 的得分定为 97%、96% 和 96%。在 SWE-Bench Verified（真正的 GitHub 错误修复，以解决百分比进行评分）上，DeepSeek 得分为 74%，GPT-5.5 得分为 81%。 DeepSeek 自己的技术报告声称 V4 Pro 与 Opus 4.6 和 GPT-5.4 匹配。

为了进行成本比较，CAISI 过滤掉了任何表现明显比 DeepSeek 差或每个代币成本明显高于 DeepSeek 的美国模型。只有一款型号通过了标准：GPT-5.4 mini。这是整个美国边境，被过滤为一个条目。

DeepSeek 在 7 个基准测试中的 5 个上表现更便宜，甚至击败了 OpenAI 最小且能力最差的 AI 模型。

反驳：差距是大了还是小了？

批评 CAISI 的方法并不能完全证明 DeepSeek 的正确性。这位化名 Ex0bit 的 AI 开发者直接反驳道：“不存在‘差距’，也没有人落后 8 个月。我们在美国的每一次收盘下跌中都受到了困扰，并在开放的权重中继续前进。”

不存在“差距”，没有人落后 8 个月。我们在美国的每一次封闭式下降中都受到了困扰，并在开放式举重中表现出色。 https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO

— 埃里克 (@Ex0byt) 2026 年 5 月 2 日

人工智能分析智能指数 v4.0（一个通过 10 项评估跟踪前沿模型智能的评级系统）显示，截至 2026 年 5 月，OpenAI 接近 60 分，DeepSeek 处于 50 多分左右，压缩程度比一年前要严格得多。

根据标准化基准，他们的方法显示差距实际上正在缩小。

当 DeepSeek 于 2025 年 1 月首次出现时，问题是中国是否已经迎头赶上。美国实验室纷纷做出回应。斯坦福大学 2026 年 AI 指数（4 月 13 日发布）报告称，Claude Opus 4.6 和中国的 Dola-Seed-2.0 Preview 之间的 Arena 排行榜差距正在缩小，目前差距仅为 2.7%。

CAISI 计划在不久的将来发布更全面的 IRT 方法论。