美国政府称中国最好的人工智能模型落后。专家不太确定

简而言之
CAISI 的评估结果显示 DeepSeek V4 Pro 比美国领先水平晚了 8 个月,该评估使用基于 IRT 的评分系统,涵盖九个基准(包括两个私人的、无法验证的数据集)。
成本比较排除了所有被认为太贵或太弱的美国型号,只留下 GPT-5.4 mini,而 DeepSeek 在七个基准测试中的五个中仍然更便宜。
斯坦福大学 2026 年人工智能指数发现,中美在公共排行榜上的表现差距已缩小至 2.7%。
美国一家政府机构公布了对中国最强大人工智能的结论:落后了八个月,而且时间越长,差距就越大。互联网阅读了该方法并开始提出问题。
NIST 旗下人工智能标准与创新中心 CAISI 于 5 月 1 日发布了对 DeepSeek V4 Pro 的评估。结论是:DeepSeek 的开放重量旗舰产品“落后前沿约 8 个月”。
蔡斯还称其为迄今为止评估过的最有能力的中国人工智能模型。
评分系统
CAISI 不像大多数评估者那样平均基准分数。相反,它应用项目反应理论(标准化测试的一种统计方法)来评估每个模型的潜在能力,通过跟踪它解决的问题和不解决的问题,跨越五个领域的九个基准:网络安全、软件工程、自然科学、抽象推理和数学。
IRT 估计的 Elo 分数:GPT-5.5 为 1,260 分,Anthropic 的 Claude Opus 4.6 为 999 分。DeepSeek V4 Pro 得分约为 800 (±28),非常接近 GPT-5.4 mini 的 749 分。在 CAISI 的系统中,DeepSeek 更接近老一代的 GPT mini,而不是 Opus。
基准分数中的评分系统模拟了标准化测试对学生进行评分的方式——不是通过原始的正确百分比,而是通过对他们解决的问题和错过的问题进行加权,产生一个仅与同一评估中的其他模型相关的分数估计。一般来说,分数越多,模型就越好,最好模型的分数成为衡量模型能力的参考点。
不可能重现 CAISI 的结果,因为九个基准中有两个是非公开的,而这两个基准中差距最大。例如,GPT-5.5 在 CAISI 的网络安全测试之一 CTF-Archive-Diamond 上得分为 71%,而 DeepSeek 得分约为 32%。
在公共基准上,情况发生了变化。 GPQA-Diamond(博士级科学推理,按正确百分比评分)将 DeepSeek 评为 90%,比 Opus 4.6 的 91% 落后一分。数学奥林匹克基准测试(OTIS-AIME-2025、PUMaC 2024、SMT 2025)将 DeepSeek 的得分定为 97%、96% 和 96%。在 SWE-Bench Verified(真正的 GitHub 错误修复,以解决百分比进行评分)上,DeepSeek 得分为 74%,GPT-5.5 得分为 81%。 DeepSeek 自己的技术报告声称 V4 Pro 与 Opus 4.6 和 GPT-5.4 匹配。
为了进行成本比较,CAISI 过滤掉了任何表现明显比 DeepSeek 差或每个代币成本明显高于 DeepSeek 的美国模型。只有一款型号通过了标准:GPT-5.4 mini。这是整个美国边境,被过滤为一个条目。
DeepSeek 在 7 个基准测试中的 5 个上表现更便宜,甚至击败了 OpenAI 最小且能力最差的 AI 模型。
反驳:差距是大了还是小了?
批评 CAISI 的方法并不能完全证明 DeepSeek 的正确性。这位化名 Ex0bit 的 AI 开发者直接反驳道:“不存在‘差距’,也没有人落后 8 个月。我们在美国的每一次收盘下跌中都受到了困扰,并在开放的权重中继续前进。”
不存在“差距”,没有人落后 8 个月。我们在美国的每一次封闭式下降中都受到了困扰,并在开放式举重中表现出色。 https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO
— 埃里克 (@Ex0byt) 2026 年 5 月 2 日
人工智能分析智能指数 v4.0(一个通过 10 项评估跟踪前沿模型智能的评级系统)显示,截至 2026 年 5 月,OpenAI 接近 60 分,DeepSeek 处于 50 多分左右,压缩程度比一年前要严格得多。
根据标准化基准,他们的方法显示差距实际上正在缩小。
当 DeepSeek 于 2025 年 1 月首次出现时,问题是中国是否已经迎头赶上。美国实验室纷纷做出回应。斯坦福大学 2026 年 AI 指数(4 月 13 日发布)报告称,Claude Opus 4.6 和中国的 Dola-Seed-2.0 Preview 之间的 Arena 排行榜差距正在缩小,目前差距仅为 2.7%。
CAISI 计划在不久的将来发布更全面的 IRT 方法论。