Правительство США заявляет, что лучшие китайские модели искусственного интеллекта отстают. Эксперты не так уверены

Вкратце

По оценке CAISI, DeepSeek V4 Pro на восемь месяцев отстает от границы США, используя систему оценки на основе IRT по девяти критериям, включая два частных, не поддающихся проверке набора данных.

Из сравнения стоимости были исключены все американские модели, которые были признаны слишком дорогими или слишком слабыми, и осталась только GPT-5.4 mini, по сравнению с которой DeepSeek все еще был дешевле в пяти из семи тестов.

Индекс искусственного интеллекта Стэнфорда за 2026 год показал, что разрыв в производительности США и Китая в публичных списках лидеров сократился до 2,7%.

Правительственный институт США опубликовал свой вердикт по самому мощному искусственному интеллекту Китая: задержка на восемь месяцев, и чем больше времени проходит, тем больше становится разрыв. В интернете прочитали методику и начали задавать вопросы.

CAISI — Центр стандартов и инноваций искусственного интеллекта, подразделение NIST — опубликовал свою оценку DeepSeek V4 Pro 1 мая. Вывод: флагман DeepSeek в открытом весе «отстает от передового уровня примерно на 8 месяцев».

CAISI также называет его самой мощной китайской моделью искусственного интеллекта, которую она когда-либо оценивала.

Система начисления очков

CAISI не усредняет контрольные баллы, как это делают большинство оценщиков. Вместо этого он применяет теорию ответа на предмет — статистический метод стандартизированного тестирования — для оценки скрытых возможностей каждой модели, отслеживая, какие проблемы она решает, а какие нет, по девяти критериям в пяти областях: кибербезопасность, разработка программного обеспечения, естественные науки, абстрактное мышление и математика.

Оценка Elo по оценкам IRT: GPT-5.5 — 1260 баллов, Claude Opus от Anthropic — 4,6 — 999. DeepSeek V4 Pro набирает около 800 (±28), что очень близко к GPT-5.4 mini — 749. В системе CAISI DeepSeek находится ближе к старому поколению GPT mini, чем к Opus.

Система баллов в контрольных тестах моделирует способ оценки учащихся в стандартизированных тестах — не по простому проценту правильных ответов, а путем взвешивания того, какие задачи они решают, а какие пропускают, создавая оценку в баллах, которая что-то значит только по сравнению с другими моделями в той же оценке. Чем больше баллов, тем лучше модель в целом, при этом лучший результат модели становится ориентиром для оценки ее возможностей.

Воспроизвести результаты CAISI невозможно, поскольку два из девяти показателей являются закрытыми, и в этих двух показателях разрыв самый большой. Например, GPT-5.5 набрал 71% в CTF-Archive-Diamond, одном из тестов кибербезопасности CAISI, а DeepSeek набрал около 32%.

По общественным показателям картина меняется. GPQA-Diamond — научные рассуждения на уровне доктора философии, оцененные как процент правильных — поставил DeepSeek на 90%, что на один балл ниже 91% у Opus 4.6. Результаты олимпиады по математике (OTIS-AIME-2025, PUMaC 2024, SMT 2025) оценивают DeepSeek на уровне 97%, 96% и 96%. По результатам проверки SWE-Bench — реальных исправлений ошибок GitHub, оцененных в процентах от решенных — DeepSeek набрал 74% против 81% у GPT-5.5. В собственном техническом отчете DeepSeek утверждается, что V4 Pro соответствует Opus 4.6 и GPT-5.4.

Для сравнения затрат CAISI отфильтровал все американские модели, которые работали значительно хуже или стоили значительно дороже за токен, чем DeepSeek. Планку превзошла только одна модель: GPT-5.4 mini. Это вся граница США, отфильтрованная до одной записи.

DeepSeek оказался дешевле в 5 из 7 тестов, даже обойдя самую крошечную и наименее производительную модель искусственного интеллекта OpenAI.

Контраргумент: разрыв больше или меньше?

Критика методологии CAISI не полностью оправдывает DeepSeek. Разработчик искусственного интеллекта под псевдонимом Ex0bit ответил прямо: «Никакого «разрыва» нет, и никто не отстает на 8 месяцев. Нас троллили на каждом закрытом выпуске в США и подталкивали к открытым весам».

Нет никакого «разрыва», и никто не отстает на 8 месяцев. Нас троллили на каждом закрытом дропе в США и накачивали открытыми весами. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO

– Эрик (@Ex0byt) 2 мая 2026 г.

Индекс искусственного анализа интеллекта версии 4.0 — рейтинговая система, отслеживающая передовой интеллект модели по 10 оценкам, — показывает, что OpenAI набирает около 60 баллов, а DeepSeek — около 50 баллов по состоянию на май 2026 года, что сжато гораздо сильнее, чем год назад.

Их методология, основанная на стандартизированных тестах, показывает, что разрыв на самом деле становится меньше.

Когда DeepSeek впервые появился в январе 2025 года, вопрос заключался в том, догнал ли уже Китай. Лаборатории США поспешили отреагировать. Стэнфордский индекс искусственного интеллекта за 2026 год, опубликованный 13 апреля, сообщает, что разрыв в таблице лидеров Arena между Claude Opus 4.6 и китайской Dola-Seed-2.0 Preview сокращается, и теперь их разница составляет всего 2,7%.

CAISI планирует опубликовать более полное описание методологии IRT в ближайшем будущем.