El gobierno de Estados Unidos dice que los mejores modelos de IA de China se quedan atrás. Los expertos no están tan seguros

En breve
La evaluación de CAISI clasificó a DeepSeek V4 Pro ocho meses detrás de la frontera de EE. UU., utilizando un sistema de puntuación basado en IRT en nueve puntos de referencia, incluidos dos conjuntos de datos privados y no verificables.
La comparación de costos excluyó todos los modelos estadounidenses considerados demasiado caros o demasiado débiles, dejando solo el GPT-5.4 mini, frente al cual DeepSeek seguía siendo más barato en cinco de siete puntos de referencia.
El índice de IA 2026 de Stanford encontró que la brecha de desempeño entre Estados Unidos y China en las tablas de clasificación públicas se había derrumbado al 2,7%.
Un instituto del gobierno estadounidense publicó su veredicto sobre la IA más poderosa de China: ocho meses de retraso, y cuanto más tiempo pasa, más amplia se hace la brecha. Internet leyó la metodología y comenzó a hacer preguntas.
CAISI, el Centro de Estándares e Innovación de IA, una unidad dentro del NIST, publicó su evaluación de DeepSeek V4 Pro el 1 de mayo. La conclusión: el buque insignia de peso abierto de DeepSeek "está atrasado con respecto a la frontera en aproximadamente 8 meses".
CAISI también lo considera el modelo de IA chino más capaz que haya evaluado hasta la fecha.
El sistema de puntuación
CAISI no promedia las puntuaciones de referencia como lo hacen la mayoría de los evaluadores. En cambio, aplica la teoría de respuesta al ítem, un método estadístico de pruebas estandarizadas, para estimar la capacidad latente de cada modelo mediante el seguimiento de qué problemas resuelve y cuáles no, a través de nueve puntos de referencia en cinco dominios: ciberseguridad, ingeniería de software, ciencias naturales, razonamiento abstracto y matemáticas.
Las puntuaciones Elo estimadas por IRT: GPT-5.5 con 1260 puntos, Claude Opus 4.6 de Anthropic con 999. DeepSeek V4 Pro obtiene una puntuación de alrededor de 800 (±28), que está muy cerca de GPT-5.4 mini con 749. En el sistema de CAISI, DeepSeek se ubica más cerca de la antigua generación de GPT mini que de Opus.
El sistema de puntos en los puntos de referencia modela la forma en que las pruebas estandarizadas califican a los estudiantes: no por porcentaje bruto de aciertos, sino ponderando qué problemas resuelven y cuáles fallan, produciendo una estimación de puntos que sólo significa algo relativo a otros modelos en la misma evaluación. Cuantos más puntos, mejor será el modelo en términos generales, y la puntuación del mejor modelo se convertirá en el punto de referencia para ver qué tan capaz es un modelo.
Es imposible reproducir los resultados de CAISI porque dos de los nueve puntos de referencia no son públicos, y en esos dos puntos de referencia es donde la brecha es más amplia. Por ejemplo, GPT-5.5 obtuvo una puntuación del 71 % en CTF-Archive-Diamond, una de las pruebas de ciberseguridad de CAISI, y DeepSeek registró alrededor del 32 %.
En los puntos de referencia públicos, el panorama cambia. GPQA-Diamond (razonamiento científico a nivel de doctorado, calificado como porcentaje correcto) colocó a DeepSeek en 90%, un punto detrás del 91% de Opus 4.6. Los puntos de referencia de la Olimpiada de Matemáticas (OTIS-AIME-2025, PUMaC 2024, SMT 2025) sitúan a DeepSeek en 97%, 96% y 96%. En SWE-Bench Verified (correcciones de errores reales de GitHub, calificadas como porcentaje resuelto), DeepSeek obtuvo una puntuación del 74 % frente al 81 % de GPT-5.5. El propio informe técnico de DeepSeek afirma que V4 Pro coincide con Opus 4.6 y GPT-5.4.
Para comparar costos, CAISI filtró cualquier modelo estadounidense que tuviera un rendimiento significativamente peor o que costara significativamente más por token que DeepSeek. Sólo un modelo superó el listón: GPT-5.4 mini. Esa es toda la frontera estadounidense, filtrada a una sola entrada.
DeepSeek resultó más barato en 5 de 7 puntos de referencia, incluso superando al modelo de IA más pequeño y menos capaz de OpenAI.
El contraargumento: ¿la brecha es mayor o menor?
Criticar la metodología de CAISI no reivindica completamente a DeepSeek. El desarrollador de IA bajo el seudónimo Ex0bit respondió directamente: "No hay 'brecha', y nadie lleva 8 meses de retraso. Nos han troleado en cada caída cerrada de EE. UU. y nos han presionado con pesas abiertas".
No hay ninguna “brecha” y nadie lleva 8 meses de retraso. Nos han troleado en cada caída cerrada de EE. UU. y nos han presionado con pesas abiertas. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO
– Eric (@Ex0byt) 2 de mayo de 2026
El Índice de Inteligencia de Análisis Artificial v4.0, un sistema de calificación que rastrea la inteligencia de modelos de frontera en 10 evaluaciones, muestra OpenAI cerca de 60 puntos y DeepSeek en los 50 bajos en mayo de 2026, comprimidos mucho más que hace un año.
Basada en puntos de referencia estandarizados, su metodología muestra que la brecha en realidad se está reduciendo.
Cuando DeepSeek surgió por primera vez en enero de 2025, la pregunta era si China ya se había puesto al día. Los laboratorios estadounidenses se apresuraron a responder. El índice de IA 2026 de Stanford, publicado el 13 de abril, informa que la brecha en la clasificación de Arena entre Claude Opus 4.6 y Dola-Seed-2.0 Preview de China se está reduciendo, separados ahora por solo un 2,7%.
CAISI planea publicar un informe más completo sobre la metodología IRT en un futuro próximo.