Le gouvernement américain affirme que les meilleurs modèles d'IA chinois sont à la traîne. Les experts n'en sont pas si sûrs

En bref

L'évaluation de CAISI a classé DeepSeek V4 Pro avec huit mois de retard par rapport à la frontière américaine, en utilisant un système de notation basé sur l'IRT sur neuf critères, dont deux ensembles de données privés et invérifiables.

La comparaison des coûts exclut tous les modèles américains jugés trop chers ou trop faibles, ne laissant que le GPT-5.4 mini, contre lequel DeepSeek était encore moins cher sur cinq des sept benchmarks.

L'indice AI 2026 de Stanford a révélé que l'écart de performance entre les États-Unis et la Chine dans les classements publics s'était effondré à 2,7 %.

Un institut gouvernemental américain a publié son verdict sur l'IA la plus puissante de Chine : huit mois de retard, et plus le temps passe, plus l'écart se creuse. Internet a lu la méthodologie et a commencé à poser des questions.

CAISI – le Center for AI Standards and Innovation, une unité du NIST – a publié son évaluation de DeepSeek V4 Pro le 1er mai. La conclusion : le produit phare ouvert de DeepSeek « est en retard d'environ 8 mois par rapport à la frontière ».

CAISI le considère également comme le modèle d’IA chinois le plus performant qu’il ait évalué à ce jour.

Le système de notation

CAISI ne fait pas la moyenne des scores de référence comme le font la plupart des évaluateurs. Au lieu de cela, il applique la théorie de la réponse aux éléments (une méthode statistique issue de tests standardisés) pour estimer la capacité latente de chaque modèle en suivant les problèmes qu'il résout et ceux qu'il ne résout pas, à travers neuf critères dans cinq domaines : cybersécurité, génie logiciel, sciences naturelles, raisonnement abstrait et mathématiques.

Les scores Elo estimés par l'IRT : GPT-5,5 à 1 260 points, Claude Opus d'Anthropic 4,6 à 999. DeepSeek V4 Pro obtient un score d'environ 800 (± 28), ce qui est très proche du GPT-5.4 mini à 749. Dans le système de CAISI, DeepSeek est plus proche de l'ancienne génération de GPT mini que d'Opus.

Le système de points dans les tests de référence modélise la manière dont les tests standardisés notent les étudiants - non pas en fonction du pourcentage brut de réussite, mais en pondérant les problèmes qu'ils résolvent et ceux qu'ils manquent, produisant une estimation en points qui n'a de sens que par rapport aux autres modèles de la même évaluation. Plus il y a de points, meilleur est le modèle en termes généraux, le score du meilleur modèle devenant le point de référence pour voir la capacité d'un modèle.

Il est impossible de reproduire les résultats du CAISI car deux des neuf critères de référence ne sont pas publics, et c’est dans ces deux critères que l’écart est le plus grand. Par exemple, GPT-5.5 a obtenu un score de 71 % au CTF-Archive-Diamond, l'un des tests de cybersécurité du CAISI, DeepSeek enregistrant environ 32 %.

Sur les benchmarks publics, la situation change. GPQA-Diamond (raisonnement scientifique de niveau doctorat, noté en pourcentage de correct) a placé DeepSeek à 90 %, un point derrière les 91 % de l'Opus 4.6. Les benchmarks des Olympiades de mathématiques (OTIS-AIME-2025, PUMaC 2024, SMT 2025) placent DeepSeek à 97 %, 96 % et 96 %. Sur SWE-Bench Verified (véritables corrections de bogues GitHub, notées en pourcentage résolu), DeepSeek a obtenu un score de 74 %, contre 81 % pour GPT-5.5. Le propre rapport technique de DeepSeek affirme que V4 Pro correspond à Opus 4.6 et GPT-5.4.

Pour comparer les coûts, CAISI a filtré tous les modèles américains dont les performances étaient nettement moins bonnes ou qui coûtaient beaucoup plus par jeton que DeepSeek. Un seul modèle a franchi la barre : GPT-5.4 mini. Cela représente toute la frontière américaine, filtrée en une seule entrée.

DeepSeek est sorti moins cher sur 5 des 7 benchmarks, battant même le modèle d'IA le plus petit et le moins performant d'OpenAI.

Le contre-argument : l’écart est-il plus grand ou plus petit ?

Critiquer la méthodologie de CAISI ne justifie pas pleinement DeepSeek. Le développeur d'IA, sous le pseudonyme d'Ex0bit, a rétorqué directement : "Il n'y a pas d'"écart", et personne n'a 8 mois de retard. Nous avons été trollés sur chaque drop américain fermé et nous avons continué avec des poids ouverts."

Il n’y a pas d’« écart » et personne n’a 8 mois de retard. Nous avons été trollés à chaque drop fermé aux États-Unis et nous avons continué avec des poids ouverts. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO

– Éric (@Ex0byt) 2 mai 2026

L'indice d'intelligence d'analyse artificielle v4.0, un système de notation qui suit l'intelligence des modèles de pointe à travers 10 évaluations, montre OpenAI près de 60 points et DeepSeek dans les années 50 en mai 2026, compressé beaucoup plus étroitement qu'il y a un an.

Basée sur des critères de référence standardisés, leur méthodologie montre que l’écart se réduit en réalité.

Lorsque DeepSeek est apparu pour la première fois en janvier 2025, la question était de savoir si la Chine avait déjà rattrapé son retard. Les laboratoires américains se sont empressés de réagir. L'indice AI 2026 de Stanford, publié le 13 avril, rapporte que l'écart entre le classement Arena entre Claude Opus 4.6 et le chinois Dola-Seed-2.0 Preview se réduit, séparés désormais de seulement 2,7 %.

CAISI prévoit de publier prochainement un article plus complet sur la méthodologie IRT.