Laut US-Regierung hinken Chinas beste KI-Modelle hinterher. Experten sind sich nicht so sicher

Kurz gesagt

In der CAISI-Bewertung lag DeepSeek V4 Pro acht Monate hinter der US-Grenze zurück. Dabei wurde ein IRT-basiertes Bewertungssystem für neun Benchmarks verwendet, darunter zwei private, nicht überprüfbare Datensätze.

Der Kostenvergleich schloss alle US-Modelle aus, die als zu teuer oder zu schwach erachtet wurden – es blieb nur GPT-5.4 mini übrig, gegen das DeepSeek in fünf von sieben Benchmarks immer noch günstiger war.

Der KI-Index 2026 von Stanford stellte fest, dass der Leistungsunterschied zwischen den USA und China in öffentlichen Bestenlisten auf 2,7 % zusammengebrochen war.

Ein US-Regierungsinstitut veröffentlichte sein Urteil über Chinas leistungsstärkste KI: acht Monate im Rückstand, und je mehr Zeit vergeht, desto größer wird der Abstand. Das Internet las die Methodik und begann, Fragen zu stellen.

CAISI – das Center for AI Standards and Innovation, eine Einheit innerhalb des NIST – veröffentlichte am 1. Mai seine Bewertung von DeepSeek V4 Pro. Die Schlussfolgerung: DeepSeeks Open-Weight-Flaggschiff „hinkt der Grenze um etwa 8 Monate hinterher.“

CAISI bezeichnet es außerdem als das leistungsfähigste chinesische KI-Modell, das es bisher evaluiert hat.

Das Punktesystem

CAISI mittelt keine Benchmark-Ergebnisse, wie es die meisten Gutachter tun. Stattdessen wendet es die Item-Response-Theorie an – eine statistische Methode aus standardisierten Tests –, um die latente Leistungsfähigkeit jedes Modells abzuschätzen, indem es anhand von neun Benchmarks in fünf Bereichen verfolgt, welche Probleme es löst und welche nicht: Cybersicherheit, Softwareentwicklung, Naturwissenschaften, abstraktes Denken und Mathematik.

Die vom IRT geschätzten Elo-Werte: GPT-5,5 bei 1.260 Punkten, Anthropics Claude Opus 4,6 bei 999. DeepSeek V4 Pro erreicht etwa 800 (±28), was mit 749 sehr nahe an GPT-5.4 mini liegt. Im CAISI-System liegt DeepSeek näher an der alten Generation von GPT mini als an Opus.

Das Punktesystem in der Benchmark-Bewertung modelliert die Art und Weise, wie standardisierte Tests Schüler bewerten – nicht nach dem reinen Prozentsatz richtiger Ergebnisse, sondern durch die Gewichtung der Probleme, die sie lösen und welche sie verfehlen, wodurch eine Punkteschätzung entsteht, die nur relativ zu anderen Modellen in derselben Bewertung etwas aussagt. Je mehr Punkte, desto besser ist das Modell im Allgemeinen, wobei die Punktzahl des besten Modells zum Referenzpunkt dafür wird, wie leistungsfähig ein Modell ist.

Es ist unmöglich, die Ergebnisse von CAISI zu reproduzieren, da zwei der neun Benchmarks nicht öffentlich sind und bei diesen beiden Benchmarks die Lücke am größten ist. GPT-5.5 erreichte beispielsweise 71 % bei CTF-Archive-Diamond, einem der Cybersicherheitstests von CAISI, wobei DeepSeek rund 32 % erreichte.

Bei öffentlichen Benchmarks verschiebt sich das Bild. GPQA-Diamond – wissenschaftliches Denken auf PhD-Niveau, bewertet als Prozentsatz richtig – bewertete DeepSeek mit 90 %, einen Punkt hinter den 91 % von Opus 4.6. Die Benchmarks der Mathe-Olympiade (OTIS-AIME-2025, PUMaC 2024, SMT 2025) beziffern DeepSeek auf 97 %, 96 % und 96 %. Bei SWE-Bench Verified – echte GitHub-Fehlerbehebungen, bewertet als gelöster Prozentsatz – erreichte DeepSeek 74 % gegenüber 81 % von GPT-5.5. DeepSeeks eigener technischer Bericht behauptet, dass V4 Pro mit Opus 4.6 und GPT-5.4 übereinstimmt.

Zum Kostenvergleich hat CAISI alle US-Modelle herausgefiltert, die deutlich schlechter abschnitten oder deutlich mehr pro Token kosteten als DeepSeek. Nur ein Modell hat die Messlatte überwunden: GPT-5.4 mini. Das ist die gesamte US-Grenze, gefiltert auf einen einzigen Eintrag.

DeepSeek schnitt bei 5 von 7 Benchmarks günstiger ab und schlug sogar das kleinste und leistungsschwächste KI-Modell von OpenAI.

Das Gegenargument: Ist die Lücke größer oder kleiner?

Die Kritik an der Methodik von CAISI rechtfertigt DeepSeek nicht vollständig. Der KI-Entwickler unter dem Pseudonym Ex0bit entgegnete direkt: „Es gibt keine ‚Lücke‘ und niemand ist 8 Monate im Rückstand. Wir wurden bei jedem geschlossenen US-Abwurf getrollt und mit offenen Gewichten weitergebeugt.“

Es gibt keine „Lücke“ und niemand ist 8 Monate im Rückstand. Wir wurden bei jedem geschlossenen Drop in den USA getrollt und mit offenen Gewichten weitergebeugt. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO

– Eric (@Ex0byt) 2. Mai 2026

Der Artificial Analysis Intelligence Index v4.0 – ein Bewertungssystem, das die Intelligenz von Grenzmodellen über 10 Bewertungen hinweg verfolgt – zeigt, dass OpenAI im Mai 2026 bei fast 60 Punkten und DeepSeek im unteren 50er-Bereich liegt, deutlich stärker komprimiert als vor einem Jahr.

Basierend auf standardisierten Benchmarks zeigt ihre Methodik, dass die Lücke tatsächlich kleiner wird.

Als DeepSeek im Januar 2025 zum ersten Mal auftauchte, stellte sich die Frage, ob China bereits aufgeholt hatte. US-Labore beeilten sich, zu reagieren. Stanfords KI-Index 2026 – veröffentlicht am 13. April – berichtet, dass der Arena-Ranglistenabstand zwischen Claude Opus 4.6 und Chinas Dola-Seed-2.0 Preview kleiner wird und jetzt nur noch 2,7 % beträgt.

CAISI plant, in naher Zukunft einen umfassenderen Bericht zur IRT-Methodik zu veröffentlichen.