تقول الحكومة الأمريكية إن أفضل نماذج الذكاء الاصطناعي في الصين متخلفة الخبراء ليسوا متأكدين من ذلك

باختصار

صنف تقييم CAISI DeepSeek V4 Pro متأخرًا بثمانية أشهر عن حدود الولايات المتحدة، وذلك باستخدام نظام تسجيل قائم على IRT عبر تسعة معايير بما في ذلك مجموعتي بيانات خاصتين لا يمكن التحقق منها.

استبعدت مقارنة التكلفة جميع النماذج الأمريكية التي اعتبرت باهظة الثمن أو ضعيفة للغاية، ولم يتبق سوى GPT-5.4 mini، الذي كان DeepSeek مقابله لا يزال أرخص في خمسة من أصل سبعة معايير.

وجد مؤشر الذكاء الاصطناعي لعام 2026 التابع لجامعة ستانفورد أن فجوة الأداء بين الولايات المتحدة والصين على قوائم المتصدرين العامة قد انهارت إلى 2.7%.

نشر معهد حكومي أمريكي حكمه بشأن أقوى الذكاء الاصطناعي في الصين: ثمانية أشهر متأخرة، وكلما مر الوقت، اتسعت الفجوة. قرأ الإنترنت المنهجية وبدأ في طرح الأسئلة.

أصدر CAISI - مركز معايير الذكاء الاصطناعي والابتكار، وهو وحدة داخل NIST - تقييمه لـ DeepSeek V4 Pro في الأول من مايو. الاستنتاج: الرائد ذو الوزن المفتوح لـ DeepSeek "متخلف عن الحدود بنحو 8 أشهر".

كما تصفه شركة CAISI بأنه نموذج الذكاء الاصطناعي الصيني الأكثر قدرة الذي قامت بتقييمه حتى الآن.

نظام التهديف

لا يقوم CAISI بحساب متوسط الدرجات المعيارية كما يفعل معظم المقيمين. وبدلاً من ذلك، فإنه يطبق نظرية الاستجابة للعناصر - وهي طريقة إحصائية من الاختبارات الموحدة - لتقدير القدرة الكامنة لكل نموذج من خلال تتبع المشكلات التي يحلها وتلك التي لا يحلها، عبر تسعة معايير في خمسة مجالات: الأمن السيبراني، وهندسة البرمجيات، والعلوم الطبيعية، والتفكير المجرد، والرياضيات.

درجات Elo المقدرة بواسطة IRT: GPT-5.5 عند 1,260 نقطة، Anthropic's Claude Opus 4.6 عند 999. يسجل DeepSeek V4 Pro حوالي 800 (±28)، وهو قريب جدًا من GPT-5.4 mini عند 749. في نظام CAISI، يقع DeepSeek أقرب إلى الجيل القديم من GPT mini منه إلى Opus.

يقوم نظام النقاط في المعايير القياسية بنماذج الطريقة التي تسجل بها الاختبارات الموحدة الطلاب - ليس من خلال النسبة المئوية الصحيحة، ولكن من خلال ترجيح المشكلات التي يحلونها وتلك التي يغفلونها، مما ينتج عنه تقدير للنقاط لا يعني سوى شيئًا متعلقًا بالنماذج الأخرى في نفس التقييم. كلما زاد عدد النقاط، كان النموذج أفضل بشكل عام، حيث تصبح نتيجة أفضل نموذج هي النقطة المرجعية لمعرفة مدى قدرة النموذج.

من المستحيل إعادة إنتاج نتائج CAISI لأن اثنين من المعايير التسعة غير عامة، وفي هذين المعيارين تكون الفجوة أوسع. على سبيل المثال، سجل GPT-5.5 71% في اختبار CTF-Archive-Diamond، وهو أحد اختبارات CAISI للأمن السيبراني، وسجل DeepSeek حوالي 32%.

وفيما يتعلق بالمعايير العامة، تتغير الصورة. GPQA-Diamond - الاستدلال العلمي على مستوى الدكتوراه، والذي تم تسجيله كنسبة مئوية صحيحة - وضع DeepSeek عند 90%، بفارق نقطة واحدة عن Opus 4.6 الذي حصل على 91%. معايير أولمبياد الرياضيات (OTIS-AIME-2025، PUMaC 2024، SMT 2025) وضعت DeepSeek عند 97%، و96%، و96%. في اختبار SWE-Bench - إصلاحات حقيقية لأخطاء GitHub، تم تسجيلها كنسبة مئوية تم حلها - سجل DeepSeek 74% مقابل 81% لـ GPT-5.5. يدعي التقرير الفني الخاص بـ DeepSeek أن V4 Pro يطابق Opus 4.6 وGPT-5.4.

لمقارنة التكلفة، قامت CAISI بتصفية أي نموذج أمريكي كان أداؤه أسوأ بكثير أو كان يكلف أكثر بكثير لكل رمز مميز من DeepSeek. نموذج واحد فقط نجح في تجاوز الشريط: GPT-5.4 mini. هذه هي حدود الولايات المتحدة بأكملها، تمت تصفيتها إلى مدخل واحد.

جاء DeepSeek أرخص في 5 من 7 معايير حتى أنه تفوق على نموذج الذكاء الاصطناعي الأصغر والأقل قدرة في OpenAI.

الحجة المضادة: هل الفجوة أكبر أم أصغر؟

إن انتقاد منهجية CAISI لا يبرر DeepSeek بشكل كامل. رد مطور الذكاء الاصطناعي تحت الاسم المستعار Ex0bit مباشرة: "لا توجد" فجوة "، ولم يتخلف أحد عن الركب لمدة 8 أشهر. لقد تعرضنا للخداع في كل انخفاض أمريكي مغلق وتم ثنينا بأوزان مفتوحة."

لا توجد "فجوة"، ولا أحد يتأخر عن 8 أشهر. لقد تم التصيد علينا في كل قطرة أمريكية مغلقة وتم ثنينا بأوزان مفتوحة. https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO

– إريك (@ Ex0byt) 2 مايو 2026

يُظهر مؤشر ذكاء التحليل الاصطناعي الإصدار 4.0 - وهو نظام تصنيف يتتبع ذكاء النماذج الحدودية عبر 10 تقييمات - أن OpenAI يقترب من 60 نقطة وDeepSeek في الخمسينات المنخفضة اعتبارًا من مايو 2026، وهو مضغوط بشكل أكثر إحكامًا مما كان عليه قبل عام.

واستنادا إلى معايير موحدة، تظهر منهجيتهم أن الفجوة تضيق في الواقع.

عندما ظهر برنامج DeepSeek لأول مرة في يناير 2025، كان السؤال هو ما إذا كانت الصين قد لحقت بالركب بالفعل. سارعت المختبرات الأمريكية للرد. يشير مؤشر الذكاء الاصطناعي لعام 2026 الخاص بجامعة ستانفورد - والذي تم إصداره في 13 أبريل - إلى أن فجوة المتصدرين في Arena بين Claude Opus 4.6 وDola-Seed-2.0 Preview في الصين آخذة في التقلص، ولا يفصل بينها الآن سوى 2.7%.

تخطط CAISI لإصدار منهجية IRT كاملة في المستقبل القريب.