امریکی حکومت کا کہنا ہے کہ چین کے بہترین اے آئی ماڈلز پیچھے ہیں۔ ماہرین کو اتنا یقین نہیں ہے۔

مختصراً

CAISI کی تشخیص نے ڈیپ سیک V4 پرو کو امریکی سرحد سے آٹھ ماہ پیچھے رکھا، جس میں دو نجی، ناقابل تصدیق ڈیٹا سیٹس سمیت نو بینچ مارکس میں IRT پر مبنی اسکورنگ سسٹم کا استعمال کیا گیا۔

لاگت کے موازنہ نے تمام امریکی ماڈلز کو خارج کر دیا جو بہت مہنگے یا بہت کمزور سمجھے جاتے ہیں — صرف GPT-5.4 منی کو چھوڑ کر، جس کے مقابلے میں DeepSeek اب بھی سات میں سے پانچ بینچ مارکس پر سستا تھا۔

اسٹینفورڈ کے 2026 AI انڈیکس نے پایا کہ عوامی لیڈر بورڈز پر امریکہ اور چین کی کارکردگی کا فرق 2.7 فیصد تک گر گیا ہے۔

امریکی حکومت کے ایک انسٹی ٹیوٹ نے چین کے سب سے طاقتور AI کے بارے میں اپنا فیصلہ شائع کیا: آٹھ ماہ پیچھے، اور جتنا زیادہ وقت گزرتا ہے، فرق اتنا ہی وسیع ہوتا جاتا ہے۔ انٹرنیٹ نے طریقہ کار پڑھا اور سوال پوچھنا شروع کر دیا۔

CAISI — مرکز برائے AI سٹینڈرڈز اینڈ انوویشن، NIST کے اندر ایک یونٹ — نے 1 مئی کو DeepSeek V4 Pro کی اپنی تشخیص جاری کی۔ نتیجہ: DeepSeek کا اوپن ویٹ فلیگ شپ "تقریباً 8 ماہ پیچھے ہے۔"

CAISI اسے سب سے زیادہ قابل چینی AI ماڈل بھی کہتا ہے جس کا اس نے آج تک جائزہ لیا ہے۔

اسکورنگ سسٹم

کے

CAISI بینچ مارک اسکورز کی اوسط نہیں رکھتا ہے جیسا کہ زیادہ تر جائزہ لینے والے کرتے ہیں۔ اس کے بجائے، یہ آئٹم رسپانس تھیوری کو لاگو کرتا ہے - معیاری جانچ سے ایک شماریاتی طریقہ - ہر ماڈل کی پوشیدہ صلاحیت کا اندازہ لگانے کے لیے کہ یہ کون سے مسائل کو حل کرتا ہے اور کون سے نہیں، پانچ ڈومینز میں نو بینچ مارکس میں: سائبر سیکیورٹی، سافٹ ویئر انجینئرنگ، قدرتی سائنس، تجریدی استدلال، اور ریاضی۔

IRT- تخمینہ شدہ Elo اسکور: GPT-5.5 1,260 پوائنٹس پر، Anthropic's Claude Opus 4.6 at 999۔ DeepSeek V4 Pro اسکور 800 (±28) کے قریب ہے، جو 749 پر GPT-5.4 mini کے بہت قریب ہے۔ CAISI کے سیٹ سسٹم میں، Opmini کے پرانے جنریشن سے DeepSeek سے GPT کے قریب ہے۔

بینچ مارکس میں پوائنٹس سسٹم ماڈل اسکور کرتا ہے جس طرح معیاری ٹیسٹ طلباء کو اسکور کرتے ہیں — خام فیصد درست کے حساب سے نہیں، بلکہ اس بات کا وزن کرتے ہوئے کہ وہ کن مسائل کو حل کرتے ہیں اور کن سے محروم ہوتے ہیں، پوائنٹس کا تخمینہ پیدا کرتا ہے جس کا مطلب صرف اسی تشخیص میں دوسرے ماڈلز سے متعلق کچھ ہوتا ہے۔ جتنے زیادہ پوائنٹس ہوں گے، عام اصطلاحات میں ماڈل اتنا ہی بہتر ہوگا، بہترین ماڈل کا اسکور ریفرنس پوائنٹ بنتا ہے یہ دیکھنے کے لیے کہ ماڈل کتنا قابل ہے۔

CAISI کے نتائج کو دوبارہ پیش کرنا ناممکن ہے کیونکہ نو میں سے دو بینچ مارکس غیر عوامی ہیں، اور ان دو بینچ مارکس میں وہ جگہ ہے جہاں فرق سب سے زیادہ ہے۔ مثال کے طور پر، GPT-5.5 نے CTF-Archive-Diamond پر 71% اسکور کیا، جو CAISI کے سائبر سیکیورٹی ٹیسٹوں میں سے ایک ہے جس میں DeepSeek نے تقریباً 32% کا اندراج کیا۔

عوامی معیارات پر، تصویر بدل جاتی ہے۔ GPQA-Diamond—PhD-سطح کی سائنس کا استدلال، فیصد درست ہونے پر—DeepSeek کو 90% پر رکھا، جو Opus 4.6 کے 91% سے ایک پوائنٹ پیچھے ہے۔ ریاضی کے اولمپیاڈ بینچ مارکس (OTIS-AIME-2025, PUMaC 2024, SMT 2025) DeepSeek کو 97%, 96%, اور 96% پر رکھتے ہیں۔ SWE-Bench Verified — حقیقی GitHub بگ فکسز، فیصد حل ہونے پر اسکور کیا گیا—DeepSeek نے GPT-5.5 کے 81% سے 74% اسکور کیا۔ ڈیپ سیک کی اپنی تکنیکی رپورٹ کا دعویٰ ہے کہ V4 پرو Opus 4.6 اور GPT-5.4 سے مماثل ہے۔

لاگت کے موازنہ کے لیے، CAISI نے کسی بھی امریکی ماڈل کو فلٹر کیا جس نے ڈیپ سیک سے نمایاں طور پر خراب کارکردگی کا مظاہرہ کیا یا فی ٹوکن کی قیمت نمایاں طور پر زیادہ ہے۔ صرف ایک ماڈل نے بار کو صاف کیا: GPT-5.4 منی۔ یہ پوری امریکی سرحد ہے، ایک ہی اندراج میں فلٹر کی گئی ہے۔

DeepSeek 7 میں سے 5 بینچ مارکس پر سستا آیا یہاں تک کہ OpenAI کے سب سے چھوٹے اور سب سے کم قابل AI ماڈل کو بھی پیچھے چھوڑ دیا۔

جوابی دلیل: کیا فرق بڑا ہے یا چھوٹا؟

CAISI کے طریقہ کار پر تنقید کرنا DeepSeek کی مکمل تصدیق نہیں کرتا۔ تخلص Ex0bit کے تحت AI ڈویلپر نے براہ راست پیچھے دھکیل دیا: "کوئی 'گیپ' نہیں ہے، اور کوئی 8 ماہ پیچھے نہیں ہے۔ ہمیں ہر بند یو ایس ڈراپ پر ٹرول کیا گیا ہے اور کھلے وزن کے ساتھ آگے بڑھایا گیا ہے۔"

کوئی 'گیپ' نہیں ہے، اور کوئی بھی 8 ماہ پیچھے نہیں ہے۔ ہمیں ہر بند یو ایس ڈراپ پر ٹرول کیا گیا ہے اور کھلے وزن کے ساتھ آگے بڑھایا گیا ہے۔ https://t.co/dhbDb43b6P pic.twitter.com/kl0kAecmyO

— ایرک (@Ex0byt) مئی 2، 2026

مصنوعی تجزیہ انٹیلی جنس انڈیکس v4.0 — ایک درجہ بندی کا نظام جو 10 جائزوں میں فرنٹیئر ماڈل انٹیلی جنس کو ٹریک کرتا ہے — مئی 2026 تک OpenAI کو 60 پوائنٹس کے قریب اور ڈیپ سیک کو کم 50 کی دہائی میں دکھاتا ہے، جو ایک سال پہلے کے مقابلے کہیں زیادہ سخت ہے۔

معیاری بینچ مارکس کی بنیاد پر، ان کا طریقہ کار ظاہر کرتا ہے کہ فرق درحقیقت کم ہوتا جا رہا ہے۔

جب ڈیپ سیک پہلی بار جنوری 2025 میں سامنے آیا، سوال یہ تھا کہ کیا چین پہلے ہی پکڑ چکا ہے۔ امریکی لیبز نے جواب دینے کے لیے ہنگامہ کیا۔ اسٹینفورڈ کا 2026 AI انڈیکس — جو 13 اپریل کو جاری ہوا — رپورٹ کرتا ہے کہ Claude Opus 4.6 اور چین کے Dola-Seed-2.0 Preview کے درمیان ایرینا لیڈر بورڈ کا فرق سکڑ رہا ہے، جو اب صرف 2.7% سے الگ ہے۔

CAISI مستقبل قریب میں ایک مکمل IRT طریقہ کار تحریر جاری کرنے کا ارادہ رکھتا ہے۔