انقلابی AI اپ گریڈ کی نقاب کشائی کی گئی: ڈیپ سیک کی تازہ ترین ریلیز نے پریمیم فیسوں کو GPT 5.5 کی قیمت کے ٹیگ کے ایک حصے تک کم کردیا

مختصراً

DeepSeek نے اپنا نیا V4-Pro ماڈل 1.6 ٹریلین پیرامیٹرز کے ساتھ جاری کیا۔

اس کی قیمت $1.74/$3.48 فی ملین ان پٹ/آؤٹ پٹ ٹوکنز ہے، جو Claude Opus 4.7 کی قیمت کا تقریباً 1/20 واں اور GPT 5.5 Pro سے 98% کم ہے۔

DeepSeek نے V4 کو جزوی طور پر Huawei Ascend چپس پر تربیت دی، امریکی برآمدی پابندیوں کو روکتے ہوئے، اور کہتے ہیں کہ ایک بار جب 2026 کے آخر میں 950 نئے سپر نوڈس آن لائن ہوں گے، تو پرو ماڈل کی پہلے سے کم قیمت میں مزید کمی آئے گی۔

ڈیپ سیک واپس آ گیا ہے، اور یہ اوپن اے آئی کے GPT-5.5 کو گرانے کے چند گھنٹوں بعد ظاہر ہوا۔ اتفاق؟ ہو سکتا ہے۔ لیکن اگر آپ چینی AI لیب ہیں جسے امریکی حکومت پچھلے تین سالوں سے چپ کی برآمد پر پابندی کے ساتھ سست کرنے کی کوشش کر رہی ہے، تو آپ کے وقت کا احساس کافی تیز ہو جاتا ہے۔

Hangzhou میں قائم لیب نے آج DeepSeek-V4-Pro اور DeepSeek-V4-Flash کے پیش نظارہ ورژن جاری کیے، دونوں ہی اوپن ویٹ، دونوں ایک ملین ٹوکن سیاق و سباق والی ونڈوز کے ساتھ۔ اس کا مطلب ہے کہ ماڈل کے گرنے سے پہلے آپ بنیادی طور پر لارڈ آف دی رِنگس ٹریلوجی کے سیاق و سباق کے ساتھ کام کر سکتے ہیں۔ دونوں کی قیمت بھی مغرب میں موازنہ کرنے والی کسی بھی چیز سے بہت کم ہے، اور دونوں مقامی طور پر چلانے کے قابل افراد کے لیے مفت ہیں۔

ڈیپ سیک کی آخری بڑی رکاوٹ — جنوری 2025 میں R1 — نے Nvidia کے مارکیٹ کیپ سے ایک ہی دن میں 600 بلین ڈالر کا صفایا کر دیا کیونکہ سرمایہ کار نے سوال کیا کہ کیا واقعی امریکی کمپنیوں کو ایسے نتائج پیدا کرنے کے لیے اتنی بڑی سرمایہ کاری کی ضرورت ہے جو ایک چھوٹی سی چینی لیب نے لاگت کے ایک حصے سے حاصل کی۔ V4 ایک مختلف قسم کی حرکت ہے: خاموش، زیادہ تکنیکی، اور AI کے ساتھ اصل میں تعمیر کرنے والے ہر فرد کے لیے کارکردگی پر زیادہ توجہ مرکوز۔

دو ماڈل، بہت مختلف نوکریاں

میں

دو نئے ماڈلز میں سے، DeepSeek کا V4-Pro سب سے بڑا ہے، جس میں 1.6 ٹریلین کل پیرامیٹرز ہیں۔ اس کو تناظر میں رکھنے کے لیے، پیرامیٹرز وہ اندرونی "ترتیبات" یا "دماغی خلیات" ہیں جنہیں ایک ماڈل علم کو ذخیرہ کرنے اور نمونوں کو پہچاننے کے لیے استعمال کرتا ہے — ایک ماڈل میں جتنے زیادہ پیرامیٹرز ہوتے ہیں، نظریاتی طور پر وہ اتنی ہی پیچیدہ معلومات رکھتا ہے۔ یہ LLM مارکیٹ میں آج تک کا سب سے بڑا اوپن سورس ماڈل بناتا ہے۔ سائز اس وقت تک مضحکہ خیز لگ سکتا ہے جب تک کہ آپ یہ نہ سیکھ لیں کہ یہ ان میں سے صرف 49 بلین فی انفرنس پاس کو چالو کرتا ہے۔

یہ ماہرین کی ترکیب ہے جو ڈیپ سیک نے V3 کے بعد سے بہتر کی ہے: مکمل ماڈل وہاں بیٹھا ہے، لیکن کسی بھی درخواست کے لیے اس کا صرف متعلقہ ٹکڑا جاگتا ہے۔ زیادہ علم، وہی کمپیوٹ بل۔

"DeepSeek-V4-Pro-Max، DeepSeek-V4-Pro کا زیادہ سے زیادہ استدلال کی کوشش کا موڈ، اوپن سورس ماڈلز کی علمی صلاحیتوں کو نمایاں طور پر آگے بڑھاتا ہے، مضبوطی سے خود کو آج دستیاب بہترین اوپن سورس ماڈل کے طور پر قائم کرتا ہے،" Deepseek نے Huggingface پر ماڈل کے آفیشل کارڈ میں لکھا۔ "یہ کوڈنگ بینچ مارکس میں اعلی درجے کی کارکردگی حاصل کرتا ہے اور استدلال اور ایجنٹی کاموں پر معروف بند سورس ماڈل کے ساتھ فرق کو نمایاں طور پر پُر کرتا ہے۔"

V4-Flash عملی ایک ہے: 284 بلین کل پیرامیٹرز، 13 بلین فعال۔ اسے تیز، سستا، اور DeepSeek کے اپنے معیارات کے مطابق ڈیزائن کیا گیا ہے، "جب ایک بڑا سوچنے والا بجٹ دیا جاتا ہے تو پرو ورژن کے مقابلے قابل استدلال کارکردگی حاصل کرتا ہے۔"

دونوں سیاق و سباق کے ایک ملین ٹوکن کی حمایت کرتے ہیں۔ یہ تقریباً 750,000 الفاظ ہیں—تقریباً پوری "لارڈ آف دی رِنگز" تریی پلس تبدیلی۔ اور یہ ایک معیاری خصوصیت کے طور پر ہے، ایک پریمیم درجے کے نہیں۔

ڈیپ سیک کی (ایسا نہیں) خفیہ چٹنی: توجہ کو پیمانے پر خوفناک نہیں بنانا

بیوکوفوں یا ماڈل کو طاقت دینے والے جادو میں دلچسپی رکھنے والوں کے لیے یہاں تکنیکی حصہ ہے۔ ڈیپ سیک اپنے راز کو نہیں چھپاتا، اور سب کچھ مفت میں دستیاب ہے — مکمل کاغذ گیتھب پر دستیاب ہے۔

معیاری AI توجہ — وہ طریقہ کار جو ایک ماڈل کو الفاظ کے درمیان تعلقات کو سمجھنے دیتا ہے — میں پیمانے کا ایک ظالمانہ مسئلہ ہے۔ جب بھی آپ سیاق و سباق کی لمبائی کو دوگنا کرتے ہیں، حساب کی لاگت تقریباً چار گنا ہو جاتی ہے۔ لہذا ایک ملین ٹوکنز پر ماڈل چلانا 500,000 ٹوکنز سے دوگنا مہنگا نہیں ہے۔ یہ چار گنا مہنگا ہے۔ یہی وجہ ہے کہ طویل سیاق و سباق تاریخی طور پر ایک چیک باکس لیبز کا اضافہ رہا ہے اور پھر خاموشی سے شرح کی حدود کو پیچھے چھوڑ دیتا ہے۔

ڈیپ سیک نے اس کے ارد گرد حاصل کرنے کے لئے توجہ کی دو نئی اقسام ایجاد کیں۔ پہلا، کمپریسڈ اسپارس اٹینشن، دو مراحل میں کام کرتا ہے۔ یہ سب سے پہلے ٹوکنز کے گروپس کو کمپریس کرتا ہے—کہیں، ہر 4 ٹوکن—ایک اندراج میں۔ پھر، ان تمام کمپریسڈ اندراجات میں شرکت کرنے کے بجائے، یہ کسی بھی سوال کے لیے صرف سب سے زیادہ متعلقہ نتائج لینے کے لیے "لائٹننگ انڈیکسر" کا استعمال کرتا ہے۔ آپ کا ماڈل ایک ملین ٹوکنز سے لے کر انتہائی اہم حصوں کے ایک بہت چھوٹے سیٹ میں شرکت تک جاتا ہے، ایک لائبریرین کی طرح جو ہر کتاب کو نہیں پڑھتا لیکن یہ جانتا ہے کہ کس شیلف کو چیک کرنا ہے۔

دوسرا، بھاری کمپریسڈ توجہ، زیادہ جارحانہ ہے۔ یہ ہر 128 ٹوکنز کو ایک ہی اندراج میں سمٹتا ہے — کوئی ویرل انتخاب نہیں، صرف ظالمانہ کمپریشن۔ آپ عمدہ تفصیل سے محروم ہوجاتے ہیں، لیکن آپ کو ایک انتہائی سستا عالمی منظر ملتا ہے۔ توجہ کی دو اقسام متبادل تہوں میں چلتی ہیں، لہذا ماڈل کو تفصیل اور جائزہ دونوں ملتے ہیں۔

نتیجہ، تکنیکی کاغذ سے: ایک ملین ٹوکنز پر، V4-Pro اپنے پیشرو (V3.2) کی ضرورت کا 27% استعمال کرتا ہے۔ KV کیش — ماڈل کو سیاق و سباق کو ٹریک کرنے کے لیے جس میموری کی ضرورت ہوتی ہے — V3.2 کے صرف 10% تک گر جاتی ہے۔ V4-Flash اسے مزید آگے بڑھاتا ہے: 10% کمپیوٹ، 7% میموری