الكشف عن ترقية ثورية للذكاء الاصطناعي: أحدث إصدار من DeepSeek يخفض الرسوم المميزة إلى جزء صغير من سعر GPT 5.5

باختصار

أصدرت DeepSeek نموذجها الجديد V4-Pro مع 1.6 تريليون معلمة.

يكلف 1.74 دولارًا أمريكيًا / 3.48 دولارًا أمريكيًا لكل مليون رمز إدخال/إخراج، أي ما يقرب من 1/20 من سعر Claude Opus 4.7 وأقل بنسبة 98% من GPT 5.5 Pro.

قامت DeepSeek بتدريب V4 جزئيًا على شرائح Huawei Ascend، للتحايل على قيود التصدير الأمريكية، وتقول إنه بمجرد وصول 950 عقدة عظمى جديدة عبر الإنترنت في وقت لاحق من عام 2026، سينخفض السعر المنخفض بالفعل لنموذج Pro بشكل أكبر.

لقد عاد DeepSeek، وقد ظهر بعد ساعات قليلة من قيام OpenAI بإسقاط GPT-5.5. صدفة؟ ربما. ولكن إذا كنت مختبرًا صينيًا للذكاء الاصطناعي تحاول الحكومة الأمريكية إبطائه من خلال حظر تصدير الرقائق على مدى السنوات الثلاث الماضية، فإن إحساسك بالتوقيت يصبح حادًا جدًا.

أصدر المختبر الذي يقع مقره في هانغتشو إصدارات معاينة من DeepSeek-V4-Pro وDeepSeek-V4-Flash اليوم، وكلاهما مفتوح الوزن، وكلاهما يحتوي على مليون نافذة سياق رمزية. هذا يعني أنه يمكنك بشكل أساسي العمل مع سياق بحجم ثلاثية Lord of the Rings تقريبًا قبل أن ينهار النموذج. كلاهما أيضًا بسعر أقل بكثير من أي شيء يمكن مقارنته في الغرب، وكلاهما مجاني لأولئك القادرين على التشغيل محليًا.

أدى آخر تعطيل كبير لـ DeepSeek – R1 في يناير 2025 – إلى محو 600 مليار دولار من القيمة السوقية لشركة Nvidia في يوم واحد حيث تساءل المستثمرون عما إذا كانت الشركات الأمريكية بحاجة حقًا إلى مثل هذه الاستثمارات الضخمة لتحقيق نتائج حققها مختبر صيني صغير بجزء بسيط من التكلفة. V4 هو نوع مختلف من الحركة: أكثر هدوءًا، وأكثر تقنية، وأكثر تركيزًا على الكفاءة لأي شخص يبني بالفعل باستخدام الذكاء الاصطناعي.

نموذجان، وظائف مختلفة جدا

من بين النموذجين الجديدين، يعد DeepSeek's V4-Pro هو الأكبر، حيث يحتوي على 1.6 تريليون معلمة إجمالية. لوضع ذلك في منظوره الصحيح، فإن المعلمات هي "الإعدادات" الداخلية أو "خلايا الدماغ" التي يستخدمها النموذج لتخزين المعرفة والتعرف على الأنماط - كلما زاد عدد المعلمات التي يحتوي عليها النموذج، زادت المعلومات المعقدة التي يمكنه الاحتفاظ بها نظريًا. وهذا يجعله أكبر نموذج مفتوح المصدر في سوق LLM حتى الآن. قد يبدو الحجم سخيفًا حتى تعلم أنه ينشط 49 مليارًا منها فقط لكل تمريرة استدلال.

هذه هي خدعة مزيج الخبراء التي قامت DeepSeek بتحسينها منذ الإصدار الثالث: النموذج الكامل موجود هناك، ولكن فقط الشريحة ذات الصلة منه تستيقظ لأي طلب معين. المزيد من المعرفة، نفس فاتورة الحساب.

كتب Deepseek في البطاقة الرسمية للنموذج على Huggingface: "يعمل DeepSeek-V4-Pro-Max، وهو أقصى وضع لجهد التفكير في DeepSeek-V4-Pro، على تطوير القدرات المعرفية للنماذج مفتوحة المصدر بشكل كبير، مما يثبت نفسه بقوة كأفضل نموذج مفتوح المصدر متاح اليوم". "إنه يحقق أداءً عالي المستوى في معايير الترميز ويسد الفجوة بشكل كبير مع النماذج الرائدة مغلقة المصدر في المهام المنطقية والوكيلية."

V4-Flash هو الإصدار العملي: 284 مليار معلمة إجمالية، و13 مليار معلمة نشطة. لقد تم تصميمه ليكون أسرع وأرخص، ووفقًا لمعايير DeepSeek الخاصة، "يحقق أداءً منطقيًا مشابهًا للإصدار Pro عندما يتم منحه ميزانية تفكير أكبر."

كلاهما يدعم مليون رمز للسياق. هذا يعني ما يقرب من 750 ألف كلمة، أي تقريبًا ثلاثية "سيد الخواتم" بأكملها بالإضافة إلى التغيير. وهذه ميزة قياسية وليست فئة متميزة.

صلصة Deepseek السرية (ليست كذلك): جعل الاهتمام ليس سيئًا على نطاق واسع

إليك الجزء الفني للمهووسين أو المهتمين بالسحر الذي يحرك النموذج. لا يخفي Deepseek أسراره، وكل شيء متاح مجانًا - الورقة الكاملة متاحة على Github.

إن اهتمام الذكاء الاصطناعي القياسي – الآلية التي تسمح للنموذج بفهم العلاقات بين الكلمات – يواجه مشكلة كبيرة في التوسع. في كل مرة تقوم فيها بمضاعفة طول السياق، تتضاعف تكلفة الحوسبة أربع مرات تقريبًا. لذا فإن تشغيل نموذج بمليون رمز لا يكلف ضعف تكلفة 500000 رمز. إنها باهظة الثمن بأربعة أضعاف. هذا هو السبب في أن السياق الطويل كان تاريخياً عبارة عن مربع اختيار تضيفه المعامل ثم تتخطى حدود المعدل بصمت.

اخترع DeepSeek نوعين جديدين من الاهتمام للتغلب على هذه المشكلة. الأول، الانتباه المتفرق المضغوط، يعمل في خطوتين. يقوم أولاً بضغط مجموعات من الرموز المميزة، على سبيل المثال، كل 4 رموز مميزة، في إدخال واحد. وبعد ذلك، بدلاً من الاهتمام بكل هذه الإدخالات المضغوطة، فإنه يستخدم "Lightning Indexer" لاختيار النتائج الأكثر صلة فقط بأي استعلام معين. ينتقل نموذجك من الاهتمام بمليون رمز مميز إلى الاهتمام بمجموعة أصغر بكثير من الأجزاء الأكثر أهمية، مثل أمين المكتبة الذي لا يقرأ كل كتاب ولكنه يعرف بالضبط الرف الذي يجب التحقق منه.

والثاني، الانتباه المضغوط بشدة، وهو أكثر عدوانية. إنه يدمج كل 128 رمزًا في إدخال واحد - لا يوجد اختيار متفرق، فقط ضغط وحشي. ستفقد التفاصيل الدقيقة، لكنك تحصل على رؤية عالمية رخيصة للغاية. يعمل نوعا الاهتمام في طبقات متناوبة، بحيث يحصل النموذج على التفاصيل والنظرة العامة.

النتيجة من الورقة التقنية: عند وجود مليون رمز، يستخدم V4-Pro 27% من الحوسبة التي يحتاجها الإصدار السابق (V3.2). تنخفض ذاكرة التخزين المؤقت KV - الذاكرة التي يحتاجها النموذج لتتبع السياق - إلى 10% فقط من الإصدار 3.2. يدفع V4-Flash ذلك إلى أبعد من ذلك: 10% من الحوسبة، و7% من الذاكرة