كلود أوبوس 4.7 هنا: أحدث طراز من الأنثروبيك يحقق النجاح، لكنه مجرد آلة أكل رمزية

باختصار
أطلقت Anthropic للتو طراز Opus الأكثر قدرة حتى الآن، Claude Opus 4.7.
يقدم النموذج مكاسب مرجعية قوية عبر الترميز والاستدلال، ولكنه ليس نموذج Mythos المثير للجدل الذي تقدمه Anthropic لاختيار الشركاء.
يُظهر Claude Opus 4.7 تسلسلًا واضحًا للأفكار واستخدامًا عاليًا للرمز المميز بشكل غير عادي.
قامت Anthropic بشحن Claude Opus 4.7 اليوم، واصفة إياه بأنه طراز Opus الأكثر قدرة لدى الشركة حتى الآن. لقد اختبرناه، وتوافق التسويق مع النتائج.
"أحدث طراز لدينا، Claude Opus 4.7، متوفر الآن بشكل عام." وقالت الشركة في إعلانها الرسمي. "أبلغ المستخدمون عن قدرتهم على تسليم أصعب أعمالهم البرمجية - النوع الذي كان يحتاج في السابق إلى إشراف دقيق - إلى Opus 4.7 بثقة."
يصل النموذج في أعقاب أسابيع من شكاوى المستخدمين حول فقدان Opus 4.6 لميزته. قام المطورون عبر GitHub وReddit وX بتوثيق ما أسموه "انكماش الذكاء الاصطناعي" - وهو الشعور بأن النموذج الذي كانوا يدفعون مقابله أصبح أسوأ بهدوء. كما أبلغنا بالأمس، كانت Anthropic تستعد بالفعل للإصدار 4.7 بينما كانت تجلس على شيء أقوى بكثير لا يمكنها إصداره علنًا: كلود ميثوس.
عندما انخفض الإعلان هذا الصباح، سارع مستخدمو X الذين كانوا أعلى صوتًا بشأن تدهور 4.6 إلى الرد بسخرية: قال البعض مازحًا: إن Opus 4.7، كما قال البعض مازحًا، بدا وكأنه "إصدار Opus 4.6 المبكر" - النسخة التي أحبها الناس بالفعل، قبل أن يعتقدوا أن Anthropic أوقفت تشغيل الأقراص بهدوء. بطبيعة الحال، أنكرت الأنثروبيك أوزان النماذج المهينة لإدارة الطلب على الحوسبة.
مرحبًا بكم مرة أخرى opus 4.6 pic.twitter.com/hpwNkrq1tD
– ديف إد (@developedbyed) 16 أبريل 2026
المعايير تدعم ادعاءات الأنثروبيك. في SWE-bench Multilingual، وهو معيار يقيس مهارات البرمجة، سجل Opus 4.7 80.5% مقابل 4.6 77.8%.
في اختبار الناتج المحلي الإجمالي (GDPVal-AA)، وهو تقييم يجريه طرف ثالث للأعمال المعرفية ذات القيمة الاقتصادية عبر المجالات المالية والقانونية، سجل 4.7 1,753 إيلو مقابل 1,674 لـ GPT-5.4، وهو هامش واضح على أقرب منافس.
أظهر تحليل المستندات عبر OfficeQA Pro القفزة الصارخة: 80.6% لـ 4.7 مقابل 57.1% لـ 4.6، مع تراجع GPT-5.4 وGemini 3.1 Pro بنسبة 51.1% و42.9% على التوالي. التماسك طويل المدى على Vending-Bench 2، وهو معيار يقيس مدى جودة النماذج في السياق الطويل والمهام المنطقية مثل امتلاك شركة بيع، سجل رصيدًا نقديًا قدره 10,937 دولارًا مقابل 8,018 دولارًا مقابل 4.6 - وهو مؤشر لمدى استدامة النموذج للسلوك المفيد على مدار فترات طويلة مستقلة.
الأمن السيبراني هو المجال الوحيد الذي تراجعت فيه الأنثروبولوجيا عمدا. يتم إطلاق Opus 4.7 مع ضمانات تلقائية تكتشف وتحظر طلبات الأمن السيبراني المحظورة أو عالية المخاطر. وأكدت أنثروبيك أنها "جربت جهودًا لتقليل" القدرات السيبرانية لـ 4.7 بشكل تفاضلي أثناء التدريب.
يمكن لمحترفي الأمن التقدم بطلب للحصول على برنامج جديد للتحقق السيبراني للوصول إلى هذه الميزات. هذا هو الاختبار التجريبي للشركة للضمانات التي ستحتاج في النهاية إلى نشرها مع نماذج فئة Mythos على نطاق واسع.
Opus 4.7 هو أقوى نموذج متاح للجمهور. يظل Mythos Preview، النموذج الحدودي الحقيقي لشركة Anthropic، مقتصرًا على الشركات الأمنية التي تم فحصها. وفقًا لتقييم معهد أمن الذكاء الاصطناعي في المملكة المتحدة الأسبوع الماضي، كان Mythos أول ذكاء اصطناعي يكمل "The Last Ones"، وهي محاكاة لهجوم على شبكة الشركات مكونة من 32 خطوة والتي تستغرق عادةً الفرق الحمراء البشرية 20 ساعة.
Opus 4.7 ليس كذلك. لكن هذا هو النموذج المواجه للجمهور الذي ستستخدمه Anthropic لمعرفة كيفية صمود حواجز الأمان هذه في البرية قبل أن تجرؤ على إطلاق أي شيء أكثر رعبًا.
على جانب الرمز المميز، يستخدم Opus 4.7 أداة رمزية محدثة يمكنها تعيين نفس الإدخال إلى ما يقرب من 1.0x-1.35x من الرموز المميزة اعتمادًا على نوع المحتوى. ويسبب النموذج أيضًا المزيد من الأسباب عند مستويات الجهد الأعلى، خاصة في المنعطفات اللاحقة في سير عمل الوكلاء. نشرت Anthropic دليل الترحيل للمطورين الذين يخططون للترقية من 4.6.
لقد أجرينا اختبارنا الخاص، وهو نفس موجه بناء اللعبة الذي استخدمناه لتقييم كل إصدار رئيسي للنماذج. أنتج Opus 4.7 أفضل نتيجة حصلنا عليها من أي نموذج على الإطلاق. اللعبة الأكثر مصقولة بصريًا، ومنحنى الصعوبة الأكثر تحديًا، وأفضل الآليات، وشاشات الربح والخسارة الأكثر إبداعًا. وبدا أنه يولد مستويات من الناحية الإجرائية، ولم يكن أي منها مستحيلا، وهو التوازن الذي أعاق النماذج الأخرى مرارا وتكرارا.
يمكنك اختبار اللعبة هنا
الظهور: اللعبة، التي أنشأها كلود أوبوس 4.7
لم تكن طلقة صفر. لقد نجح Opus 4.6 في اجتياز نفس الاختبار دون أي إصلاحات. احتاج Opus 4.7 إلى جولة واحدة من إصلاحات الأخطاء. قد يكون هذا حظًا سيئًا، حيث إن التكرار الواحد عبارة عن عينة صغيرة، ولكن من الجدير بالذكر. ما أذهلنا أكثر هو الطريقة التي تعامل بها النموذج مع تلك الجولة: فقد اكتشف أخطاء إضافية من تلقاء نفسه، دون أن يتم توجيهه نحوها. كان Opus 4.6 ينتظر عادةً أن يتم إخباره بمكان البحث.
كان Xiaomi MiMo v2 Pro هو النموذج الذي حقق أفضل النتائج حتى الآن، ولكن على عكس Opus، فقد أنتج نتيجة عملية دون الحاجة إلى أكثر من تكرار واحد. قد يجادل البعض بأنها كانت أكثر إمتاعًا من الناحية البصرية وتحتوي على موسيقى تصويرية، وهو ما كان ميزة، لكن منطق اللعبة وجسدها