Cryptonews

Claude Opus 4.7 یہاں ہے: Anthropic کا تازہ ترین ماڈل ڈیلیور کرتا ہے، لیکن یہ ایک ٹوکن ایٹنگ مشین ہے۔

ماخذ
cryptonewstrend.com
شائع شدہ
Claude Opus 4.7 یہاں ہے: Anthropic کا تازہ ترین ماڈل ڈیلیور کرتا ہے، لیکن یہ ایک ٹوکن ایٹنگ مشین ہے۔

مختصراً

انتھروپک نے ابھی تک اپنا سب سے قابل Opus ماڈل، Claude Opus 4.7 جاری کیا۔

ماڈل کوڈنگ اور استدلال میں مضبوط بینچ مارک فوائد فراہم کرتا ہے، لیکن یہ متنازعہ Mythos ماڈل نہیں ہے جو Anthropic شراکت داروں کو منتخب کرنے کے لیے پیش کرتا ہے۔

Claude Opus 4.7 نظر آنے والی سوچ اور غیر معمولی طور پر زیادہ ٹوکن کے استعمال کو ظاہر کرتا ہے۔

انتھروپک نے آج کلاؤڈ اوپس 4.7 بھیج دیا، اسے کمپنی کا اب تک کا سب سے قابل Opus ماڈل قرار دیا۔ ہم نے اس کا تجربہ کیا، اور مارکیٹنگ کی لائنیں نتائج کے ساتھ ملتی ہیں۔

"ہمارا تازہ ترین ماڈل، کلاڈ اوپس 4.7، اب عام طور پر دستیاب ہے۔" کمپنی نے اپنے سرکاری اعلان میں کہا۔ "صارفین اپنے سب سے مشکل کوڈنگ کے کام کو - جس قسم کی پہلے قریبی نگرانی کی ضرورت تھی - اعتماد کے ساتھ Opus 4.7 کے حوالے کرنے کے قابل ہونے کی اطلاع دیتے ہیں۔"

ماڈل Opus 4.6 کے بارے میں صارفین کی شکایات کے ہفتوں کے بعد پہنچتا ہے جو مبینہ طور پر اپنے کنارے کو کھو رہا ہے۔ GitHub، Reddit، اور X کے ڈویلپرز نے اسے دستاویزی شکل دی جسے انہوں نے "AI shrinkflation" کہتے ہیں — یہ احساس کہ جس ماڈل کی وہ ادائیگی کر رہے تھے خاموشی سے خراب ہو گیا تھا۔ جیسا کہ ہم نے کل اطلاع دی، انتھروپک پہلے سے ہی 4.7 کی تیاری کر رہا تھا جب کہ اس سے کہیں زیادہ طاقتور چیز پر بیٹھا تھا جسے وہ عوامی طور پر جاری نہیں کر سکتا: کلاڈ میتھوس۔

میں

جب آج صبح یہ اعلان ختم ہوا، تو X صارفین جو 4.6 کے انحطاط کے بارے میں سب سے زیادہ بلند آواز میں تھے، طنزیہ انداز میں جواب دینے لگے: Opus 4.7، کچھ نے مذاق کیا، ایسا محسوس ہوا کہ "ابتدائی Opus 4.6" — وہ ورژن جو لوگوں کو اصل میں پسند آیا، اس سے پہلے کہ وہ یقین کریں کہ Anthropic خاموشی سے ڈائل کو ٹھکرا دیتا ہے۔ انتھروپک نے، یقیناً، کمپیوٹ کی طلب کو منظم کرنے کے لیے ماڈل کے وزن کو کم کرنے سے انکار کیا ہے۔

آپس 4.6 pic.twitter.com/hpwNkrq1tD میں دوبارہ خوش آمدید

— Dev Ed (@developedbyed) اپریل 16، 2026

بینچ مارکس انتھروپک کے دعووں کی پشت پناہی کرتے ہیں۔ SWE-bench Multilingual پر، ایک بینچ مارک جو کوڈنگ کی مہارتوں کی پیمائش کرتا ہے، Opus 4.7 نے 4.6 کے 77.8% کے مقابلے میں 80.5% اسکور کیا۔

GDPVal-AA پر، فنانس اور قانونی ڈومینز میں معاشی طور پر قابل قدر علمی کام کی ایک تیسری پارٹی کی تشخیص، 4.7 نے GPT-5.4 کے 1,674 کے مقابلے میں 1,753 Elo اسکور کیے — جو قریب ترین حریف پر واضح مارجن ہے۔

آفس کیو اے پرو کے ذریعے دستاویزی استدلال نے سب سے زیادہ چھلانگ دکھائی: 4.7 کے لیے 80.6٪ بمقابلہ 4.6 کے لیے 57.1٪، GPT-5.4 اور Gemini 3.1 Pro بالترتیب 51.1٪ اور 42.9٪ کے ساتھ پیچھے ہیں۔ Vending-Bench 2 پر طویل مدتی ہم آہنگی، ایک بینچ مارک جو اس بات کی پیمائش کرتا ہے کہ کتنے اچھے ماڈلز طویل تناظر میں ہیں اور وینڈنگ کاروبار کا مالک ہونا، $10,937 منی بیلنس بمقابلہ $8,018 for 4.6—ایک پراکسی ہے کہ ماڈل طویل خودمختار رنز پر مفید رویے کو کس حد تک برقرار رکھتا ہے۔

سائبرسیکیوریٹی ایک ایسا شعبہ ہے جہاں انتھروپک نے جان بوجھ کر پیچھے ہٹنا ہے۔ Opus 4.7 کا آغاز خودکار حفاظتی اقدامات کے ساتھ ہوتا ہے جو ممنوعہ یا زیادہ خطرے والی سائبر سیکیورٹی درخواستوں کا پتہ لگاتے اور انہیں روکتے ہیں۔ اینتھروپک نے تصدیق کی کہ اس نے تربیت کے دوران 4.7 کی سائبر صلاحیتوں کو "مختلف طریقے سے کم کرنے کی کوششوں کے ساتھ تجربہ کیا"۔

سیکورٹی پیشہ ور افراد ان خصوصیات تک رسائی کے لیے سائبر تصدیقی پروگرام کے لیے درخواست دے سکتے ہیں۔ یہ حفاظتی اقدامات کے لیے کمپنی کا ٹیسٹ رن ہے جسے آخر کار اسے Mythos-کلاس ماڈلز کے ساتھ پیمانے پر تعینات کرنے کی ضرورت ہوگی۔

Opus 4.7 عوامی طور پر دستیاب سب سے طاقتور ماڈل ہے۔ Mythos Preview، Anthropic کا حقیقی فرنٹیئر ماڈل، جانچ شدہ سیکیورٹی فرموں تک ہی محدود ہے۔ جیسا کہ برطانیہ کے AI سیکیورٹی انسٹی ٹیوٹ نے گزشتہ ہفتے جائزہ لیا، Mythos پہلا AI تھا جس نے "The Last Ones" کو مکمل کیا، ایک 32 قدموں پر مشتمل کارپوریٹ نیٹ ورک اٹیک سمولیشن جس میں عام طور پر انسانی ریڈ ٹیموں کو 20 گھنٹے لگتے ہیں۔

Opus 4.7 ایسا نہیں ہے۔ لیکن یہ عوام کا سامنا کرنے والا ماڈل ہے جسے Anthropic یہ جاننے کے لیے استعمال کرے گا کہ وہ حفاظتی گڑھے جنگلی میں کیسے روکے رہتے ہیں اس سے پہلے کہ وہ کسی بھی خوفناک چیز کو جاری کرنے کی ہمت کرے۔

ٹوکن سائیڈ پر، Opus 4.7 ایک اپ ڈیٹ شدہ ٹوکنائزر کا استعمال کرتا ہے جو مواد کی قسم کے لحاظ سے تقریباً 1.0x–1.35x زیادہ ٹوکنز پر ایک ہی ان پٹ کا نقشہ بنا سکتا ہے۔ یہ ماڈل اعلیٰ کوششوں کی سطحوں پر بھی زیادہ وجوہات پیش کرتا ہے، خاص طور پر ایجنٹی ورک فلو میں بعد میں آنے پر۔ اینتھروپک نے 4.6 سے اپ گریڈ کرنے کی منصوبہ بندی کرنے والے ڈویلپرز کے لیے ایک مائیگریشن گائیڈ شائع کیا۔

ہم نے اپنا ٹیسٹ چلایا — وہی گیم بلڈنگ پرامپٹ جسے ہم نے ہر بڑے ماڈل کی ریلیز کا جائزہ لینے کے لیے استعمال کیا ہے۔ Opus 4.7 نے وہ بہترین نتیجہ پیش کیا جو ہم نے کسی بھی ماڈل سے حاصل کیا ہے۔ سب سے زیادہ بصری طور پر پالش گیم، سب سے زیادہ حقیقی طور پر چیلنج کرنے والا مشکل وکر، بہترین میکینکس، اور سب سے زیادہ تخلیقی جیت اور نقصان کی سکرین۔ یہ طریقہ کار سے سطحیں پیدا کرتا دکھائی دیتا ہے، اور ان میں سے کسی کو بھی ناممکن محسوس نہیں ہوتا تھا - ایک ایسا توازن جس نے دوسرے ماڈلز کو بار بار ٹرپ کیا ہو۔

آپ یہاں کھیل کی جانچ کر سکتے ہیں۔

Emerge: The Game، Claude Opus 4.7 کے ذریعے تخلیق کیا گیا۔

یہ صفر شاٹ نہیں تھا۔ Opus 4.6 نے بغیر کسی اصلاحات کے اسی ٹیسٹ کو کلیئر کر دیا تھا۔ Opus 4.7 کو بگ فکسز کے ایک دور کی ضرورت ہے۔ یہ بدقسمتی ہو سکتی ہے — ایک ہی تکرار ایک پتلا نمونہ ہے — لیکن یہ قابل توجہ ہے۔ جس چیز نے ہمیں زیادہ متاثر کیا وہ یہ تھا کہ ماڈل نے اس راؤنڈ کو کیسے ہینڈل کیا: اس نے ان کی طرف رہنمائی کیے بغیر اپنے طور پر اضافی کیڑے دیکھے۔ Opus 4.6 عام طور پر یہ بتانے کا انتظار کرتا تھا کہ کہاں دیکھنا ہے۔

Xiaomi MiMo v2 Pro اب تک بہترین نتائج کے ساتھ ماڈل تھا، لیکن Opus کے برعکس، اس نے ایک سے زیادہ تکرار کی ضرورت کے بغیر کام کرنے والا نتیجہ پیش کیا۔ کچھ لوگ بحث کر سکتے ہیں کہ یہ زیادہ بصری طور پر خوش کن تھا اور اس میں ساؤنڈ ٹریک تھا، جو کہ ایک فائدہ تھا، لیکن گیم کی منطق اور طبیعیات