Tencent کا نیا Hy3 AI ماڈل سب سے زیادہ موثر چینی LLM ہے جس کے بارے میں کوئی بات نہیں کرتا ہے۔

مختصراً

Hy3 پیش نظارہ ایک 295 بلین پیرامیٹر مکسچر آف ایکسپرٹس ماڈل ہے جس میں صرف 21 بلین فعال پیرامیٹرز ہیں، جو اسی طرح کی صلاحیت کے زیادہ تر حریفوں کے مقابلے میں چلنا سستا بناتا ہے۔

SWE-bench Verified پر—ایک کوڈنگ بینچ مارک جو حقیقی GitHub بگ فکسز کی جانچ کرتا ہے—یہ 53% (Hy2) سے بڑھ کر 74.4% ہو گیا، جو پچھلی نسل کے مقابلے میں 40% بہتری ہے۔

یہ ماڈل پہلے ہی Tencent کے ایپ ایکو سسٹم پر رواں ہے جس میں Yuanbao، QQ، اور Tencent Docs شامل ہیں، Tencent Cloud پر API رسائی تقریباً $0.18 فی ملین ان پٹ ٹوکن سے شروع ہوتی ہے۔

Tencent نے خاموشی سے اپنا سب سے قابل AI ماڈل جمعرات کو چھوڑ دیا، اور بینچ مارک نمبرز کو نظر انداز کرنا مشکل ہے۔ Hy3 پیش نظارہ، مکمل انفراسٹرکچر کی تعمیر نو کے بعد کمپنی کا پہلا ماڈل، آج GitHub، Hugging Face، اور ModelScope میں اوپن سورس چلا گیا۔

یہ Tencent Cloud کی آفیشل ویب سائٹ پر بھی دستیاب ہے، ایک ادا شدہ منصوبے کے تحت۔

My3 295 بلین کل پیرامیٹرز (ایک ماڈل کے علم کی ممکنہ وسعت کی پیمائش) پیک کرتا ہے لیکن کسی بھی وقت صرف 21 بلین فعال ہے۔ یہ ایک مکسچر آف ایکسپرٹس آرکیٹیکچر کی خوبصورتی ہے — ماڈل ہر سوال کو ایک ساتھ چلانے کے بجائے اپنے "ماہر" ذیلی نیٹ ورکس کے خصوصی ذیلی سیٹ تک لے جاتا ہے۔ کم حساب، کم لاگت، تقریباً اسی طرح کی پیداوار کا معیار۔ یہ سیاق و سباق کے 256,000 ٹوکنز تک کو بھی سپورٹ کرتا ہے، جو کہ ایک پرامپٹ میں مکمل طوالت کے ناول کو نگلنے کے لیے کافی ہے۔

Tencent کا کہنا ہے کہ اس ماڈل کو تین چیزوں میں توازن پیدا کرنے کے لیے بنایا گیا تھا: اس نے ایک دوسرے کے لیے قربانی دینا بند کر دیا: صلاحیت کی وسعت، ایماندارانہ تشخیص، اور لاگت کی کارکردگی۔ ان کے پچھلے فلیگ شپ، Hy2 کے پاس 400 بلین سے زیادہ پیرامیٹرز تھے۔ Tencent واضح طور پر واپس چلا گیا، بحث کرتے ہوئے 295 بلین ایک بہترین میٹھی جگہ ہے جہاں استدلال مکمل طور پر پختہ ہو جاتا ہے لیکن مزید پیرامیٹرز کو شامل کرنے کی قیمت ادا کرنا بند کر دیتی ہے۔

اس کا یہ مطلب بھی نہیں ہے کہ ماڈل بدتر ہے۔ بہتر تربیت اور نچلے پیرامیٹرز والے ماڈل اکثر بڑے جنرلسٹ کو پیچھے چھوڑ دیتے ہیں۔

کے

کوڈنگ پر، بہتری ڈرامائی ہے۔ SWE-bench Verified ایک بینچ مارک ہے جو جانچتا ہے کہ آیا کوئی ماڈل واقعی GitHub ریپوزٹریز سے حقیقی کیڑے ٹھیک کر سکتا ہے — کھلونوں کے مسائل نہیں بلکہ پروڈکشن کوڈ۔ Hy2 نے 53.0% اسکور کیا۔ Hy3 پیش نظارہ اسکور 74.4%۔ یہ ایک جنریشن میں 40% چھلانگ ہے، جو اسے Claude Opus 4.6 (80.8%) اور اس سے اوپر $GLM-5 (77.8%) اور Kimi-K2.5 (76.8%) کی حد میں اترتا ہے۔ ٹرمینل بنچ 2.0، جو کہ ایک حقیقی کمانڈ لائن ماحول میں خود مختار ٹاسک پر عمل درآمد کی پیمائش کرتا ہے، 23.2% سے 54.4% تک چلا گیا — یہ بھی ایک بڑی چھلانگ ہے۔

ماڈل، تاہم، ایجنٹوں کے ساتھ تعمیر کرنے والے لوگوں کے لیے ایک بہت ہی دلچسپ انتخاب ہو سکتا ہے۔ ایجنٹوں کے پاس ہدایات کا ایک بہت پیچیدہ مجموعہ ہوتا ہے جس میں یادیں، مہارتیں اور ٹول کالز شامل ہوتے ہیں۔ وہ عام طور پر کچھ کھو دیتے ہیں، جو ورک فلو کو خراب کر سکتا ہے یا خراب نتائج پیدا کر سکتا ہے۔ یہی وجہ ہے کہ AI ڈویلپرز کے لیے ایجنٹ کی صلاحیتیں زیادہ سے زیادہ اہم ہوتی جا رہی ہیں کیونکہ یہ شعبہ صنعت میں سب سے زیادہ مشہور چیز بن جاتا ہے۔ یہی وجہ ہے کہ ماڈل کو فوری طور پر Openclaw پر دستیاب کر دیا گیا تھا۔

ہم اب @openclaw https://t.co/yfytwvZSe6 پر لائیو ہیں۔

— Tencent Hy (@TencentHunyuan) 23 اپریل 2026

تلاش اور براؤزنگ ایجنٹس — جہاں ماڈلز کو انسانی رہنمائی کے بغیر کھلے ویب سے معلومات کی بازیافت، فلٹر اور ترکیب کرنا ضروری ہے — میں بھی تیزی سے بہتری آئی ہے۔ BrowseComp پر، ایک بینچ مارک ٹریکنگ پیچیدہ ویب ریسرچ ٹاسک، Hy3 پیش نظارہ 67.1% تک پہنچ گیا (Hy2 کے 28.7% سے زیادہ)۔ WideSearch پر، اس نے $GLM-5 اور Kimi-K2.5 کو پیچھے چھوڑتے ہوئے 70.2% کو مارا لیکن Claude Opus 4.6 کے 77.2% سے پیچھے ہے۔

استدلال میں، ماڈل نے سنگھوا یونیورسٹی کے ریاضی پی ایچ ڈی کوالیفائنگ امتحان (بہار 2026) میں ہر چینی مدمقابل کو سرفہرست رکھا، جس نے تین رنز کی اوسط @3 پر 88.4 اسکور کیا۔ یہ ایک حقیقی دنیا کا امتحان ہے، ایک کیوریٹڈ ڈیٹاسیٹ نہیں — جس قسم کی تشخیص Tencent کا کہنا ہے کہ وہ بینچ مارک گیمنگ سے بچنے کو ترجیح دے رہا ہے۔ اس ماڈل نے CHSBO 2025 (چین کے قومی ہائی اسکول بیالوجی اولمپیاڈ) پر بھی 87.8 اسکور کیا، جو اس زمرے میں چینی ماڈلز میں سب سے زیادہ ہے۔

Hy3 پیش نظارہ نے جنوری 2026 کے آخر میں تربیت شروع کی اور جمعرات کو شروع کیا — کولڈ اسٹارٹ سے اوپن سورس ریلیز تک تین ماہ کے اندر۔ فرنٹیئر کلاس ماڈل کے لیے غیر معمولی طور پر تیز۔ Tencent نے اسے فروری کے انفراسٹرکچر کی اوور ہال سے منسوب کیا ہے جس کی سربراہی اس کے چیف AI سائنسدان Yao Shunyu کر رہے ہیں، جنہوں نے پہلے سے تربیت اور کمک سیکھنے کے اسٹیک کی مکمل تعمیر نو کو آگے بڑھایا۔

یہ اس سے بہت مختلف ہے جو چینی AI لیبز ایک سال پہلے کر رہی تھیں، جب DeepSeek کے R1 نے اپنی لاگت کی کارکردگی سے صنعت کو چونکا دیا۔

Hy3 اب بھی OpenAI اور Google DeepMind کے پرچم برداروں کو پیچھے چھوڑتا ہے، لیکن سائز سے کارکردگی کے تناسب کے لحاظ سے، Hy3 پیش نظارہ کو مسترد کرنا مشکل ہے: ایجنٹ بینچ مارک کمپوزٹ اسے ~295 بلین پیرامیٹرز کے ساتھ "بہترین زون" میں دکھاتا ہے، DeepSeek-V3.2 (600 بلین+) پر کم اوور (600 بلین+) پیرامیٹرز سے آگے۔ حسابی لاگت کا ایک حصہ۔

ہنیوان ماڈل پہلے ہی یوآن باؤ، کوڈ بڈی، ورک بڈی، کیو کیو، اور ٹینسنٹ دستاویزات میں تعینات کیے جا چکے ہیں۔ CodeBuddy اور WorkBuddy پر، پہلے ٹوکن لیٹینسی میں 54% کمی آئی، اینڈ ٹو اینڈ جنریشن ٹائم 47% گر گیا، اور ماڈل نے ایجنٹ ورک فلو کو کامیابی سے 495 قدموں تک چلایا۔ Tencent Cloud تقریباً $0.18 فی ملین ان پٹ ٹوکن اور $0.5 پر API رسائی کی پیشکش کر رہا ہے۔