Cryptonews

يعد نموذج Hy3 AI الجديد من Tencent هو أكثر برامج LLM الصينية كفاءة والتي لا يتحدث عنها أحد

المصدر
cryptonewstrend.com
نُشر في
يعد نموذج Hy3 AI الجديد من Tencent هو أكثر برامج LLM الصينية كفاءة والتي لا يتحدث عنها أحد

باختصار

معاينة Hy3 عبارة عن نموذج مزيج من الخبراء يضم 295 مليار معلمة مع 21 مليار معلمة نشطة فقط، مما يجعل تشغيلها أرخص من معظم المنافسين ذوي القدرات المماثلة.

في اختبار SWE-bench Verified - وهو معيار ترميز يختبر إصلاحات حقيقية لأخطاء GitHub - قفز من 53% (Hy2) إلى 74.4%، وهو تحسن بنسبة 40% مقارنة بالجيل السابق.

النموذج موجود بالفعل عبر النظام البيئي لتطبيق Tencent بما في ذلك Yuanbao وQQ وTencent Docs، مع إمكانية الوصول إلى واجهة برمجة التطبيقات على Tencent Cloud بدءًا من 0.18 دولار تقريبًا لكل مليون رمز إدخال.

أسقطت Tencent بهدوء نموذج الذكاء الاصطناعي الأكثر قدرة حتى الآن يوم الخميس، ومن الصعب تجاهل الأرقام القياسية. أصبحت معاينة Hy3، النموذج الأول للشركة بعد إعادة بناء البنية التحتية بالكامل، مفتوحة المصدر اليوم عبر GitHub وHugging Face وModelScope.

إنه متاح أيضًا على الموقع الرسمي لـ Tencent Cloud، بموجب خطة مدفوعة.

يحتوي My3 على 295 مليار معلمة إجمالية (قياس لاتساع المعرفة المحتمل للنموذج) ولكن 21 مليار فقط نشطة في أي وقت محدد. هذا هو جمال بنية مزيج الخبراء - حيث يقوم النموذج بتوجيه كل استعلام إلى مجموعة فرعية متخصصة من شبكاته الفرعية "الخبيرة" بدلاً من تشغيل كل شيء مرة واحدة. حوسبة أقل، وتكلفة أقل، وجودة مخرجات مماثلة تقريبًا. كما أنه يدعم ما يصل إلى 256000 رمزًا مميزًا للسياق، وهو ما يكفي لابتلاع رواية كاملة في دفعة واحدة.

تم بناء النموذج لتحقيق التوازن بين ثلاثة أشياء تقول شركة Tencent إنها توقفت عن التضحية ببعضها البعض: اتساع القدرات، والتقييم الصادق، وفعالية التكلفة. كان الرائد السابق، Hy2، يحتوي على أكثر من 400 مليار معلمة. لقد تراجعت شركة Tencent عن ذلك صراحةً، بحجة أن 295 مليار دولار هي النقطة المثالية المثالية حيث ينضج المنطق تمامًا ولكن تكلفة إضافة المزيد من المعلمات تتوقف عن سدادها.

وهذا لا يعني أيضًا أن النموذج أسوأ. النماذج ذات التدريب الأفضل والمعلمات الأقل تتفوق في كثير من الأحيان على النماذج العامة الأكبر.

فيما يتعلق بالبرمجة، كان التحسن هائلاً. SWE-bench Verified هو معيار يختبر ما إذا كان النموذج يمكنه بالفعل إصلاح الأخطاء الحقيقية من مستودعات GitHub - وليس مشاكل الألعاب، ولكن كود الإنتاج. وسجل Hy2 53.0%. حصلت معاينة Hy3 على 74.4%. هذه قفزة بنسبة 40٪ في جيل واحد، مما يجعلها في نطاق Claude Opus 4.6 (80.8٪) وما فوق $GLM-5 (77.8٪) وKimi-K2.5 (76.8٪). وارتفعت نسبة Terminal-Bench 2.0، الذي يقيس تنفيذ المهام المستقلة في بيئة سطر أوامر حقيقية، من 23.2% إلى 54.4%، وهي أيضًا قفزة هائلة.

ومع ذلك، يمكن أن يكون النموذج خيارًا مثيرًا للاهتمام جدًا للأشخاص الذين يبنون مع وكلاء. لدى الوكلاء مجموعة معقدة جدًا من التعليمات التي تتضمن الذكريات والمهارات واستدعاءات الأدوات. عادةً ما يفتقدون شيئًا ما، مما قد يدمر سير العمل أو يؤدي إلى نتائج سيئة. ولهذا السبب أصبحت القدرات الوكيلة أكثر أهمية بالنسبة لمطوري الذكاء الاصطناعي حيث أصبح هذا المجال هو الشيء الأكثر إثارة للاهتمام في الصناعة. ولهذا السبب أيضًا أصبح النموذج متاحًا على الفور على Openclaw.

نحن الآن نعيش على @openclaw https://t.co/yfytwvZSe6

– تينسنت هاي (TencentHunyuan) 23 أبريل 2026

كما تحسنت بشكل كبير أيضًا وكلاء البحث والتصفح - حيث يجب على النماذج استرداد المعلومات وتصفيتها وتوليفها من الويب المفتوح دون توجيه بشري. في BrowseComp، وهو معيار لتتبع مهام بحث الويب المعقدة، وصلت معاينة Hy3 إلى 67.1% (مقارنة بـ 28.7% في Hy2). في WideSearch، وصل إلى 70.2%، متفوقًا على $GLM-5 وKimi-K2.5 لكنه متخلفًا عن أداء Claude Opus 4.6 الذي بلغ 77.2%.

في الاستدلال، تفوق النموذج على كل المنافسين الصينيين في الامتحان التأهيلي لدرجة الدكتوراه في الرياضيات بجامعة تسينغهوا (ربيع 2026)، حيث حصل على 88.4 نقطة في المتوسط ​​من ثلاثة أشواط متوسطها 3. هذا اختبار حقيقي، وليس مجموعة بيانات منسقة، وهو نوع التقييم الذي تقول Tencent إنها تعطيه الأولوية لتجنب الألعاب المعيارية. وسجل النموذج أيضًا 87.8 نقطة في CHSBO 2025 (الأولمبياد الوطني لعلم الأحياء في المدارس الثانوية الصينية)، وهي أعلى درجة بين النماذج الصينية في تلك الفئة.

بدأت معاينة Hy3 التدريب في أواخر يناير 2026 وتم إطلاقها يوم الخميس - في أقل من ثلاثة أشهر من البداية الباردة إلى الإصدار مفتوح المصدر. سريع بشكل غير عادي بالنسبة لنموذج من الدرجة الحدودية. تعزو تينسنت ذلك إلى إصلاح البنية التحتية في شهر فبراير بقيادة ياو شونيو، كبير علماء الذكاء الاصطناعي، الذي دفع إلى إعادة بناء كاملة لمجموعة التدريب المسبق والتعلم المعزز.

وهذا نهج مختلف تمامًا عما كانت تفعله مختبرات الذكاء الاصطناعي الصينية قبل عام، عندما صدم مختبر DeepSeek R1 الصناعة بفعاليته من حيث التكلفة.

لا يزال Hy3 يتخلف عن OpenAI وGoogle DeepMind الرائدين، ولكن من حيث نسبة الحجم إلى الأداء، يصعب استبعاد معاينة Hy3: يُظهرها مركب اختبار الوكيل في "المنطقة المثالية" مع 295 مليار معلمة تقريبًا، متقدمًا على DeepSeek-V3.2 (600 مليار+) ومطابقة Kimi-K2.5 (أكثر من 1 تريليون معلمة) بجزء صغير من تكلفة الحوسبة.

تم بالفعل نشر نماذج Hunyuan عبر Yuanbao وCodeBuddy وWorkBuddy وQQ وTencent Docs. في CodeBuddy وWorkBuddy، انخفض زمن استجابة الرمز المميز الأول بنسبة 54%، وانخفض وقت الإنشاء الشامل بنسبة 47%، ونجح النموذج في تشغيل مسارات عمل الوكيل بطول 495 خطوة. تقدم Tencent Cloud إمكانية الوصول إلى واجهة برمجة التطبيقات بحوالي 0.18 دولارًا أمريكيًا لكل مليون رمز إدخال و0.5 دولارًا أمريكيًا