Cryptonews

腾讯新Hy3 AI模型是无人谈论的最高效的中国LLM

来源
cryptonewstrend.com
已发布
腾讯新Hy3 AI模型是无人谈论的最高效的中国LLM

简而言之

Hy3 预览版是一个拥有 2950 亿个参数的专家混合模型,只有 210 亿个活动参数,使其运行成本比大多数具有类似功能的竞争对手要便宜。

在 SWE-bench Verified(测试真正 GitHub 错误修复的编码基准测试)上,它从 53% (Hy2) 跃升至 74.4%,比上一代提高了 40%。

该模型已经在腾讯的应用生态系统中上线,包括元宝、QQ 和腾讯文档,腾讯云上的 API 访问起价约为每百万输入代币 0.18 美元。

周四,腾讯悄悄放弃了迄今为止最强大的人工智能模型,基准数据不容忽视。 Hy3 预览版是该公司在全面重建基础设施后的第一个模型,今天在 GitHub、Hugging Face 和 ModelScope 上开源。

它也可以在腾讯云的官方网站上以付费套餐的形式提供。

My3 包含 2950 亿个总参数(模型潜在知识广度的衡量标准),但在任何给定时间只有 210 亿个活跃参数。这就是专家混合架构的优点 - 该模型将每个查询路由到其“专家”子网络的专门子集,而不是立即运行所有内容。计算量更少,成本更低,输出质量大致相似。它还支持多达 256,000 个上下文标记,这足以在一次提示中吞下一本完整的小说。

该模型的建立是为了平衡腾讯表示不再为彼此牺牲的三件事:能力广度、诚实评估和成本效率。他们之前的旗舰产品 Hy2 拥有超过 4000 亿个参数。腾讯明确反驳了这一观点,认为 2950 亿美元是推理完全成熟的最佳点,但添加更多参数的成本将不再获得回报。

这也不意味着该模型更糟糕。具有更好训练和更低参数的模型经常优于更大的通才模型。

在编码方面,进步是巨大的。 SWE-bench Verified 是一个基准测试,用于测试模型是否能够真正修复 GitHub 存储库中的真正错误——不是玩具问题,而是生产代码。 Hy2得分53.0%。 Hy3 预览得分 74.4%。这是一代人的 40% 的跳跃,落在 Claude Opus 4.6 (80.8%) 的范围内,并高于 $GLM-5 (77.8%) 和 Kimi-K2.5 (76.8%)。 Terminal-Bench 2.0 测量真实命令行环境中的自主任务执行情况,从 23.2% 上升到 54.4%,这也是一个巨大的飞跃。

然而,对于使用代理进行构建的人来说,该模型可能是一个非常有趣的选择。代理有一组非常复杂的指令,涉及记忆、技能和工具调用。他们通常会错过一些东西,这可能会破坏工作流程或产生糟糕的结果。这就是为什么代理能力对于人工智能开发人员来说变得越来越重要,因为这个领域已成为业界最受关注的领域。这也是该模型立即在 Openclaw 上提供的原因。

我们现在在@openclaw https://t.co/yfytwvZSe6 上直播

— 腾讯 Hy (@TencentHunyuan) 2026 年 4 月 23 日

搜索和浏览代理(模型必须在没有人工指导的情况下从开放网络检索、过滤和合成信息)也大幅改进。在 BrowseComp(跟踪复杂网络研究任务的基准)上,Hy3 预览达到 67.1%(高于 Hy2 的 28.7%)。在 WideSearch 上,它达到了 70.2%,优于 $GLM-5 和 Kimi-K2.5,但落后于 Claude Opus 4.6 的 77.2%。

在推理方面,该模型在清华大学数学博士资格考试(2026 年春季)中领先所有中国参赛者,三轮平均得分为 88.4 avg@3。这是一次真实世界的考试,而不是精心策划的数据集——腾讯表示,它优先考虑避免基准游戏的评估。该模型还在 CHSBO 2025(中国全国高中生物奥林匹克竞赛)上获得了 87.8 分,是该类别中中国模型中最高的。

Hy3 预览版于 2026 年 1 月下旬开始培训,并于周四推出——从冷启动到开源发布不到三个月。对于前沿级模型来说速度异常快。腾讯将其归因于其首席人工智能科学家姚舜宇领导的二月份基础设施检修,他推动了预训练和强化学习堆栈的全面重建。

这与一年前中国人工智能实验室的做法截然不同,当时 DeepSeek 的 R1 以其成本效率震惊了业界。

Hy3 仍然落后于 OpenAI 和 Google DeepMind 的旗舰产品,但从尺寸与性能比来看,Hy3 预览版很难被忽视:智能体基准测试综合显示,它处于“最佳区域”,拥有约 2950 亿个参数,领先于 DeepSeek-V3.2(超过 6000 亿个参数),并以计算成本的一小部分匹配 Kimi-K2.5(超过 1 万亿个参数)。

混元模型已经在元宝、CodeBuddy、WorkBuddy、QQ、腾讯文档上部署。在 CodeBuddy 和 WorkBuddy 上,第一个令牌延迟下降了 54%,端到端生成时间下降了 47%,并且该模型成功运行了长达 495 个步骤的代理工作流程。腾讯云以每百万输入代币约 0.18 美元和 0.5 美元的价格提供 API 访问