Новая модель искусственного интеллекта Hy3 от Tencent — самая эффективная китайская LLM, о которой никто не говорит

Вкратце

Предварительная версия Hy3 — это модель Mixture-of-Experts с 295 миллиардами параметров и всего 21 миллиардом активных параметров, что делает ее эксплуатацию дешевле, чем у большинства конкурентов с аналогичными возможностями.

В SWE-bench Verified — эталонном тесте кодирования, проверяющем реальные исправления ошибок GitHub — этот показатель подскочил с 53% (Hy2) до 74,4%, что на 40% лучше, чем в предыдущем поколении.

Модель уже используется в экосистеме приложений Tencent, включая Yuanbao, QQ и Tencent Docs, а доступ к API в Tencent Cloud начинается примерно с 0,18 доллара США за миллион входных токенов.

В четверг Tencent незаметно отказалась от своей самой мощной модели искусственного интеллекта, и эти контрольные показатели трудно игнорировать. Предварительная версия Hy3, первая модель компании после полной перестройки инфраструктуры, сегодня стала доступна с открытым исходным кодом на GitHub, Hugging Face и ModelScope.

Он также доступен на официальном сайте Tencent Cloud по платному плану.

My3 содержит 295 миллиардов общих параметров (измерение потенциальной широты знаний модели), но в любой момент времени активен только 21 миллиард. В этом прелесть архитектуры «Смесь экспертов»: модель направляет каждый запрос в специализированное подмножество своих «экспертных» подсетей вместо того, чтобы выполнять все сразу. Меньше вычислений, меньше затрат, примерно такое же качество продукции. Он также поддерживает до 256 000 токенов контекста, чего достаточно, чтобы проглотить полноценный роман за одну подсказку.

Модель была построена так, чтобы сбалансировать три вещи, которыми, по словам Tencent, они перестали жертвовать друг для друга: широта возможностей, честная оценка и экономическая эффективность. Их предыдущий флагман Hy2 имел более 400 миллиардов параметров. Tencent открыто опровергла это мнение, заявив, что 295 миллиардов — это оптимальная золотая середина, при которой рассуждения полностью созревают, но затраты на добавление дополнительных параметров перестают окупаться.

Это также не значит, что модель хуже. Модели с лучшим обучением и более низкими параметрами довольно часто превосходят более универсальные модели.

Что касается кодирования, улучшение впечатляет. SWE-bench Verified — это тест, который проверяет, действительно ли модель может исправить реальные ошибки из репозиториев GitHub — не игрушечные проблемы, а рабочий код. Hy2 набрал 53,0%. Предварительный просмотр Hy3 набирает 74,4%. Это скачок на 40% за одно поколение, что соответствует диапазону Claude Opus 4.6 (80,8%) и выше $GLM-5 (77,8%) и Kimi-K2.5 (76,8%). Показатель Terminal-Bench 2.0, который измеряет автономное выполнение задач в реальной среде командной строки, увеличился с 23,2% до 54,4% — тоже огромный скачок.

Однако эта модель может оказаться очень интересным выбором для людей, работающих с агентами. У агентов очень сложный набор инструкций, включающий в себя память, навыки и вызовы инструментов. Обычно они что-то упускают, что может испортить рабочий процесс или привести к плохим результатам. Вот почему агентные возможности становятся все более важными для разработчиков ИИ, поскольку эта область становится самой разрекламированной в отрасли. Именно поэтому модель сразу же стала доступна на Openclaw.

Теперь мы в прямом эфире на @openclaw https://t.co/yfytwvZSe6.

– Тенсент Хай (@TencentHunyuan) 23 апреля 2026 г.

Агенты поиска и просмотра, где модели должны извлекать, фильтровать и синтезировать информацию из открытой сети без участия человека, также резко улучшились. На BrowseComp, эталонном тесте, отслеживающем сложные задачи веб-исследований, предварительный просмотр Hy3 достиг 67,1% (по сравнению с 28,7% у Hy2). На WideSearch он достиг 70,2%, опередив $GLM-5 и Kimi-K2.5, но отстав от Claude Opus 4.6 с 77,2%.

По рассуждениям, модель превзошла всех китайских конкурентов на квалификационном экзамене на степень доктора философии по математике в Университете Цинхуа (весна 2026 г.), набрав 88,4 балла в среднем за три сдачи в среднем avg@3. Это реальный экзамен, а не тщательно подобранный набор данных — такой вид оценки, по словам Tencent, она отдает приоритет избеганию бенчмарков в играх. Модель также набрала 87,8 баллов на CHSBO 2025 (Национальная олимпиада по биологии среди школьников Китая), что является самым высоким показателем среди китайских моделей в этой категории.

Обучение предварительной версии Hy3 началось в конце января 2026 года и было запущено в четверг — с момента холодного запуска до выпуска с открытым исходным кодом прошло менее трех месяцев. Необычно быстро для модели передового класса. Tencent связывает это с февральским капитальным ремонтом инфраструктуры, который возглавил Яо Шуньюй, главный научный сотрудник компании по искусственному интеллекту, который инициировал полную перестройку стека предварительного обучения и обучения с подкреплением.

Этот подход сильно отличается от того, что использовали китайские лаборатории искусственного интеллекта год назад, когда R1 компании DeepSeek шокировал отрасль своей экономической эффективностью.

Hy3 по-прежнему отстает от флагманов OpenAI и Google DeepMind, но по соотношению размера и производительности предварительный просмотр Hy3 трудно игнорировать: совокупный тест агента показывает, что он находится в «оптимальной зоне» с ~ 295 миллиардами параметров, опережая DeepSeek-V3.2 (600 миллиардов+) и соответствующий Kimi-K2.5 (более 1 триллиона вычислительных параметров) при гораздо меньшей стоимости.

Модели Hunyuan уже используются в Yuanbao, CodeBuddy, WorkBuddy, QQ и Tencent Docs. В CodeBuddy и WorkBuddy задержка первого токена снизилась на 54 %, время сквозной генерации сократилось на 47 %, а модель успешно запускала рабочие процессы агента длиной до 495 шагов. Tencent Cloud предлагает доступ к API по цене примерно 0,18 доллара США за миллион входных токенов и 0,5 доллара США.