El nuevo modelo de IA Hy3 de Tencent es el LLM chino más eficiente del que nadie habla

En breve

La vista previa de Hy3 es un modelo de mezcla de expertos de 295 mil millones de parámetros con solo 21 mil millones de parámetros activos, lo que lo hace más económico de ejecutar que la mayoría de los rivales de capacidad similar.

En SWE-bench Verified, un punto de referencia de codificación que prueba correcciones de errores reales de GitHub, saltó del 53 % (Hy2) al 74,4 %, una mejora del 40 % con respecto a la generación anterior.

El modelo ya está disponible en todo el ecosistema de aplicaciones de Tencent, incluidos Yuanbao, QQ y Tencent Docs, con acceso API en Tencent Cloud a partir de aproximadamente 0,18 dólares por millón de tokens de entrada.

Tencent abandonó silenciosamente su modelo de IA más capaz hasta el momento el jueves, y las cifras de referencia son difíciles de ignorar. La vista previa de Hy3, el primer modelo de la compañía después de una reconstrucción completa de la infraestructura, se volvió de código abierto hoy en GitHub, Hugging Face y ModelScope.

También está disponible en el sitio web oficial de Tencent Cloud, bajo un plan pago.

My3 incluye 295 mil millones de parámetros totales (una medida de la amplitud potencial de conocimiento de un modelo), pero solo 21 mil millones activos en un momento dado. Ésa es la belleza de una arquitectura de mezcla de expertos: el modelo dirige cada consulta a un subconjunto especializado de sus subredes "expertas" en lugar de ejecutar todo a la vez. Menos procesamiento, menor costo, calidad de salida más o menos similar. También admite hasta 256.000 tokens de contexto, lo que es suficiente para tragar una novela completa en un solo mensaje.

El modelo fue construido para equilibrar tres cosas que Tencent dice que dejó de sacrificar entre sí: amplitud de capacidades, evaluación honesta y rentabilidad. Su anterior buque insignia, Hy2, tenía más de 400 mil millones de parámetros. Tencent explícitamente retrocedió, argumentando que 295 mil millones es el punto óptimo donde el razonamiento madura completamente pero el costo de agregar más parámetros deja de dar sus frutos.

Esto tampoco significa que el modelo sea peor. Los modelos con mejor entrenamiento y parámetros más bajos superan con bastante frecuencia a los generalistas más grandes.

En codificación, la mejora es espectacular. SWE-bench Verified es un punto de referencia que prueba si un modelo realmente puede corregir errores reales de los repositorios de GitHub: no problemas de juguetes, sino de código de producción. Hy2 obtuvo una puntuación del 53,0%. La vista previa de Hy3 obtiene una puntuación del 74,4%. Eso es un salto del 40% en una generación, colocándolo en el rango de Claude Opus 4.6 (80,8%) y por encima del $GLM-5 (77,8%) y Kimi-K2.5 (76,8%). Terminal-Bench 2.0, que mide la ejecución autónoma de tareas en un entorno de línea de comandos real, pasó del 23,2 % al 54,4 %, también un salto enorme.

El modelo, sin embargo, puede ser una opción muy interesante para las personas que construyen con agentes. Los agentes tienen un conjunto muy complejo de instrucciones que involucran recuerdos, habilidades y llamadas de herramientas. Por lo general, se les escapa algo, lo que puede arruinar el flujo de trabajo o producir malos resultados. Es por eso que las capacidades de agencia se están volviendo cada vez más importantes para los desarrolladores de IA a medida que esta área se convierte en la más publicitada de la industria. También es la razón por la que el modelo estuvo disponible inmediatamente en Openclaw.

Ahora estamos en vivo en @openclaw https://t.co/yfytwvZSe6

– Tencent Hy (@TencentHunyuan) 23 de abril de 2026

Los agentes de búsqueda y navegación, donde los modelos deben recuperar, filtrar y sintetizar información de la web abierta sin guía humana, también mejoraron drásticamente. En BrowseComp, un punto de referencia que rastrea tareas complejas de investigación web, la vista previa de Hy3 alcanzó el 67,1% (frente al 28,7% de Hy2). En WideSearch, alcanzó el 70,2%, superando a $GLM-5 y Kimi-K2.5 pero por detrás del 77,2% de Claude Opus 4.6.

En razonamiento, el modelo superó a todos los competidores chinos en el examen de calificación de doctorado en matemáticas de la Universidad de Tsinghua (primavera de 2026), con una puntuación de 88,4 en el promedio de tres carreras con un promedio de 3. Se trata de un examen del mundo real, no de un conjunto de datos seleccionados, el tipo de evaluación que Tencent dice que está priorizando para evitar los juegos de referencia. La modelo también obtuvo una puntuación de 87,8 en la CHSBO 2025 (la olimpiada nacional de biología de escuelas secundarias de China), la más alta entre las modelos chinas en esa categoría.

La vista previa de Hy3 comenzó a entrenarse a fines de enero de 2026 y se lanzó el jueves, menos de tres meses desde el inicio en frío hasta el lanzamiento de código abierto. Inusualmente rápido para un modelo de clase fronteriza. Tencent lo atribuye a una revisión de la infraestructura en febrero dirigida por Yao Shunyu, su científico jefe de IA, quien impulsó una reconstrucción completa de la pila de aprendizaje previo y de refuerzo.

Este es un enfoque muy diferente de lo que estaban haciendo los laboratorios chinos de IA hace un año, cuando el R1 de DeepSeek sorprendió a la industria con su rentabilidad.

Hy3 todavía está detrás de los buques insignia de OpenAI y Google DeepMind, pero por la relación tamaño-rendimiento, la vista previa de Hy3 es difícil de descartar: el compuesto de referencia del agente lo muestra en la "zona óptima" con ~295 mil millones de parámetros, por delante de DeepSeek-V3.2 (600 mil millones+) y igualando a Kimi-K2.5 (más de 1 billón de parámetros) a una fracción del costo de cómputo.

Los modelos de Hunyuan ya se han implementado en Yuanbao, CodeBuddy, WorkBuddy, QQ y Tencent Docs. En CodeBuddy y WorkBuddy, la latencia del primer token se redujo un 54 %, el tiempo de generación de un extremo a otro se redujo un 47 % y el modelo ejecutó con éxito flujos de trabajo de agentes de hasta 495 pasos. Tencent Cloud ofrece acceso API a aproximadamente 0,18 dólares por millón de tokens de entrada y 0,5 dólares