Le nouveau modèle d'IA Hy3 de Tencent est le LLM chinois le plus efficace dont personne ne parle

En bref

L'aperçu Hy3 est un modèle de mélange d'experts de 295 milliards de paramètres avec seulement 21 milliards de paramètres actifs, ce qui le rend moins cher à exécuter que la plupart des concurrents ayant des capacités similaires.

Sur SWE-bench Verified, une référence de codage testant de véritables corrections de bogues GitHub, il est passé de 53 % (Hy2) à 74,4 %, soit une amélioration de 40 % par rapport à la génération précédente.

Le modèle est déjà opérationnel dans l'écosystème d'applications de Tencent, notamment Yuanbao, QQ et Tencent Docs, avec un accès API sur Tencent Cloud à partir d'environ 0,18 $ par million de jetons d'entrée.

Tencent a discrètement abandonné jeudi son modèle d'IA le plus performant à ce jour, et les chiffres de référence sont difficiles à ignorer. L'aperçu Hy3, le premier modèle de l'entreprise après une reconstruction complète de l'infrastructure, est devenu aujourd'hui open source sur GitHub, Hugging Face et ModelScope.

Il est également disponible sur le site officiel de Tencent Cloud, sous un forfait payant.

My3 contient 295 milliards de paramètres au total (une mesure de l'étendue potentielle des connaissances d'un modèle) mais seulement 21 milliards actifs à un moment donné. C'est là la beauté d'une architecture mixte d'experts : le modèle achemine chaque requête vers un sous-ensemble spécialisé de ses sous-réseaux « experts » au lieu de tout exécuter en même temps. Moins de calcul, coût inférieur, qualité de sortie à peu près similaire. Il prend également en charge jusqu'à 256 000 jetons de contexte, ce qui est suffisant pour avaler un roman complet en une seule invite.

Le modèle a été conçu pour équilibrer trois éléments que Tencent affirme avoir cessé de sacrifier les uns pour les autres : l'étendue des capacités, l'évaluation honnête et la rentabilité. Leur précédent produit phare, Hy2, comptait plus de 400 milliards de paramètres. Tencent est explicitement revenu sur ce point, arguant que 295 milliards constituent le point idéal où le raisonnement mûrit pleinement, mais où le coût de l'ajout de paramètres supplémentaires cesse de porter ses fruits.

Cela ne signifie pas non plus que le modèle est pire. Les modèles avec une meilleure formation et des paramètres plus faibles surpassent assez souvent les modèles généralistes plus grands.

Concernant le codage, l’amélioration est spectaculaire. SWE-bench Verified est un benchmark qui teste si un modèle peut réellement corriger de vrais bugs provenant des référentiels GitHub – pas des problèmes de jouets, mais du code de production. Hy2 a obtenu un score de 53,0 %. L’aperçu Hy3 obtient un score de 74,4 %. Cela représente un bond de 40 % en une génération, ce qui le place dans la gamme Claude Opus 4,6 (80,8 %) et au-dessus de $GLM-5 (77,8 %) et Kimi-K2,5 (76,8 %). Terminal-Bench 2.0, qui mesure l'exécution autonome des tâches dans un véritable environnement de ligne de commande, est passé de 23,2 % à 54,4 %, soit également un bond considérable.

Le modèle peut cependant être un choix très intéressant pour les personnes construisant avec des agents. Les agents disposent d’un ensemble d’instructions très complexes qui impliquent des souvenirs, des compétences et des appels d’outils. Ils manquent généralement quelque chose, ce qui peut ruiner un flux de travail ou produire de mauvais résultats. C’est pourquoi les capacités agentiques deviennent de plus en plus importantes pour les développeurs d’IA, car ce domaine devient le domaine le plus en vogue dans l’industrie. C’est aussi pourquoi le modèle a été immédiatement mis à disposition sur Openclaw.

Nous sommes maintenant en direct sur @openclaw https://t.co/yfytwvZSe6

– Tencent Hy (@TencentHunyuan) 23 avril 2026

Les agents de recherche et de navigation, dans lesquels les modèles doivent récupérer, filtrer et synthétiser les informations du Web ouvert sans assistance humaine, se sont également considérablement améliorés. Sur BrowseComp, une référence qui suit les tâches de recherche Web complexes, l'aperçu Hy3 a atteint 67,1 % (contre 28,7 % pour Hy2). Sur WideSearch, il a atteint 70,2 %, surperformant $GLM-5 et Kimi-K2.5 mais derrière les 77,2 % de Claude Opus 4.6.

En termes de raisonnement, le modèle a dominé tous les concurrents chinois à l'examen de qualification de doctorat en mathématiques de l'Université Tsinghua (printemps 2026), avec une note de 88,4 sur la moyenne de trois passages moy@3. Il s’agit d’un examen réel, pas d’un ensemble de données organisées – le type d’évaluation que Tencent dit privilégier pour éviter les jeux de référence. Le modèle a également obtenu un score de 87,8 au CHSBO 2025 (l'olympiade nationale chinoise de biologie des lycées), le plus élevé parmi les modèles chinois dans cette catégorie.

La préversion Hy3 a commencé sa formation fin janvier 2026 et a été lancée jeudi, soit moins de trois mois entre le démarrage à froid et la version open source. Exceptionnellement rapide pour un modèle de classe frontière. Tencent l'attribue à une refonte de l'infrastructure menée en février par Yao Shunyu, son scientifique en chef en IA, qui a poussé une reconstruction complète de la pile d'apprentissage de pré-formation et de renforcement.

Il s'agit d'une approche très différente de celle adoptée par les laboratoires chinois d'IA il y a un an, lorsque le R1 de DeepSeek a choqué l'industrie par sa rentabilité.

Hy3 est toujours à la traîne des produits phares d'OpenAI et de Google DeepMind, mais en termes de rapport taille/performance, l'aperçu de Hy3 est difficile à ignorer : le composite de référence de l'agent le montre dans la « zone optimale » avec environ 295 milliards de paramètres, devant DeepSeek-V3.2 (600 milliards+) et correspondant à Kimi-K2.5 (plus de 1 000 milliards de paramètres) pour une fraction du coût de calcul.

Les modèles Hunyuan ont déjà été déployés sur Yuanbao, CodeBuddy, WorkBuddy, QQ et Tencent Docs. Sur CodeBuddy et WorkBuddy, la latence du premier jeton a chuté de 54 %, le temps de génération de bout en bout de 47 % et le modèle a exécuté avec succès des flux de travail d'agent sur une durée de 495 étapes. Tencent Cloud offre un accès API à environ 0,18 $ par million de jetons d'entrée et 0,5 $