Das neue KI-Modell Hy3 von Tencent ist das effizienteste chinesische LLM, über das niemand spricht

Kurz gesagt
Hy3 Preview ist ein Mixture-of-Experts-Modell mit 295 Milliarden Parametern und nur 21 Milliarden aktiven Parametern, wodurch es kostengünstiger im Betrieb ist als die meisten Konkurrenten mit ähnlicher Leistungsfähigkeit.
Beim SWE-Bench Verified – einem Coding-Benchmark, der echte GitHub-Fehlerbehebungen testet – stieg der Wert von 53 % (Hy2) auf 74,4 %, was einer Verbesserung von 40 % gegenüber der vorherigen Generation entspricht.
Das Modell ist bereits im gesamten App-Ökosystem von Tencent verfügbar, darunter Yuanbao, QQ und Tencent Docs. Der API-Zugriff auf Tencent Cloud beginnt bei etwa 0,18 US-Dollar pro Million Eingabe-Token.
Tencent hat am Donnerstag stillschweigend sein bisher leistungsfähigstes KI-Modell eingestellt, und die Benchmark-Zahlen sind kaum zu ignorieren. Die Hy3-Vorschau, das erste Modell des Unternehmens nach einem vollständigen Umbau der Infrastruktur, wurde heute auf GitHub, Hugging Face und ModelScope als Open Source veröffentlicht.
Es ist auch auf der offiziellen Website von Tencent Cloud im Rahmen eines kostenpflichtigen Plans verfügbar.
My3 umfasst insgesamt 295 Milliarden Parameter (ein Maß für die potenzielle Wissensbreite eines Modells), aber zu jedem Zeitpunkt sind nur 21 Milliarden aktiv. Das ist das Schöne an einer Mixture-of-Experts-Architektur: Das Modell leitet jede Abfrage an eine spezialisierte Teilmenge seiner „Experten“-Subnetzwerke weiter, anstatt alles auf einmal auszuführen. Weniger Rechenaufwand, geringere Kosten, ungefähr gleiche Ausgabequalität. Es unterstützt außerdem bis zu 256.000 Kontext-Tokens, was ausreicht, um einen Roman in voller Länge in einer einzigen Eingabeaufforderung zu schlucken.
Das Modell wurde entwickelt, um drei Dinge in Einklang zu bringen, von denen Tencent sagt, dass sie aufgehört haben, sich gegenseitig zu opfern: Leistungsumfang, ehrliche Bewertung und Kosteneffizienz. Ihr vorheriges Flaggschiff, Hy2, hatte über 400 Milliarden Parameter. Tencent hat dies ausdrücklich zurückgewiesen und argumentiert, dass 295 Milliarden der optimale Sweet Spot sind, an dem die Argumentation vollständig ausgereift ist, sich die Kosten für das Hinzufügen weiterer Parameter jedoch nicht mehr auszahlen.
Das bedeutet auch nicht, dass das Modell schlechter ist. Modelle mit besserem Training und niedrigeren Parametern übertreffen häufig größere generalistische Modelle.
Beim Codieren ist die Verbesserung dramatisch. SWE-bench Verified ist ein Benchmark, der testet, ob ein Modell tatsächlich echte Fehler aus GitHub-Repositories beheben kann – keine Spielzeugprobleme, sondern Produktionscode. Hy2 erzielte 53,0 %. Die Hy3-Vorschau erreicht einen Wert von 74,4 %. Das ist ein Sprung von 40 % innerhalb einer Generation und liegt im Bereich von Claude Opus 4,6 (80,8 %) und über $GLM-5 (77,8 %) und Kimi-K2,5 (76,8 %). Terminal-Bench 2.0, das die autonome Aufgabenausführung in einer echten Befehlszeilenumgebung misst, stieg von 23,2 % auf 54,4 % – ebenfalls ein gewaltiger Sprung.
Das Modell kann jedoch eine sehr interessante Wahl für Leute sein, die mit Agenten bauen. Agenten verfügen über einen sehr komplexen Satz von Anweisungen, die Erinnerungen, Fähigkeiten und Werkzeugaufrufe umfassen. Normalerweise übersehen sie etwas, was einen Arbeitsablauf ruinieren oder zu schlechten Ergebnissen führen kann. Aus diesem Grund werden Agentenfähigkeiten für KI-Entwickler immer wichtiger, da dieser Bereich zum am meisten gehypten Thema in der Branche wird. Aus diesem Grund wurde das Modell auch sofort auf Openclaw verfügbar gemacht.
Wir sind jetzt live auf @openclaw https://t.co/yfytwvZSe6
– Tencent Hy (@TencentHunyuan) 23. April 2026
Such- und Browsing-Agents – bei denen Modelle ohne menschliche Anleitung Informationen aus dem offenen Web abrufen, filtern und synthetisieren müssen – haben sich ebenfalls deutlich verbessert. Bei BrowseComp, einem Benchmark zur Verfolgung komplexer Web-Rechercheaufgaben, erreichte die Hy3-Vorschau 67,1 % (gegenüber 28,7 % bei Hy2). Bei WideSearch erreichte es 70,2 % und übertraf damit $GLM-5 und Kimi-K2,5, blieb aber hinter den 77,2 % von Claude Opus 4.6 zurück.
Das Modell übertraf alle chinesischen Konkurrenten bei der Mathematik-Doktorprüfung (Frühjahr 2026) der Tsinghua-Universität und erzielte im Durchschnitt von drei Durchgängen einen Wert von 88,4 durchschnittlich bei 3. Dabei handelt es sich um eine reale Prüfung, nicht um einen kuratierten Datensatz – die Art von Bewertung, die Tencent nach eigenen Angaben priorisiert, um Benchmark-Spiele zu vermeiden. Das Modell erzielte auch bei CHSBO 2025 (Chinas nationaler High-School-Biologieolympiade) eine Punktzahl von 87,8, die höchste unter den chinesischen Modellen in dieser Kategorie.
Die Hy3-Vorschau begann Ende Januar 2026 mit dem Training und startete am Donnerstag – weniger als drei Monate vom Kaltstart bis zur Open-Source-Veröffentlichung. Ungewöhnlich schnell für ein Modell der Grenzklasse. Tencent führt dies auf eine Überarbeitung der Infrastruktur im Februar unter der Leitung von Yao Shunyu, seinem Chef-KI-Wissenschaftler, zurück, der einen vollständigen Neuaufbau des Pre-Training- und Reinforcement-Learning-Stacks vorangetrieben hat.
Dies ist ein ganz anderer Ansatz als chinesische KI-Labore vor einem Jahr, als DeepSeeks R1 die Branche mit seiner Kosteneffizienz schockierte.
Hy3 bleibt immer noch hinter den Flaggschiffen von OpenAI und Google DeepMind zurück, aber im Verhältnis von Größe zu Leistung ist die Hy3-Vorschau kaum zu übertreffen: Der Agenten-Benchmark-Composite zeigt es im „optimalen Bereich“ mit ~295 Milliarden Parametern, vor DeepSeek-V3.2 (600 Milliarden+) und entspricht Kimi-K2.5 (über 1 Billion Parameter) bei einem Bruchteil der Rechenkosten.
Hunyuan-Modelle wurden bereits in Yuanbao, CodeBuddy, WorkBuddy, QQ und Tencent Docs eingesetzt. Bei CodeBuddy und WorkBuddy sank die Latenz des ersten Tokens um 54 %, die End-to-End-Generierungszeit sank um 47 % und das Modell führte erfolgreich Agenten-Workflows mit einer Länge von bis zu 495 Schritten aus. Tencent Cloud bietet API-Zugriff für etwa 0,18 US-Dollar pro Million Eingabe-Tokens und 0,5 US-Dollar