Tether stellt medizinische KI vor, die auf Telefonen läuft, viel größere SoTA-Modelle übertrifft und die Cloud komplett ausschalten kann

7. Mai 2026 – Die KI-Forschungsgruppe von Tether hat heute QVAC MedPsy vorgestellt, eine neue Klasse medizinischer Sprachmodelle, die direkt auf Smartphones, Wearables und anderen Geräten mit begrenzter Rechenleistung ausgeführt werden können und eine Leistung bieten, die mit deutlich größeren Modellen mithalten kann und diese in einigen Fällen übertrifft, während sie gleichzeitig lokal und privat bleiben. Anstatt die Leistung über die Modellgröße zu skalieren, konzentriert sich das System auf Effizienz, reduziert sowohl den Rechenbedarf als auch die Abhängigkeit von der Remote-Cloud-Infrastruktur.

Heutzutage sind die meisten Systeme immer noch auf große Modelle angewiesen, die auf Remote-Servern laufen, sodass vertrauliche Daten über einen Cloud-Server übertragen werden müssen. Im Gesundheitswesen gehören dazu Patientenakten, Diagnoseanfragen und klinische Notizen, die alle strengen Datenschutz- und Compliance-Vorgaben unterliegen. Da der Markt von heute etwa 36 Milliarden US-Dollar auf Prognosen von mehr als 500 Milliarden US-Dollar im Jahr 2033 anwächst, wird es immer schwieriger, diese Architektur zu rechtfertigen.

Diese Version stellt eine der am weitesten verbreiteten Annahmen in der KI in Frage, dass eine bessere Leistung größere Modelle und mehr Rechenleistung erfordert. Stattdessen stellt QVAC MedPsy dieses Modell um. Ein Modell mit 1,7 Milliarden Parametern erreichte in sieben geschlossenen medizinischen Benchmarks eine durchschnittliche Punktzahl von 62,62 und übertraf damit Googles MedGemma-1.5-4B-it um 11,42 Punkte, obwohl es weniger als halb so groß war. In realen klinischen Szenarien wie HealthBench Hard schlägt das 1,7-Milliarden-Modell sogar MedGemma 27B, ein fast sechzehnmal größeres Modell. Unsere QVAC MedPsy 4-Milliarden-Parameterversion erzielte in denselben sieben geschlossenen Benchmarks einen Wert von 70,54 und übertraf damit fast siebenmal größere Modelle, einschließlich MedGemma-27B-Text, und lieferte eine höhere Leistung bei klinischen Bewertungen wie HealthBench Hard, HealthBench und MedXpertQA. Insgesamt umfasste die Bewertung acht verschiedene Benchmark-Suiten: MedQA-USMLE und MedMCQA für klinisches Wissen und medizinische Untersuchungen; MMLU Health und MMLU-Pro Health für Gesundheitskompetenz; MedXpertQA für fachkundiges klinisches Denken; PubMedQA für das Verständnis der biomedizinischen Forschung; AfriMedQA für unterversorgte globale Gesundheitskontexte; und HealthBench, einschließlich HealthBench Hard, für reale klinische Szenarien. Die Leistungssteigerungen resultieren aus einem abgestuften medizinischen Prozess nach der Ausbildung, der eine umfassende medizinische Überwachung, höherwertige klinische Argumentationsdaten und verstärkendes Lernen mit Schwerpunkt auf schwierigeren medizinischen Argumentationsfällen kombiniert.

Die Modelle reduzieren auch die Inferenzkosten erheblich. Unser QVAC MedPsy 4B-Modell generiert Antworten in etwa 909 Token im Vergleich zu 2.953 Token bei vergleichbaren Systemen, was einer Reduzierung um das 3,2-fache entspricht, während das 1.7B-Modell durchschnittlich etwa 1.110 Token gegenüber 1.901 Token generiert, was einer Reduzierung um das 1,7-fache entspricht. Das führt zu schnelleren Reaktionszeiten und der Möglichkeit, lokal zu arbeiten, ohne auf die Cloud-Infrastruktur angewiesen zu sein. Die Modelle werden auch in quantisierten GGUF-Formaten für den lokalen Einsatz veröffentlicht, wobei die empfohlenen Q4_K_M-Versionen eine Größe von etwa 1,2 GB für QVAC MedPsy-1.7B und 2,6 GB für QVAC MedPsy-4B haben. Beim Testen behielten diese komprimierten Versionen den größten Teil der Benchmark-Leistung bei und machten die Modelle gleichzeitig für mobile und Edge-Umgebungen geeignet.

Dies verschiebt, wo medizinische KI tatsächlich eingesetzt werden kann. Systeme, die zuvor eine externe Verarbeitung erforderten, können zur Unterstützung von Ärzten in Systemen vor Ort für die sichere, lokale Datenverarbeitung und -analyse, auf mobilen Geräten oder in Umgebungen eingesetzt werden, in denen Konnektivität, Latenz oder Datenschutzbeschränkungen cloudbasierte Modelle unpraktisch machen. Es verringert auch eines der Haupthindernisse für die Einführung im Gesundheitswesen: die Notwendigkeit, sensible Daten außerhalb kontrollierter Umgebungen zu verschieben.

„Bei QVAC MedPsy lag unser Fokus auf der Verbesserung der Effizienz auf Modellebene und nicht auf der Vergrößerung der Größe“, sagte Paolo Ardoino, CEO von Tether. „In unseren Tests übertraf das 1,7-Milliarden-Parameter-QVAC-MedPsy-Modell größere Systeme wie MedGemma-4B, und unser 4-Milliarden-Modell übertraf die Ergebnisse von Modellen, die fast siebenmal so groß waren, und verbrauchte dabei bis zu dreimal weniger Token pro Antwort. Diese Kombination ist wichtig, weil sie den Rechenbedarf, die Latenz und die Kosten direkt reduziert. Dadurch kann das Modell lokal auf Standardhardware ausgeführt werden, anstatt sich auf eine Remote-Infrastruktur zu verlassen. Im Gesundheitswesen ändern sich die Einschränkungen völlig; Sie können medizinische Überlegungen dort ausführen, wo die Daten bereits vorhanden sind.“ existiert innerhalb eines Krankenhaussystems oder auf einem Gerät, ohne dass vertrauliche Informationen durch die Cloud verschoben oder auf die externe Verarbeitung gewartet werden müssen.“

Im letzten Jahrzehnt waren Fortschritte in der KI an den Zugang zu cloudbasierter Datenverarbeitung gekoppelt. QVAC MedPsy weist in eine andere Richtung, in der Effizienz, Lokalität und Datenschutz die Leistung bestimmen. Wenn diese Vorteile in realen Einsätzen Bestand haben, könnten sie die Wirtschaftlichkeit der medizinischen KI-Infrastruktur verändern und den Vorteil hin zu Systemen verlagern, die lokal mit geringeren Kosten, geringerer Latenz und größerer Kontrolle über sensible Daten arbeiten.

Lesen Sie mehr unter https://qvac.tether.io/models/

Über Tether-Daten

Tether Data, S.A. d