Tether AI aktualisiert das QVAC SDK, bringt TurboQuant auf Alltagsgeräte und bietet lokalen KI-Speicher in Rechenzentrumsgröße

Die Open-Source-TurboQuant-Version von Tether komprimiert den Speicher, den die KI während langer Sitzungen benötigt, und ermöglicht es Laptops, Telefonen, Edge-Geräten und dezentralen Netzwerken, größere Dokumente, längere Gespräche, Codebasen und persönliche KI-Assistenten zu verarbeiten, ohne alles an die Cloud zu senden
1. Juni 2026 – Die AI Research Group von Tether gab heute die Produktionsfreigabe ihrer Open-Source-Implementierung von TurboQuant bekannt, dem Speicherkomprimierungsalgorithmus von Google Research, der Vergleiche mit „Pied Piper“ aus dem Silicon Valley zog, weil er den für die Ausführung großer KI-Modelle erforderlichen Speicher drastisch reduzieren kann. Mit TurboQuant gelang Google ein Durchbruch in der Forschung. Tether erweckt es in der Produktion zum Leben mit seiner Open-Source-Lokal-/Edge-KI-Engine QVAC Fabric, die als llama.cpp begann. Jetzt umfasst Fabric mehrere Durchbrüche, die die Grenzen der lokalen On-Device-Intelligenz erweitern.
Die Veröffentlichung verwandelt TurboQuant von einem Papier in eine Open-Source-Software, die Entwickler auf Laptops, Verbraucher-GPUs, mobilen Chips, Edge-Geräten und dezentralen Inferenznetzwerken verwenden, testen und anpassen können. Es umfasst eine vollständige Quantisierungspipeline, Adapter für gängige Inferenz-Frameworks, Entwicklerdokumentation und auf die Arbeitslast abgestimmte Profile, die für den tatsächlichen Einsatz außerhalb von Hyperscale-Rechenzentren konzipiert sind. Die Änderung ist wichtig, da der Speicher einer der Hauptgründe dafür ist, dass nützliche KI-Aufgaben immer noch in die Cloud verschoben werden.
Wenn jemand einen KI-Assistenten verwendet, benötigt das Modell nicht nur Speicher zum Laden, sondern auch Arbeitsspeicher, um sich an die Konversation, das Dokument, die Codebasis oder die Anweisungen zu erinnern, die es bereits gesehen hat. Dieser Arbeitsspeicher wird KV-Cache genannt und wächst mit zunehmender Sitzungsdauer. Eine kurze Aufforderung kann möglicherweise einfach zu handhaben sein. Ein vollständiger Vertrag, eine Finanzakte, ein Forschungsbericht, ein Buch, ein Code-Repository oder ein mehrstündiges Gespräch können den Speicherbedarf über das hinausgehen, was die meisten Laptops, Telefone und Consumer-GPUs unterstützen können.
Bei etwa 262.000 Token, was der Größenordnung von mehreren Gesprächsstunden oder einigen hundert Textseiten entspricht, kann der KV-Cache für ein 4B-Modell allein etwa 8 GB Speicher beanspruchen. Vier Sitzungen dieser Größe können den Cache allein auf etwa 32 GB erweitern, ohne dass der Speicher berücksichtigt wird, der zum Laden des Modells selbst erforderlich ist. Aus diesem Grund sind viele KI-Erlebnisse immer noch auf entfernte Rechenzentren angewiesen, auch wenn Benutzer ihre Arbeit lieber lokal behalten möchten.
TurboQuant ändert diese Gleichung, indem es den KV-Cache bis zum Fünffachen komprimiert und gleichzeitig die Ausgabequalität nahe an einem unkomprimierten Modell beibehält. In der Praxis bedeutet dies, dass die lokale KI längere Gespräche, größere Dateien, mehr Kontext und höhere Arbeitslasten auf der Hardware bewältigen kann, die die Benutzer bereits besitzen.
Für Benutzer kann dies bedeuten, dass sie einen KI-Assistenten auf einem Laptop bitten, ein hundertseitiges Rechtsdokument zu lesen und zu analysieren, ohne die vollständige Datei bei einem Cloud-Anbieter hochzuladen. Dies kann bedeuten, dass ein Schüler einen On-Device-Lehrer verwendet, der eine ganze Lernsitzung behält, anstatt nach ein paar Nachrichten den Kontext zu verlieren. Dies kann bedeuten, dass ein Entwickler einen lokalen Codierungsassistenten ausführt, der mehr von einer Codebasis auf einmal versteht. Dies kann bedeuten, dass ein Journalist, ein Arzt, ein Forscher oder ein Kleinunternehmer KI für sensible Dateien einsetzt, während ein Großteil dieser Arbeit auf dem Gerät bleibt.
Für Entwickler und Start-ups bedeutet dies, dass größere KI-Produkte erstellt werden können, ohne dass der Zugriff auf teure GPU-Cluster erforderlich ist. Anstatt kurze Kontextfenster, strenge Speicherbeschränkungen oder eine reine Cloud-Bereitstellung zu entwerfen, können Teams TurboQuant verwenden, um längere Sitzungen, größere Arbeitslasten und eine flexiblere Bereitstellung auf Verbraucherhardware, Edge-Geräten und Peer-to-Peer-Netzwerken zu unterstützen.
„Googles Untersuchungen haben gezeigt, dass KI-Speicher weitaus effizienter komprimiert werden kann, als die meisten Menschen annehmen. Unsere Arbeit bringt den Durchbruch in der Produktionssoftware, mit der Entwickler, Startups und Benutzer tatsächlich bauen können“, sagte Paolo Ardoino, CEO von Tether. „Wenn KI mit langem Kontext nur in den größten Rechenzentren funktioniert, wird die KI von demjenigen geprägt, der die meiste Hardware besitzt. TurboQuant verändert die Möglichkeiten lokaler KI, indem es den Speicher weniger zur Wand macht.“ „Menschen sollten einen KI-Assistenten bitten können, ein langes Dokument zu lesen, sich an ein Projekt zu erinnern, bei Code zu helfen oder private Informationen zu bearbeiten, ohne dass jede Aufgabe über ein entferntes Rechenzentrum gezwungen werden muss“, fügte er hinzu. „Das ist es, was die Einführung von TurboQuant in die Produktion ermöglicht. Es gibt der lokalen KI mehr Speicher, mehr Kontext und mehr Raum, um im Alltag nützlich zu sein.“
Die Implementierung von Tether ist für Umgebungen konzipiert, in denen Produktions-KI häufig an Grenzen stößt: begrenzter Gerätespeicher, gemischte Hardware, lange Sitzungen, Latenzdruck und Bereitstellung außerhalb einer zentralisierten Cloud-Infrastruktur. Anstatt dass Teams die Forschung selbst neu erstellen müssen, bietet die Open-Source-Version der KI-Entwicklergemeinschaft eine gemeinsame Grundlage zum Testen, Verbessern und Anpassen von TurboQuant über verschiedene Systeme hinweg. TurboQuant wird in QVAC SDK 0.12.0 enthalten sein und es direkt über Fabric verfügbar machen, einem der Kernbausteine darin