Bahnbrechende Integration: Tether aktiviert leistungsstarke KI-Technologie von Google auf Standard-Verbrauchergeräten

Inhaltsverzeichnis Die AI Research Group von Tether hat eine Open-Source-Produktionsversion von TurboQuant veröffentlicht, einem Speicherkomprimierungsalgorithmus, der ursprünglich von Google Research entwickelt wurde. Die Veröffentlichung ist Teil des QVAC SDK 0.12.0 und richtet sich an Laptops, Telefone, Edge-Geräte und dezentrale Netzwerke. Es ermöglicht lokalen KI-Modellen, längere Sitzungen zu bewältigen, ohne auf die Cloud-Infrastruktur angewiesen zu sein. Dies markiert einen praktischen Wandel in der Art und Weise, wie KI auf dem Gerät speicherintensive Aufgaben verwaltet. Der Speicher war lange Zeit ein Hindernis für die Ausführung leistungsfähiger KI-Modelle auf Consumer-Hardware. Wenn ein KI-Assistent ein langes Dokument oder Gespräch verarbeitet, speichert er diesen Kontext im sogenannten KV-Cache. Bei etwa 262.000 Token kann der KV-Cache für ein 4B-Modell allein etwa 8 GB Speicher verbrauchen. Vier gleichzeitige Sitzungen können diese Zahl auf 32 GB erhöhen, ohne das Modell selbst zu berücksichtigen. TurboQuant behebt dieses Problem, indem es den KV-Cache um das bis zu Fünffache komprimiert und dabei die Ausgabequalität nahe an einem unkomprimierten Modell beibehält. Ein Benutzer kann jetzt einen Laptop-basierten Assistenten bitten, ein hundertseitiges Rechtsdokument zu analysieren, ohne es auf einen Remote-Server hochzuladen. Tether AI aktualisiert das QVAC SDK, bringt TurboQuant auf Alltagsgeräte und bietet lokalen KI-Speicher in Rechenzentrumsgröße. Erfahren Sie mehr: https://t.co/mF2uwDB8rv – Tether (@tether) 1. Juni 2026 Studenten, Entwickler, Journalisten und Forscher können alle von längeren, kontextbewussteren KI-Sitzungen auf Geräten profitieren, die sie bereits besitzen. Als er über die umfassenderen Gründe für die Veröffentlichung sprach, wies Tether-CEO Paolo Ardoino auf die Kluft zwischen Forschung und praktischer Software hin. „Googles Untersuchungen haben gezeigt, dass der KI-Speicher weitaus effizienter komprimiert werden kann, als die meisten Leute annehmen“, sagte er. „Unsere Arbeit bringt den Durchbruch in der Produktionssoftware, mit der Entwickler, Startups und Benutzer tatsächlich bauen können.“ Die Produktionsversion umfasst eine vollständige Quantisierungspipeline, Framework-Adapter, Entwicklerdokumentation und auf die Arbeitslast abgestimmte Profile. Diese Komponenten sind für reale Umgebungen außerhalb von Hyperscale-Rechenzentren konzipiert und decken begrenzten Speicher, gemischte Hardware und latenzempfindliche Bereitstellungen ab. TurboQuant wird als Teil des QVAC SDK 0.12.0 ausgeliefert und ist direkt in Fabric integriert, einer Kernkomponente des QVAC-Stacks. Fabric begann als llama.cpp-Fork und ist seitdem gewachsen, um zahlreiche Forschungsfortschritte zu integrieren. Das SDK bietet Entwicklern einen einheitlichen Satz an Tools, Bibliotheken und Laufzeitkomponenten zum Erstellen lokaler KI-Anwendungen. Für Startups und unabhängige Entwickler entfällt dadurch die Annahme, dass große KI-Produkte teure GPU-Cluster erfordern. Teams können jetzt für längere Kontextfenster, größere Datei-Workloads und eine flexible Bereitstellung auf Verbraucher- und Edge-Hardware entwerfen. Das eröffnet praktische Wege für die Entwicklung von KI-Produkten ohne reine Cloud-Architektur. Ardoino ging auf Bedenken hinsichtlich Datenschutz und Cloud-Abhängigkeit ein und plädierte dafür, KI-Aufgaben auf lokalen Geräten zu belassen. „Menschen sollten einen KI-Assistenten bitten können, ein langes Dokument zu lesen oder private Informationen zu bearbeiten, ohne dass jede Aufgabe über ein entferntes Rechenzentrum erfolgen muss“, sagte er. In diesem Sinne gibt TurboQuant der lokalen KI mehr Handlungsspielraum. Die Strategie von Tether konzentriert sich auf KI, die näher an den Benutzern arbeitet, über persönliche Geräte und dezentrale Netzwerke hinweg. Das Unternehmen sieht Softwareeffizienz und Portabilität neben einer groß angelegten Recheninfrastruktur als entscheidende Faktoren in der nächsten Phase der KI-Entwicklung.