Tether AI met à niveau le SDK QVAC, apportant TurboQuant aux appareils quotidiens et offrant une mémoire de la taille d'un centre de données IA local

La version open source TurboQuant de Tether compresse la mémoire dont l'IA a besoin pendant de longues sessions, permettant ainsi aux ordinateurs portables, aux téléphones, aux appareils de périphérie et aux réseaux décentralisés de gérer des documents plus volumineux, des conversations plus longues, des bases de code et des assistants personnels d'IA sans tout envoyer dans le cloud.
1er juin 2026 – Le groupe de recherche sur l'IA de Tether a annoncé aujourd'hui la sortie en production de son implémentation open source de TurboQuant, l'algorithme de compression de mémoire de Google Research qui a établi des comparaisons avec « Pied Piper » de la Silicon Valley pour sa capacité à réduire considérablement la mémoire dont les grands modèles d'IA ont besoin pour fonctionner. Avec TurboQuant, Google a fait une percée dans la recherche. Tether lui donne vie en production avec son moteur d'IA local/edge open source QVAC Fabric, initialement lancé sous le nom de lama.cpp, Fabric intègre désormais plusieurs avancées qui repoussent les limites de l'intelligence locale sur l'appareil.
Cette version transforme TurboQuant d'un papier en un logiciel open source que les développeurs peuvent utiliser, tester et adapter sur les ordinateurs portables, les GPU grand public, les puces mobiles, les appareils de pointe et les réseaux d'inférence décentralisés. Il comprend un pipeline de quantification complet, des adaptateurs pour les cadres d'inférence courants, une documentation pour les développeurs et des profils adaptés à la charge de travail conçus pour un déploiement réel en dehors des centres de données hyperscale. Ce changement est important car la mémoire est l’une des principales raisons pour lesquelles les tâches d’IA utiles sont toujours transférées vers le cloud.
Lorsqu'une personne utilise un assistant IA, le modèle a non seulement besoin de mémoire pour se charger, mais également de mémoire de travail pour mémoriser la conversation, le document, la base de code ou les instructions qu'il a déjà vues. Cette mémoire de travail s'appelle le cache KV et elle augmente à mesure que la session s'allonge. Une courte invite peut être facile à gérer. Un contrat complet, un dossier financier, un rapport de recherche, un livre, un référentiel de code ou plusieurs heures de conversation peuvent pousser les besoins en mémoire au-delà de ce que la plupart des ordinateurs portables, téléphones et GPU grand public peuvent prendre en charge.
Avec environ 262 000 jetons, soit l'équivalent de plusieurs heures de conversation ou de quelques centaines de pages de texte, le cache KV pour un modèle 4B peut utiliser à lui seul environ 8 Go de mémoire. Quatre sessions de cette taille peuvent pousser le cache seul à environ 32 Go avant de prendre en compte la mémoire nécessaire au chargement du modèle lui-même. C'est pourquoi de nombreuses expériences d'IA reposent encore sur des centres de données distants, même lorsque les utilisateurs préfèrent conserver leur travail local.
TurboQuant modifie cette équation en compressant le cache KV jusqu'à 5x tout en conservant une qualité de sortie proche d'un modèle non compressé. Concrètement, cela signifie que l’IA locale peut gérer des conversations plus longues, des fichiers plus volumineux, plus de contexte et des charges de travail plus lourdes sur le matériel que les utilisateurs possèdent déjà.
Pour les utilisateurs, cela peut signifier demander à un assistant IA sur un ordinateur portable de lire et d’analyser un document juridique d’une centaine de pages sans télécharger le fichier complet vers un fournisseur de cloud. Cela peut signifier qu'un étudiant utilise un tuteur sur l'appareil qui conserve une session d'étude entière plutôt que de perdre le contexte après quelques messages. Cela peut signifier qu'un développeur exécute un assistant de codage local qui comprend mieux une base de code à la fois. Cela peut signifier qu'un journaliste, un médecin, un chercheur ou un propriétaire de petite entreprise utilise l'IA sur des fichiers sensibles tout en conservant une plus grande partie de ce travail sur l'appareil.
Pour les développeurs et les startups, cela signifie que des produits d’IA plus volumineux peuvent être créés sans nécessiter l’accès à des clusters GPU coûteux. Au lieu de concevoir autour de fenêtres contextuelles courtes, de limites de mémoire strictes ou d'un déploiement uniquement dans le cloud, les équipes peuvent utiliser TurboQuant pour prendre en charge des sessions plus longues, des charges de travail plus importantes et un déploiement plus flexible sur le matériel grand public, les appareils de périphérie et les réseaux peer-to-peer.
"Les recherches de Google ont montré que la mémoire de l'IA pouvait être compressée beaucoup plus efficacement que la plupart des gens ne le pensaient. Notre travail apporte cette avancée dans les logiciels de production avec lesquels les développeurs, les startups et les utilisateurs peuvent réellement créer", a déclaré Paolo Ardoino, PDG de Tether. "Si l'IA à contexte long ne fonctionne qu'à l'intérieur des plus grands centres de données, alors l'IA sera façonnée par celui qui possède le plus de matériel. TurboQuant change ce que l'IA locale peut faire en rendant la mémoire moins un mur." "C'est ce que rend possible la mise en production de TurboQuant. Cela donne à l'IA locale plus de mémoire, plus de contexte et plus d'espace pour devenir utile dans la vie quotidienne."
La mise en œuvre de Tether est conçue pour les environnements dans lesquels l'IA de production se heurte souvent à des limites : mémoire limitée des appareils, matériel mixte, longues sessions, pression de latence et déploiement en dehors de l'infrastructure cloud centralisée. Plutôt que d'obliger les équipes à reconstruire elles-mêmes la recherche, la version open source fournit à la communauté des développeurs d'IA une base commune pour tester, améliorer et adapter TurboQuant sur différents systèmes. TurboQuant sera inclus dans QVAC SDK 0.12.0, le rendant disponible directement via Fabric, l'un des éléments de base de ce projet.