Intégration révolutionnaire : Tether active la technologie Powerhouse AI de Google sur les appareils grand public standard

Table des matières Le groupe de recherche sur l'IA de Tether a publié une version de production open source de TurboQuant, un algorithme de compression de mémoire développé à l'origine par Google Research. La version fait partie du SDK QVAC 0.12.0 et cible les ordinateurs portables, les téléphones, les appareils périphériques et les réseaux décentralisés. Il permet aux modèles d'IA locaux de gérer des sessions plus longues sans dépendre de l'infrastructure cloud. Cela marque un changement pratique dans la façon dont l’IA sur l’appareil gère les tâches gourmandes en mémoire. La mémoire a longtemps été un obstacle à l’exécution de modèles d’IA performants sur du matériel grand public. Lorsqu'un assistant IA traite un long document ou une longue conversation, il stocke ce contexte dans ce qu'on appelle le cache KV. À environ 262 000 jetons, le cache KV pour un modèle 4B peut consommer à lui seul environ 8 Go de mémoire. Quatre sessions simultanées peuvent pousser ce chiffre à 32 Go avant de prendre en compte le modèle lui-même. TurboQuant résout ce problème en compressant le cache KV jusqu'à cinq fois tout en conservant une qualité de sortie proche d'un modèle non compressé. Un utilisateur peut désormais demander à un assistant sur ordinateur portable d'analyser un document juridique d'une centaine de pages sans le télécharger sur un serveur distant. Tether AI met à niveau le SDK QVAC, apportant TurboQuant aux appareils quotidiens et offrant une mémoire de la taille d'un centre de données d'IA local. En savoir plus : https://t.co/mF2uwDB8rv — Tether (@tether) 1er juin 2026. Les étudiants, les développeurs, les journalistes et les chercheurs peuvent tous bénéficier de sessions d'IA plus longues et plus contextuelles sur les appareils qu'ils possèdent déjà. S'exprimant sur le raisonnement plus large derrière cette publication, Paolo Ardoino, PDG de Tether, a souligné l'écart entre la recherche et les logiciels pratiques. "Les recherches de Google ont montré que la mémoire de l'IA pouvait être compressée beaucoup plus efficacement que ce que la plupart des gens pensaient", a-t-il déclaré. "Notre travail apporte cette avancée dans les logiciels de production avec lesquels les développeurs, les startups et les utilisateurs peuvent réellement créer." La version de production comprend un pipeline de quantification complet, des adaptateurs de structure, une documentation pour les développeurs et des profils adaptés à la charge de travail. Ces composants sont conçus pour des environnements réels en dehors des centres de données hyperscale, couvrant une mémoire limitée, un matériel mixte et des déploiements sensibles à la latence. TurboQuant est livré dans le cadre du SDK QVAC 0.12.0, intégré directement dans Fabric, un composant essentiel de la pile QVAC. Fabric a commencé comme un fork de lama.cpp et s'est depuis développé pour intégrer de multiples avancées en matière de recherche. Le SDK offre aux développeurs un ensemble unifié d'outils, de bibliothèques et de composants d'exécution pour créer des applications d'IA locales. Pour les startups et les développeurs indépendants, cela élimine l’hypothèse selon laquelle les grands produits d’IA nécessitent des clusters GPU coûteux. Les équipes peuvent désormais concevoir des fenêtres contextuelles plus longues, des charges de travail de fichiers plus importantes et un déploiement flexible sur le matériel grand public et périphérique. Cela ouvre des voies pratiques pour créer des produits d’IA sans architecture uniquement cloud. Répondant aux préoccupations concernant la confidentialité des données et la dépendance au cloud, Ardoino a plaidé en faveur du maintien des tâches d'IA sur les appareils locaux. « Les gens devraient pouvoir demander à un assistant IA de lire un long document ou de travailler sur des informations privées sans que chaque tâche soit obligée de passer par un centre de données distant », a-t-il déclaré. TurboQuant, en ce sens, donne à l’IA locale plus d’espace opérationnel. La stratégie de Tether est centrée sur une IA qui se rapproche des utilisateurs, sur les appareils personnels et les réseaux décentralisés. L’entreprise considère l’efficacité et la portabilité des logiciels comme des facteurs déterminants dans la prochaine phase de développement de l’IA, aux côtés d’une infrastructure informatique à grande échelle.