突破性集成：Tether 在标准消费设备上激活 Google 的 Powerhouse AI 技术

Tether 的人工智能研究小组发布了 TurboQuant 的开源生产版本，这是一种最初由 Google Research 开发的内存压缩算法。该版本是 QVAC SDK 0.12.0 的一部分，面向笔记本电脑、手机、边缘设备和去中心化网络。它允许本地人工智能模型处理更长的会话，而无需依赖云基础设施。这标志着设备上人工智能管理内存密集型任务的方式发生了实际转变。内存长期以来一直是在消费类硬件上运行人工智能模型的障碍。当人工智能助手处理长文档或对话时，它会将上下文存储在所谓的 KV 缓存中。 4B 模型的 KV 缓存大约有 262,000 个令牌，仅消耗大约 8 GB 内存。在考虑模型本身之前，四个并发会话可以将该数字推至 32 GB。 TurboQuant 通过将 KV 缓存压缩多达五倍来解决这个问题，同时保持输出质量接近未压缩模型。用户现在可以要求基于笔记本电脑的助手分析一百页的法律文档，而无需将其上传到远程服务器。 Tether AI 升级 QVAC SDK，将 TurboQuant 引入日常设备，提供本地 AI 数据中心大小的内存了解更多信息：https://t.co/mF2uwDB8rv — Tether (@tether) 2026 年 6 月 1 日学生、开发人员、记者和研究人员都可以在他们已有的设备上从更长时间、更具上下文感知的 AI 会话中受益。在谈到发布背后更广泛的原因时，Tether 首席执行官 Paolo Ardoino 指出了研究与实用软件之间的差距。 “谷歌的研究表明，人工智能内存的压缩效率比大多数人想象的要高得多，”他说。 “我们的工作将这一突破带入了开发人员、初创公司和用户可以实际构建的生产软件中。”生产版本包括完整的量化管道、框架适配器、开发人员文档和工作负载调整配置文件。这些组件专为超大规模数据中心之外的真实环境而设计，涵盖内存受限、混合硬件和延迟敏感的部署。 TurboQuant 作为 QVAC SDK 0.12.0 的一部分提供，直接集成到 Fabric（QVAC 堆栈的核心组件）中。 Fabric 最初是 llama.cpp 分支，后来不断发展并融合了多项研究进展。该 SDK 为开发人员提供了一套统一的工具、库和运行时组件，用于构建本地 AI 应用程序。对于初创公司和独立开发者来说，这消除了大型人工智能产品需要昂贵的 GPU 集群的假设。团队现在可以设计更长的上下文窗口、更大的文件工作负载以及跨消费者和边缘硬件的灵活部署。这为在没有纯云架构的情况下构建人工智能产品开辟了实用途径。为了解决对数据隐私和云依赖的担忧，Ardoino 提出了将人工智能任务保留在本地设备上的理由。他说：“人们应该能够要求人工智能助手阅读长文档或处理私人信息，而不需要每项任务都强制通过远程数据中心。”从这个意义上说，TurboQuant 为本地人工智能提供了更多的操作空间。 Tether 的战略以人工智能为中心，通过个人设备和去中心化网络，让人工智能更贴近用户。该公司将软件效率和可移植性与大规模计算基础设施一起视为人工智能开发下一阶段的决定性因素。