Tether AI 升级 QVAC SDK，将 TurboQuant 引入日常设备，赋予本地 AI 数据中心大小的内存

Tether 的开源 TurboQuant 版本压缩了长时间会话期间人工智能的内存需求，让笔记本电脑、手机、边缘设备和去中心化网络处理更大的文档、更长的对话、代码库和个人人工智能助理，而无需将所有内容发送到云端

2026 年 6 月 1 日 – Tether 的人工智能研究小组今天宣布推出 TurboQuant 的开源实现，TurboQuant 是 Google 研究的内存压缩算法，可与硅谷的“Pied Piper”进行比较，因为它能够大幅减少大型人工智能模型运行所需的内存。借助 TurboQuant，Google 在研究方面取得了突破。 Tether 正在通过其开源本地/边缘 AI 引擎 QVAC Fabric 将其带入生产环境，该引擎最初是 llama.cpp，现在 Fabric 融合了多项突破，突破了本地设备智能的界限。

此次发布将 TurboQuant 从论文变成了开源软件，开发人员可以在笔记本电脑、消费级 GPU、移动芯片、边缘设备和去中心化推理网络上使用、测试和调整。它包括完整的量化管道、通用推理框架的适配器、开发人员文档以及专为超大规模数据中心外实际部署而设计的工作负载调整配置文件。这一变化很重要，因为内存是有用的人工智能任务仍然被推送到云端的最大原因之一。

当有人使用人工智能助手时，模型不仅需要内存来加载，还需要工作内存来记住它已经见过的对话、文档、代码库或指令。该工作内存称为 KV 缓存，它会随着会话时间的延长而增长。简短的提示可能很容易处理。完整的合同、财务备案、研究报告、书籍、代码存储库或几个小时的对话都可能导致内存需求超出大多数笔记本电脑、手机和消费类 GPU 的支持范围。

对于大约 262,000 个令牌、几个小时的对话或几百页文本的规模，4B 模型的 KV 缓存可以单独使用大约 8 GB 的内存。在考虑加载模型本身所需的内存之前，该大小的四个会话可以将缓存单独推至约 32 GB。这就是为什么许多人工智能体验仍然依赖远程数据中心，即使用户更愿意在本地工作。

TurboQuant 通过将 KV 缓存压缩高达 5 倍来改变这一方程式，同时保持接近未压缩模型的输出质量。实际上，这意味着本地人工智能可以在人们已有的硬件上处理更长的对话、更大的文件、更多的上下文和更重的工作负载。

对于用户来说，这可能意味着要求笔记本电脑上的人工智能助手阅读和分析一百页的法律文件，而无需将完整文件上传到云提供商。这可能意味着学生使用设备上的导师可以保留整个学习过程，而不是在几条消息后失去上下文。这可能意味着开发人员运行本地编码助手，可以立即了解更多代码库。这可能意味着记者、医生、研究人员或小企业主在敏感文件上使用人工智能，同时将更多工作保留在设备上。

对于开发人员和初创公司来说，这意味着可以构建更大的人工智能产品，而无需访问昂贵的 GPU 集群。团队可以使用 TurboQuant 来支持更长的会话、更大的工作负载以及跨消费者硬件、边缘设备和对等网络的更灵活的部署，而不是围绕短上下文窗口、严格的内存限制或纯云部署进行设计。

Tether 首席执行官 Paolo Ardoino 表示：“谷歌的研究表明，人工智能内存的压缩效率比大多数人想象的要高得多。我们的工作将这一突破带入了开发人员、初创公司和用户可以实际构建的生产软件中。” “如果长上下文 AI 只能在最大的数据中心内工作，那么 AI 将由拥有最多硬件的人来塑造。TurboQuant 通过使内存不再是一堵墙，改变了本地 AI 的功能。”“人们应该能够要求 AI 助手阅读长文档、记住项目、帮助编写代码或处理私人信息，而不需要每项任务都强制通过远程数据中心，”他补充道。 “这就是将 TurboQuant 投入生产所带来的可能。它为本地人工智能提供了更多内存、更多背景信息以及更多在日常生活中发挥作用的空间。”

Tether 的实施专为生产 AI 经常遇到限制的环境而设计：设备内存受限、混合硬件、长会话、延迟压力以及集中式云基础设施之外的部署。开源版本不需要团队自己重建研究，而是为 AI 开发人员社区提供了跨不同系统测试、改进和调整 TurboQuant 的共享基础。TurboQuant 将包含在 QVAC SDK 0.12.0 中，使其可以直接通过 Fabric（其中的核心构建块之一）使用。