Tether AI обновляет QVAC SDK, внедряя TurboQuant в повседневные устройства и предоставляя локальную память размером с центр обработки данных AI

Релиз Tether TurboQuant с открытым исходным кодом сжимает объем памяти, необходимый искусственному интеллекту во время длительных сеансов, позволяя ноутбукам, телефонам, периферийным устройствам и децентрализованным сетям обрабатывать более крупные документы, более длительные разговоры, базы кода и личных помощников искусственного интеллекта, не отправляя все в облако.

1 июня 2026 г. — Сегодня группа исследования искусственного интеллекта компании Tether объявила о выпуске промышленной версии своей реализации с открытым исходным кодом TurboQuant, алгоритма сжатия памяти Google Research, который сравнивают с «Крысоловом» из Кремниевой долины за его способность значительно сокращать объем памяти, необходимый для работы крупных моделей искусственного интеллекта. С TurboQuant компания Google совершила прорыв в исследованиях. Tether воплощает его в жизнь с помощью своего локального/периферийного механизма искусственного интеллекта с открытым исходным кодом QVAC Fabric, который начинался как llama.cpp, а теперь Fabric включает в себя несколько прорывов, которые расширяют границы локального интеллекта на устройстве.

Релиз превращает TurboQuant из бумаги в программное обеспечение с открытым исходным кодом, которое разработчики могут использовать, тестировать и адаптировать для ноутбуков, потребительских графических процессоров, мобильных чипов, периферийных устройств и децентрализованных сетей вывода. Он включает в себя полный конвейер квантования, адаптеры для общих платформ вывода, документацию для разработчиков и профили, настроенные под рабочие нагрузки, предназначенные для реального развертывания за пределами гипермасштабируемых центров обработки данных. Это изменение важно, поскольку память является одной из основных причин, по которой полезные задачи ИИ по-прежнему передаются в облако.

Когда кто-то использует ИИ-помощника, модели требуется не только память для загрузки, но и рабочая память, чтобы запомнить разговор, документ, кодовую базу или инструкции, которые она уже видела. Эта рабочая память называется KV-кешем, и ее объем увеличивается по мере увеличения продолжительности сеанса. С короткой подсказкой может быть легко справиться. Полный контракт, финансовая отчетность, исследовательский отчет, книга, хранилище кода или несколько часов разговора могут привести к тому, что требования к памяти превысят возможности большинства ноутбуков, телефонов и потребительских графических процессоров.

При примерно 262 000 токенов, масштабе нескольких часов разговора или нескольких сотен страниц текста, кэш KV для модели 4B может самостоятельно использовать около 8 ГБ памяти. Четыре сеанса такого размера могут увеличить размер кэша примерно до 32 ГБ, прежде чем будет учтена память, необходимая для загрузки самой модели. Вот почему многие технологии искусственного интеллекта по-прежнему полагаются на удаленные центры обработки данных, даже если пользователи предпочитают выполнять свою работу локально.

TurboQuant меняет это уравнение, сжимая кэш KV до 5 раз, сохраняя при этом качество вывода, близкое к несжатой модели. На практике это означает, что локальный ИИ может обрабатывать более длинные разговоры, файлы большего размера, больше контекста и более тяжелые рабочие нагрузки на уже имеющемся у людей оборудовании.

Для пользователей это может означать, что нужно попросить ИИ-помощника на ноутбуке прочитать и проанализировать стостраничный юридический документ без загрузки полного файла облачному провайдеру. Это может означать, что студент использует репетитора на устройстве, который сохраняет всю учебную сессию, а не теряет контекст после нескольких сообщений. Это может означать, что разработчик использует локального помощника по кодированию, который одновременно понимает больше кода. Это может означать, что журналист, врач, исследователь или владелец малого бизнеса использует ИИ для обработки конфиденциальных файлов, сохраняя при этом большую часть своей работы на устройстве.

Для разработчиков и стартапов это означает, что можно создавать более крупные продукты искусственного интеллекта, не предполагая доступа к дорогим кластерам графических процессоров. Вместо проектирования с учетом коротких контекстных окон, строгих ограничений памяти или развертывания только в облаке команды могут использовать TurboQuant для поддержки более длительных сеансов, больших рабочих нагрузок и более гибкого развертывания на потребительском оборудовании, периферийных устройствах и одноранговых сетях.

"Исследование Google показало, что память ИИ можно сжимать гораздо эффективнее, чем предполагало большинство людей. Наша работа приносит тот прорыв в производстве программного обеспечения, с помощью которого разработчики, стартапы и пользователи действительно могут создавать", - сказал Паоло Ардоино, генеральный директор Tether. "Если ИИ с длинным контекстом работает только внутри крупнейших центров обработки данных, то ИИ будет формироваться тем, кто владеет наибольшим количеством оборудования. TurboQuant меняет то, что может делать локальный ИИ, делая память менее стеной". "Это то, что делает возможным запуск TurboQuant в производство. Он дает местному ИИ больше памяти, больше контекста и больше возможностей для использования в повседневной жизни".

Реализация Tether предназначена для сред, где производственный ИИ часто сталкивается с ограничениями: ограниченная память устройства, смешанное оборудование, длительные сеансы, давление с задержками и развертывание за пределами централизованной облачной инфраструктуры. Вместо того, чтобы требовать от команд самостоятельно перестраивать исследование, выпуск с открытым исходным кодом предоставляет сообществу разработчиков ИИ общую основу для тестирования, улучшения и адаптации TurboQuant в различных системах. TurboQuant будет включен в QVAC SDK 0.12.0, что сделает его доступным непосредственно через Fabric, один из основных строительных блоков в этом