Tether AI actualiza el SDK de QVAC, lleva TurboQuant a los dispositivos cotidianos y brinda memoria del tamaño de un centro de datos de IA local

La versión TurboQuant de código abierto de Tether comprime la memoria que la IA necesita durante sesiones largas, lo que permite que las computadoras portátiles, teléfonos, dispositivos periféricos y redes descentralizadas manejen documentos más grandes, conversaciones más largas, bases de código y asistentes personales de IA sin enviar todo a la nube.

1 de junio de 2026 – El Grupo de Investigación de IA de Tether anunció hoy el lanzamiento de producción de su implementación de código abierto de TurboQuant, el algoritmo de compresión de memoria de Google Research que generó comparaciones con "Pied Piper" de Silicon Valley por su capacidad para reducir drásticamente la memoria que los grandes modelos de IA necesitan para ejecutar. Con TurboQuant, Google logró un gran avance en la investigación. Tether le está dando vida en producción con su motor de inteligencia artificial de borde/local de código abierto QVAC Fabric, que comenzó como llama.cpp, ahora Fabric incorpora varios avances que amplían los límites de la inteligencia local en el dispositivo.

El lanzamiento convierte a TurboQuant de un documento en un software de código abierto que los desarrolladores pueden usar, probar y adaptar en computadoras portátiles, GPU de consumo, chips móviles, dispositivos periféricos y redes de inferencia descentralizadas. Incluye un canal de cuantificación completo, adaptadores para marcos de inferencia comunes, documentación para desarrolladores y perfiles optimizados para cargas de trabajo diseñados para una implementación real fuera de los centros de datos de hiperescala. El cambio es importante porque la memoria es una de las principales razones por las que las tareas útiles de IA todavía se envían a la nube.

Cuando alguien usa un asistente de IA, el modelo no solo necesita memoria para cargar, sino que también necesita memoria de trabajo para recordar la conversación, el documento, el código base o las instrucciones que ya ha visto. Esa memoria de trabajo se llama caché KV y crece a medida que la sesión se prolonga. Un mensaje breve puede ser fácil de manejar. Un contrato completo, una presentación financiera, un informe de investigación, un libro, un repositorio de códigos o varias horas de conversación pueden llevar los requisitos de memoria más allá de lo que la mayoría de las computadoras portátiles, teléfonos y GPU de consumo pueden soportar.

Con aproximadamente 262.000 tokens, la escala de varias horas de conversación o unos cientos de páginas de texto, la caché KV para un modelo 4B puede usar alrededor de 8 GB de memoria por sí sola. Cuatro sesiones de ese tamaño pueden aumentar el caché a alrededor de 32 GB antes de tener en cuenta la memoria necesaria para cargar el modelo en sí. Es por eso que muchas experiencias de IA todavía dependen de centros de datos remotos, incluso cuando los usuarios preferirían mantener su trabajo local.

TurboQuant cambia esa ecuación al comprimir la caché KV hasta 5 veces mientras mantiene la calidad de salida cercana a un modelo sin comprimir. En términos prácticos, esto significa que la IA local puede manejar conversaciones más largas, archivos más grandes, más contexto y cargas de trabajo más pesadas en el hardware que la gente ya posee.

Para los usuarios, esto puede significar pedirle a un asistente de inteligencia artificial en una computadora portátil que lea y analice un documento legal de cien páginas sin cargar el archivo completo a un proveedor de nube. Puede significar que un estudiante utilice un tutor en el dispositivo que retenga una sesión de estudio completa en lugar de perder el contexto después de algunos mensajes. Puede significar que un desarrollador ejecuta un asistente de codificación local que comprende más código base a la vez. Puede significar que un periodista, médico, investigador o propietario de una pequeña empresa utilice IA en archivos confidenciales y al mismo tiempo mantenga una mayor parte de ese trabajo en el dispositivo.

Para los desarrolladores y las nuevas empresas, significa que se pueden crear productos de IA más grandes sin asumir el acceso a costosos clústeres de GPU. En lugar de diseñar en torno a ventanas de contexto breves, límites de memoria estrictos o implementación solo en la nube, los equipos pueden usar TurboQuant para admitir sesiones más largas, cargas de trabajo más grandes y una implementación más flexible en hardware de consumo, dispositivos perimetrales y redes de igual a igual.

"La investigación de Google demostró que la memoria de IA se puede comprimir de manera mucho más eficiente de lo que la mayoría de la gente suponía. Nuestro trabajo aporta ese avance al software de producción con el que los desarrolladores, las empresas emergentes y los usuarios realmente pueden construir", dijo Paolo Ardoino, director ejecutivo de Tether. "Si la IA de contexto largo solo funciona dentro de los centros de datos más grandes, entonces la IA será moldeada por quien posea la mayor cantidad de hardware. TurboQuant cambia lo que la IA local puede hacer al hacer que la memoria sea menos un muro". "La gente debería poder pedirle a un asistente de IA que lea un documento largo, recuerde un proyecto, ayude con el código o trabaje con información privada sin que cada tarea sea forzada a pasar por un centro de datos remoto", añadió. "Esto es lo que hace posible llevar TurboQuant a producción. Proporciona a la IA local más memoria, más contexto y más espacio para resultar útil en la vida cotidiana".

La implementación de Tether está diseñada para entornos donde la IA de producción a menudo tiene límites: memoria de dispositivo limitada, hardware mixto, sesiones largas, presión de latencia e implementación fuera de la infraestructura de nube centralizada. En lugar de requerir que los equipos reconstruyan la investigación ellos mismos, la versión de código abierto proporciona a la comunidad de desarrolladores de IA una base compartida para probar, mejorar y adaptar TurboQuant en diferentes sistemas. TurboQuant se incluirá en QVAC SDK 0.12.0, haciéndolo disponible directamente a través de Fabric, uno de los componentes básicos de ese