Tether lanza modelos de IA médica que se ejecutan en teléfonos y superan a los sistemas más grandes

El grupo de investigación de IA de Tether ha lanzado QVAC MedPsy, una nueva línea de modelos de lenguaje médico creados para ejecutarse en teléfonos inteligentes y dispositivos de vanguardia. Los modelos están diseñados para una implementación que priorice la privacidad, manteniendo localmente los datos de salud confidenciales. Los primeros resultados de referencia muestran que los modelos más pequeños superan a competidores mucho más grandes. Esto marca un cambio en la forma en que se pueden estructurar e implementar los sistemas de IA médica. QVAC MedPsy viene en dos versiones: un modelo de 1.700 millones y otro de 4.000 millones de parámetros. Ambos se probaron en ocho conjuntos de referencias médicas que cubren conocimiento clínico, razonamiento experto y escenarios del mundo real. Los resultados fueron notablemente competitivos frente a modelos muchas veces superiores a su tamaño. El modelo de 1.700 millones obtuvo una puntuación de 62,62 en siete puntos de referencia cerrados. Ese puntaje superó al MedGemma-4B de Google por más de 11 puntos, a pesar de tener menos de la mitad de su tamaño. En HealthBench Hard, el mismo modelo también superó a MedGemma 27B, que es casi dieciséis veces más grande. La versión de 4 mil millones obtuvo una puntuación de 70,54 en esos mismos siete puntos de referencia. Superó al MedGemma-27B-text y a otros modelos en casi siete veces su tamaño. El desempeño se mantuvo sólido en las evaluaciones de HealthBench, HealthBench Hard y MedXpertQA. El director ejecutivo de Tether, Paolo Ardoino, abordó directamente la eficiencia. "Nuestro modelo de 4 mil millones superó los resultados de modelos casi siete veces su tamaño, mientras usaba hasta tres veces menos tokens por respuesta", dijo. La eficiencia del token es uno de los resultados más prácticos de esta versión. El modelo de 4 mil millones genera respuestas en alrededor de 909 tokens. Los sistemas comparables utilizan aproximadamente 2953 tokens por respuesta, lo que supone una reducción de 3,2 veces la duración de la salida. El modelo de 1.700 millones promedia alrededor de 1.110 tokens por respuesta, frente a 1.901 para sistemas similares. Resultados más cortos significan tiempos de respuesta más rápidos y menores costos de computación. Esto es importante en entornos de atención médica del mundo real donde la velocidad y el costo afectan la adopción. Ambos modelos están disponibles en formato GGUF cuantificado para implementación local. Las versiones Q4_K_M tienen aproximadamente 1,2 GB y 2,6 GB, respectivamente. Estos tamaños hacen que los modelos sean prácticos para dispositivos móviles y sistemas hospitalarios in situ. Las mejoras en el rendimiento provienen de un proceso post-entrenamiento por etapas. Combina una amplia supervisión médica, datos de razonamiento clínico y aprendizaje reforzado en casos más difíciles. No fue necesario escalar el modelo adicional para alcanzar estos resultados. La IA médica ha dependido durante mucho tiempo de la infraestructura de la nube para procesar datos confidenciales de forma remota. QVAC MedPsy cambia eso al hacer que un rendimiento sólido esté disponible completamente en el dispositivo. Para los proveedores de atención médica que operan bajo estrictas reglas de privacidad, esto abre nuevas opciones de implementación donde el acceso a la nube está limitado o restringido.