Tether lance des modèles d'IA médicale qui fonctionnent sur les téléphones et battent les systèmes plus grands

Le groupe de recherche sur l'IA de Tether a publié QVAC MedPsy, une nouvelle gamme de modèles de langage médical conçus pour fonctionner sur les smartphones et les appareils de pointe. Les modèles sont conçus pour un déploiement axé sur la confidentialité, en gardant les données de santé sensibles au niveau local. Les premiers résultats de référence montrent que les modèles plus petits surpassent leurs concurrents beaucoup plus grands. Cela marque un changement dans la manière dont les systèmes d’IA médicale peuvent être structurés et déployés. QVAC MedPsy est disponible en deux versions : un modèle à 1,7 milliard et un modèle à 4 milliards de paramètres. Les deux ont été testés sur huit suites de référence médicale couvrant les connaissances cliniques, le raisonnement d’experts et des scénarios du monde réel. Les résultats étaient particulièrement compétitifs par rapport à des modèles plusieurs fois plus grands. Le modèle de 1,7 milliard a obtenu un score de 62,62 sur sept indices de référence fermés. Ce score a battu le MedGemma-4B de Google de plus de 11 points, bien qu'il soit inférieur à la moitié de sa taille. Sur HealthBench Hard, le même modèle a également surpassé le MedGemma 27B, qui est près de seize fois plus grand. La version 4 milliards a obtenu un score de 70,54 sur ces mêmes sept critères. Il dépassait le MedGemma-27B-text et d’autres modèles près de sept fois sa taille. Les performances sont restées solides dans les évaluations HealthBench, HealthBench Hard et MedXpertQA. Le PDG de Tether, Paolo Ardoino, a abordé directement l'efficacité. "Notre modèle de 4 milliards a dépassé les résultats de modèles près de sept fois plus grands, tout en utilisant jusqu'à trois fois moins de jetons par réponse", a-t-il déclaré. L'efficacité des jetons est l'un des résultats les plus pratiques de cette version. Le modèle 4 milliards génère des réponses dans environ 909 jetons. Les systèmes comparables utilisent environ 2 953 jetons par réponse, ce qui représente une réduction de 3,2 fois de la longueur de sortie. Le modèle de 1,7 milliard génère en moyenne environ 1 110 jetons par réponse, contre 1 901 pour des systèmes similaires. Des sorties plus courtes signifient des temps de réponse plus rapides et des coûts de calcul inférieurs. Cela est important dans les contextes de soins de santé réels, où la rapidité et le coût affectent tous deux l’adoption. Les deux modèles sont disponibles au format GGUF quantifié pour un déploiement local. Les versions Q4_K_M font respectivement environ 1,2 Go et 2,6 Go. Ces tailles rendent les modèles pratiques pour les appareils mobiles et les systèmes hospitaliers sur site. Les gains de performance proviennent d’un processus post-formation par étapes. Il combine une large supervision médicale, des données de raisonnement clinique et un apprentissage par renforcement sur des cas plus difficiles. Aucune mise à l’échelle supplémentaire du modèle n’a été nécessaire pour atteindre ces résultats. L’IA médicale dépend depuis longtemps de l’infrastructure cloud pour traiter les données sensibles à distance. QVAC MedPsy change cela en rendant les performances exceptionnelles entièrement disponibles sur l'appareil. Pour les prestataires de soins de santé opérant selon des règles de confidentialité strictes, cela ouvre de nouvelles options de déploiement où l'accès au cloud est limité ou restreint.