Tether 推出可在手机上运行并击败更大系统的医疗人工智能模型

Tether 的人工智能研究小组发布了 QVAC MedPsy，这是一个专为在智能手机和边缘设备上运行而构建的新系列医学语言模型。这些模型专为隐私优先的部署而设计，将敏感的健康数据保留在本地。早期基准测试结果显示，较小的型号优于较大的竞争对手。这标志着医疗人工智能系统的构建和部署方式发生了转变。 QVAC MedPsy 有两个版本：17 亿和 40 亿参数模型。两者都经过八个医疗基准套件的测试，涵盖临床知识、专家推理和现实场景。结果与其规模数倍的模型相比具有显着的竞争力。这个 17 亿模型在七个封闭式基准测试中得分为 62.62。尽管尺寸还不到 Google 的 MedGemma-4B 的一半，但该分数仍比 Google 的 MedGemma-4B 高出 11 分以上。在 HealthBench Hard 上，同一型号的性能也优于 MedGemma 27B，后者大了近十六倍。 40 亿版本在这七个基准测试中得分为 70.54。它的大小超过了 MedGemma-27B-text 和其他型号的近七倍。在 HealthBench、HealthBench Hard 和 MedXpertQA 评估中表现强劲。 Tether 首席执行官 Paolo Ardoino 直接谈到了效率问题。他说：“我们的 40 亿模型的结果超出了其规模近七倍的模型，而每次响应使用的代币却少了三倍。”代币效率是此版本最实际的成果之一。 40 亿模型生成约 909 个令牌的响应。类似的系统每个响应使用大约 2,953 个令牌，使输出长度减少 3.2 倍。 17 亿模型平均每次响应约 1,110 个令牌，而类似系统为 1,901 个。较短的输出意味着更快的响应时间和更低的计算成本。这在现实世界的医疗保健环境中很重要，速度和成本都会影响采用。两种模型都可以采用量化的 GGUF 格式进行本地部署。 Q4_K_M 版本分别约为 1.2 GB 和 2.6 GB。这些尺寸使模型适用于移动设备和现场医院系统。性能提升来自分阶段的训练后过程。它结合了广泛的医疗监督、临床推理数据和针对疑难病例的强化学习。不需要额外的模型缩放即可达到这些结果。医疗人工智能长期以来一直依赖云基础设施来远程处理敏感数据。 QVAC MedPsy 通过完全在设备上提供强大的性能来改变这一现状。对于在严格的隐私规则下运营的医疗保健提供商来说，这开辟了云访问受到限制或限制的新部署选项。