如今,越来越多的人开始相信,AI可以通过多种方式改变医学。


在过去的两年里,专有的 AI 模型(也称为闭源模型)在解决需要复杂临床推理的医疗案例方面表现出色。


在普遍的认知里,闭源 AI 模型的性能优于开源模型,毕竟开源模型的资源投入普遍较少,且任何人都可以进行调整和修改。


不过,近期哈佛医学院研究团队一项研究,对比开源VS闭源模型在医学任务上的表现,结果表明:


开源 AI 工具的竞争力越来越强,甚至超过了当前最强的闭源模型之一!


参与对比的是Meta发布的Llama 3.1 405B以及OpenAI 研发的 GPT-4。


GPT-4一直是医疗任务中表现最好的 LLM 之一,并正在被纳入医疗保健应用,和多家医疗和制药公司合作。


研究人员比较了两种模型在《新英格兰医学杂志》每周诊断具有挑战性的临床场景的 92 个病例上的表现。


在他们的分析中,研究人员在 70 个 NEJM 病例上测试了 Llama,这些病例都是有挑战性的疑难杂症。


在这项新研究中,研究人员增加了 Llama 训练期结束后发表的 22 个新案例,以防止 Llama 在基础训练期间无意中遇到 70 个已发表案例中的一些案例。

 

结果令研究人员表示震惊:Llama 在 70% 的病例中做出了正确的诊断,而 GPT-4 的诊断率为 64%。


它还在 41% 的情况下将正确的选择列为第一个建议,而 GPT-4 的这一比例为 37%。


对于 22 个较新病例的子集,开源模型的得分更高,73% 的概率做出正确的判断,45% 的概率将最终诊断确定为首要建议。


开源和闭源 AI 系统的优缺点


开源 AI 和闭源 AI 在几个重要方面有所不同。


首先,开源模型可以本地部署,保护患者数据。相比之下,闭源模型在外部服务器上运行,需要用户向外部传输私有数据。


其次,医疗和 IT 专业人员可以调整开源模型以满足独特的临床和研究需求,例如接入本地知识库,院内病例等,而闭源工具通常更难定制。


第三,闭源模型通常由公司提供并且维护,而开源模型将模型设置和维护的责任交给用户。至少到目前为止,闭源模型已被证明更容易与电子健康记录和医院 IT 基础设施集成。


这或许能够解释,为什么当前国内医院纷纷选择本地部署DeepSeek,机构能够在不牺牲数据隐私或灵活性的情况下部署在本地运行的高性能定制模型。


不过该研究并未将开源模型和专有的AI医疗模型进行比较,包括年出DeepSeek一鸣惊人后,成为史上最强开源模型,能够与GPT-4/GPT-4o直接掰手腕。


正如哈佛的研究人员所说:“作为一名医生,我看到人们对强大的大型语言模型的关注主要集中在我们无法在本地运行的专有模型上。


“我们的研究表明,开源模型可能同样强大,让医生和卫生系统对如何使用这些技术有更大的控制权。”


未来,这些开源模型有望整合到医疗系统中,成为临床医生的宝贵助手,以提高诊断的准确性和速度。


—The End—


推荐阅读