图片

“莫林”是一个针对3D计算机断层扫描(CT)的视觉语言基础模型,该模型由美国斯坦福大学等机构的研究人员共同开发。

 

在医学影像领域,计算机断层扫描(CT)是一种关键的诊断工具,每年在美国进行超过8500万次CT扫描,其中约四分之一集中在腹部。随着医学影像利用的年增长率达到6%,放射科医生的负担日益加重,而放射科医生的数量却相对恒定。为了缓解这一压力,人工智能(AI)在医学影像解释中的应用变得尤为重要。传统的视觉语言模型通常局限于2D图像和简短报告,而且并未利用电子病历数据进行监督。相比之下,“莫林”能够处理3D CT图像的视觉语言模型,它结合了结构化的电子病历和非结构化的放射学报告,无需额外的人工标注即可进行监督学习,从而在医学图像解释方面展现出更广泛的应用潜力。

 

图片

“莫林”模型通过“对比语言-图像预训练”技术,将文本和视觉表示在共享嵌入空间中对齐,从而实现对视觉模型的自然语言监督。这种范式使得利用互联网规模的图像和标题,展示出在即插即用(零样本)设置或随后适应(少样本学习)中的卓越图像理解能力。“莫林”使用高质量的临床数据集进行训练,该数据集包含配对的CT扫描(来自15331CT扫描的600多万张图像)、电子病例中的诊断代码(180多万个代码)和放射学报告(600多万个标记)。

 

模型经过6种任务类型和752个单独任务的评估,展示了其在多种医疗影像任务中的优异性能。这些任务包括无需适应的(即现成的)任务,如零样本发现分类(31个发现)、表型分类(692个表型)和零样本跨模态检索(图像到发现和图像到印象),以及需要模型自适应的任务,如5年疾病预测(6种疾病)、放射学报告生成和3D语义分割(20个器官)。在内部测试集上,“莫林”在30个腹部CT发现上的零样本分类平均F1分数为0.741,在外部验证数据集上为0.647,显著优于其它两个相关模型。此外,“莫林”在预测692种表型方面的性能表现良好,其中37%的表型AUROC超过0.8515%的表型AUROC超过0.9

 

值得注意的是,所有这些训练都在单个GPU上完成,凸显了“莫林”模型的计算效率。

 

图片

为了进一步验证“莫林”的性能,研究团队进行了多项比较实验。例如,在慢性疾病预测方面,“莫林”与其他为相同任务进行微调的基线模型变体进行了比较,结果显示,在使用100%10%的下游训练数据时,“莫林”均优于其他模型变体。在3D语义分割方面,“莫林”的表现同样出色,当使用10%的训练案例时,它比次优模型变体好11%

 

“莫林”模型的另一个显著特点是其可扩展性。研究团队计划发布其训练好的模型、代码和数据集,供其他研究人员使用和改进。他们还讨论了将“莫林”扩展到其他解剖结构和模态的潜力,并希望其严格的评估策略能够帮助确定训练下一代放射学基础模型的最佳数据组合。

 

图片

综上所述,“莫林”是一个具有广泛应用前景的3D视觉语言基础模型,在医学图像解释方面展现出卓越的性能和计算效率。它不仅缓解了放射科医生短缺的问题,还为从医学图像中提取新的生理见解提供了强有力的工具。随着研究团队进一步发布和完善“莫林”模型,它有望在未来的医疗实践中发挥更大的作用。