《可解释的双语多模态大语言模型在多种生物医学任务中的应用》
2024年11月9日
![图片]()
本文介绍了一个名为“迈德瑞格”的可解释双语多模态大语言模型,该模型旨在提升生物医学任务中的多样性和准确性,特别是针对包含视觉图像和文本信息的任务。
近年来,随着多模态大语言模型的快速发展,其在医疗领域的应用前景愈发广阔。然而,现有的大多数医疗通用模型在处理图像时缺乏对特定解剖区域的关注,导致生成的报告不够准确,影响了模型的可解释性和临床可用性。
![图片]()
“迈德瑞格”模型克服了这一局限性。本文首先定义了三个以区域为中心的任务:(1)区域到文本识别:根据给定的边界框区域识别其中的结构、器官或异常;(2)文本到区域检查:根据指令中描述的结构或异常,准确地定位其位置并提供边界框;(3)基于区域的报告生成:生成详细的报告,并为医学图像中相关的解剖结构提供相应的边界框。
为了训练“迈德瑞格”模型完成这些任务,研究人员构建了一个大型数据集。该数据集包含大约2.5万对来自1.5万名患者的中文X光、CT和MRI扫描报告对,涵盖了多种医学影像模态。为了降低手动标注细粒度器官的成本,研究人员开发了一种自动标注系统来生成基于区域的报告。该数据集结合其他医学多模态语料库用于训练“迈德瑞格”模型。
![图片]()
此外,文章还提出了一种区域思维链生成策略,以进一步提高模型在推理阶段的性能。通过在输入图像中检查关键区域,然后根据检测到的区域进行生成,这种方法鼓励模型在回答患者咨询或诊断疾病时更加关注医学扫描图的内部结构。
“迈德瑞格”是第一个能够同时处理图像级和区域级医学视觉语言任务的双语通用医学人工智能系统,涵盖放射学、病理学、皮肤科和眼科等多种医学模态。实验结果表明,“迈德瑞格”能够精确输出所关注特定区域的边界框,而其他现有模型则无法做到这一点。这显著提高了模型正确描述特定区域状况的能力,并进一步提升了视觉问答和诊断等下游任务的性能。与“迈德医生”等现有最佳医学多模态大语言模型相比,“迈德瑞格”在英文报告生成方面分别提高了3.91%和8.03%(BLEU-1),在中文报告生成方面更是提高了27.34%。
![图片]()
文章最后总结了“迈德瑞格”模型的贡献,并强调了在医学多模态大语言模型发展中建立区域中心能力的重要性。通过建立特定区域和生成文本之间的关系,不仅可以鼓励模型关注关键区域,还可以促进模型的可解释性和临床互动性。文章还提供了项目网页的链接,供读者进一步了解和参考。
总之,这篇文章提出了一种新颖的、具有区域感知能力的双语多模态大语言模型,显著提高了医学图像分析的准确性和可解释性,为医学人工智能的发展做出了重要贡献。“迈德瑞格”在处理多种医学模态和任务方面展现了强大的通用性,并通过引入区域思维链进一步增强了模型的推理能力。这项工作为未来医学人工智能的研究提供了新的方向和思路。