图片

人工智能在医疗领域的应用日益广泛,包括预测分析和医学文本生成等。大语言模型在理解和生成复杂医学文本方面展现出强大能力,多模态大语言模型逐渐受到关注。出院指导对于患者的随访至关重要,但生成这类指导需要大量人工付出,耗时费力。因此,需要利用多模态大语言模型来提高出院指导生成的效率和质量。

 

本研究提出的这个名为拉玛医疗的多模态医疗大语言模型旨在自动化生成患者的医院出院指导。拉玛医疗通过整合文本、图像、时间序列数据和ICD代码等多种数据类型,旨在提高出院指导生成的效率和质量。这一创新不仅推动了医疗文本生成领域的发展,还展示了大语言模型在医学领域应用中的潜力。

 

图片

一、背景与相关工作

 

随着大语言模型在各种应用中的成功,研究人员开始关注开发能够整合更多类型输入(不只是文本)的多模态医疗大语言模型。这种转变的典型例证包括“科利普”和“弗莱敏戈”等模型的发展。拉玛医疗的提出,正是基于这一背景下,旨在利用多模态数据来提升医疗文本生成的准确性和实用性。此外,“低秩适配”等技术也被用于高效微调大语言模型,以适应特定任务,如医疗文本生成。

 

二、模型架构

 

拉玛医疗的框架由三大模块构成:模态编码器、模态桥和大语言模型。

 

1、模态编码器:处理四种不同的模态数据:时间序列数据(如血液检测结果)、文本数据、ICD代码和图像。这些数据通过预训练的编码器转换为潜在表示。

 

2、模态桥:利用“长短期记忆网络”和线性变换,将不同模态的数据桥接到大语言模型的令牌嵌入层。这些单元在本研究中被称为模态桥。

 

3、大语言模型:拉玛医疗采用“麦迪闯-7b”作为骨干大语言模型,该模型是“拉玛-2-7B”在精选医疗语料库上继续预训练而得到的。“麦迪闯-7b”无需微调或指令调优,即可作为大语言模型的构建块。

 

图片

三、数据集与预处理

 

研究使用了MIMIC-IV-Note数据集,该数据集包含331,794份去标识化的住院患者出院小结和2,321,355份放射学报告。这些数据为临床自然语言处理研究提供了丰富的自由文本临床记录,并与MIMIC-IV的临床数据相关联。数据预处理阶段,本研究借鉴了叟恩凯森等人的方法,创建了满足拉玛医疗特定要求的多模态数据集。

 

四、实验设置与评估方法

 

实验设置以“麦迪闯-7b”为大语言模型骨干,通过指令调优使其能够根据给定的输入生成出院指导。评估方法包括使用“茹易”评分和基于大语言模型的评估方法,后者侧重于事实准确性、完整性和风格/清晰度。此外,本研究还比较了基线模型、单模态(仅文本输入)模型和多模态模型的表现。

 

图片

五、结果与分析

 

实验结果显示,拉玛医疗在多模态输入下生成的出院指导在质量和连贯性方面优于基线模型和单模态变体。尽管在多模态与单模态变体之间的“茹易”评分差异不大,但多模态模型在基于大语言模型的评估中表现出更优的性能。这表明多模态方法确实有助于提升医疗文本生成的质量。

 

六、结论与未来展望

 

综上所述,本研究提出的拉玛医疗通过整合多种模态的数据,有效地提高了自动生成医院出院指导说明的效率和质量。其创新的多模态架构和高效的训练策略,为医学领域的自然语言处理提供了新的思路和方法。未来研究可以进一步探索更丰富的模态数据,以及更先进的模型架构和训练技术,以进一步提升拉玛医疗的性能和应用范围。此外,模型的可解释性和鲁棒性也需要进一步的研究和改进,以确保其在临床实践中的安全性和可靠性。