图片

大语言模型医生:解释纵向病历的大语言模型》一文介绍了一种专门设计用于分析和理解患者病历的大语言模型。该模型由“轻松健康”公司开发,目前已被部署到其面向患者和科研的产品中。大语言模型医生的推出标志着人工智能(AI)领域的一大突破,特别是在病历解读方面展现出了强大的模式匹配和信息回忆能力。

 

大语言模型医生的独特之处在于它结合了领域知识和来自数百万份纵向医学记录的大型语料库进行训练,这些记录跨越了多个医疗机构和长达十年的时间跨度。这种方法与仅基于知识、未标记记录、电子病历(EHR)聚合器的结构化数据或单一医疗系统记录训练的模型相比,具有显著优势,能够更准确地描绘患者的健康状况。

 

图片

大语言模型医生的训练过程分两个阶段:持续预训练和指令微调。持续预训练阶段,“大语言模型医生”在包含电子和纸质病历以及通用医学知识的280亿个令牌的语料库上进行训练,这其中包括PubMedQA训练数据集(并加入了思维链提示)、PubMed Central期刊文章等,但刻意避免了直接使用其他基准测试的数据集,从而使模型在PubMedQA基准测试上表现更好,并观察其知识迁移到其他基准测试的情况,以及基准测试准确率与实际记录处理能力之间的关系。
指令微调阶段,大语言模型医生在结构化和抽象任务上进行训练。结构化任务旨在将医学记录转化为可用的结构化数据,这包括光学字符识别/临床文档架构(CDA)解析、文档标记、分段和提及处理等步骤。“提及处理”类似于命名实体识别,它识别临床概念、属性以及它们之间的关系,并将识别的实体与相应的本体进行对齐。

 

图片

抽象任务则模拟临床医生的工作方式,从结构化数据中提取出更高级别的临床信息,例如患者服用某种药物的持续时间(药物疗程)。抽象任务的定义包括目标概念(例如药物代码)、数据类型(例如离散变量、多发事件变量和时间跨度变量)以及处理协议(包括定义、指南和示例)。这些协议由临床医生和研究人员共同制定,并可能包括多轮“抽象人员”(对医学记录进行信息提取和抽象总结的人员)培训、评估、反馈和修订。
大语言模型医生的部署包含多层验证系统,以确保其输出的一致性和准确性。这些验证机制包括预测模型性能的次级模型、基于规则的数据一致性和合理性检查以及人工审核。任何验证失败的输出都会被更正或抑制,并纳入未来的训练数据。这些机制可根据用例进行配置,允许在适当情况下快速有效地处理低风险数据,或在需要时保证抽象人员使用监管机构可接受的协议验证数据。

 

图片

本文对包括大语言模型医生在内的多个大语言模型进行了评估,比较了它们在常用医学基准测试和生产任务上的表现。结果表明,为了准确模拟患者的健康状况和治疗过程,大语言模型必须在完整、标记的纵向病历上进行训练。PubMedQA基准测试中,参数规模为80亿的大语言模型医生取得了最先进的文本应答准确率,优于参数规模大得多的通用和领域特定模型。然而,在处理现实世界中混乱的医学记录时,许多模型难以有效利用医学知识。在生产结构化和抽象任务上的表现也印证了这一点:大语言模型医生显著优于所有其他模型,大型通用大语言模型(如GPT-4)的表现也优于那些强调医学知识的模型。这一发现表明,处理医学记录的准确性并非完全取决于大语言模型的医学知识,预训练和基于真实记录的详细指令微调同样重要。

图片

“轻松健康”平台是大语言模型医生训练数据和部署环境的来源。该平台帮助患者检索和管理他们的病历,无论病历的格式或保存机构如何。这包括电子病历和纸质病历,其中纸质病历对于那些不在大型医疗机构就诊的患者、电子病历普及之前的历史记录以及系统阻碍数据共享的机构尤为重要。通过构建患者完整的纵向健康信息,“轻松健康”能够为患者和研究人员提供有价值的服务,包括虚拟医疗、医疗协调、病历管理以及支持新疗法的观察性研究等。
总而言之,本文介绍的大语言模型医生通过结合领域知识和大量标记的纵向病历进行训练,显著提高了对患者健康状况的理解和分析能力。其多层验证系统和在真实世界应用中的出色表现,为未来医学大语言模型的发展提供了重要的参考价值,也强调了在医学领域应用大语言模型时,数据质量和模型训练方法的重要性。“大语言模型医生”的成功案例也展示了在医疗领域中,利用人工智能技术改善患者诊疗和医学研究的巨大潜力。