图片

本文提出了一种利用大语言模型高效识别电子病历中多种疾病的新方法。该方法旨在克服传统疾病检测方法中存在的局限性,例如手工标注数据的费时费力以及对单一疾病模型的过度依赖。

 

文章首先指出,疾病检测是预防医学和公共卫生工作的基础,能够实时监测疾病的患病率和发病率,为观察性和干预性研究提供队列识别,并为精准医学提供新的患者分层方法。然而,从医疗数据中同时检测多种疾病具有挑战性,因为许多疾病具有相似的症状或异质且不断变化的临床表现。电子病历包含了医生、相关医务人员和系统信息在患者入院期间做出的临床决策和医嘱。利用电子病历数据,越来越多的基于人工智能的方法被用于检测各种疾病,包括糖尿病、高血压、脑血管疾病和不良事件等。

 

图片

然而,现有的基于人工智能的方法也存在一些局限性:手工标注训练数据费时费力,限制了患者数据的多样性,并且将模型的应用范围限制在有限的队列中;此外,虽然单一疾病模型在目标诊断方面有效,但其忽略了患者健康的多样性和复杂性,以及合并症的普遍存在。鉴于已知的疾病种类繁多(超过9000种),针对每种疾病训练模型既不实际也不高效。
为了解决这些问题,该研究提出了一种结合大语言模型和人类临床专业知识的疾病检测流程。该流程无需手工标注数据,而是通过精心设计的提示词,引导大语言模型分析和解释电子病历临床记录中的信息,从而推断疾病的存在状态。该流程包含四个主要步骤:(1)基于提示词的临床记录预处理,过滤掉与目标疾病无关的信息;(2)针对不同疾病设计提示词,引导大语言模型进行疾病推断;(3)使用大语言模型进行文本推断;(4)基于临床规则对大语言模型的响应进行后处理。

 

图片

本研究使用了加拿大艾伯塔省2015年的心脏病登记队列数据,该队列数据与电子病历系统相连,包含患者人口统计数据、临床记录以及急性心梗、糖尿病和高血压等目标疾病的验证临床诊断结果。参考标准来源于艾伯塔省冠状动脉心脏病结果评估省级项目临床登记,该项目收集了所有接受心脏导管检查患者的详细资料,并结合了基于国际疾病分类第10版加拿大修改版的诊断结果。
在数据预处理阶段,研究人员设计了一种基于提示词的方法,对电子病历记录进行筛选,只保留与目标疾病相关的文本信息。该方法包括四个步骤:文档类型采样、文档类型推断、文档类型过滤和文档内容选择。通过计算每个文档类型的信息相关性分数,并设置阈值,筛选出与目标疾病相关的文档类型,并提取每个记录中最相关的句子。关键词匹配技术用于选择有用的文本片段。

 

图片

在提示词设计阶段,研究人员根据每种疾病的具体诊断标准、治疗管理和临床指南,设计了两种类型的提示词:信息提取型提示词和推理型提示词。信息提取型提示词用于提取特定信息(如症状和检验检查结果),推理型提示词则直接推断疾病的存在状态。

 

在文本推断阶段,研究人员使用了Mistral-7B-OpenOrca大型语言模型。该模型经过大量高质量文本数据的预训练,能够理解和处理复杂的医学信息。模型的超参数通过网格搜索进行了优化。

 

图片

在后处理阶段,研究人员基于临床规则对大语言模型的响应结果进行分类。对于每种疾病,大语言模型都会输出两种类型的响应:推断型响应(未提及)和信息提取型响应(检验检查结果)。研究人员将这两种响应结合起来,最终确定每位患者的疾病状态。
研究结果表明,该方法在检测急性心梗、糖尿病和高血压方面取得了较高的灵敏度和阴性预测值,优于传统的基于ICD-10代码的方法。虽然特异性和阳性预测值相对较低,但分析表明,假阳性病例主要包括以下几类:在临床记录中提到了特定诊断,但在参考标准中未标记为阳性;高度疑似病例;既往病史;以及其他误判。这些误判的原因包括参考标准的数据收集过程存在局限性,以及大语言模型在区分细微差别和进行数学比较方面的不足。然而,识别疑似病例仍然具有价值,因为这些患者可能面临患病风险,需要更早的预防性干预。

 

图片

文章还比较了不同大语言模型模型的性能,并选择了Mistral-7B-OpenOrca作为最终模型。最后,文章讨论了该方法的局限性,例如需要进一步研究假阳性病例,以及需要升级计算基础设施以使用更大规模的大语言模型。
总而言之,该研究提出了一种将大语言模型与人类专业知识相结合的新型疾病检测方法,该方法在无需手工标注数据的情况下,能够高效准确地识别多种疾病,具有重要的应用前景。该方法的透明性和可解释性也增强了其在医疗领域的应用价值。然而,该方法也存在一些局限性,需要在未来的研究中进一步改进和完善。