图片

题为《基于智能体的临床记录特征生成用于预测预后》这篇文章提出了一种名为“斯诺” (可扩展的从临床记录到临床结局的生成流程的新型多智能体系统,该系统利用大语言模型自动从非结构化临床记录中生成结构化临床特征,用于预测患者预后。该研究的重点在于解决从电子病历中提取有意义的临床特征的难题,特别是针对非结构化数据(如医生记录)的处理。

 

目前,从临床记录中提取特征主要有两种方法:一种是劳动密集型的“医生特征生成”方法,需要临床医生手工提取特征;另一种是全自动的“表征特征生成”方法,该方法使用预训练的嵌入模型或端到端神经网络架构自动生成特征,但缺乏可解释性和临床相关性。“医生特征生成”方法虽然准确性高,但扩展性差,成本高昂;“表征特征生成”方法虽然扩展性好,但可解释性差,且容易受到虚假相关性和偏差的影响。

 

 

图片

“斯诺”系统旨在弥合这两种方法之间的差距。它采用模块化多智能体架构,由一系列专门的 大语言模型智能体组成,每个智能体负责特征生成流水线中的一个特定子任务:特征发现、特征提取、特征验证、后处理和特征聚合。这种模块化设计使得“斯诺”能够自主地、可解释地、迭代地生成结构化特征,而无需任何人工干预。

本文以预测前列腺癌5年复发率为例,评估了“斯诺”系统的性能。研究使用了来自斯坦福医疗集团的147名患者数据。结果表明,“斯诺”系统的性能与人工“医生特征生成”方法相当 (AUC-ROC: 0.761 ± 0.046 vs 0.771 ± 0.036),显著优于仅使用基线特征的模型 (0.691 ± 0.079) 和所有“表征特征生成”方法。虽然临床医生引导的大语言模型方法也表现良好 (0.732 ± 0.051),但仍然需要临床专家的参与。

 

 

图片

“斯诺”系统的各个智能体协同工作:

 

特征发现智能体:扫描临床记录,提出有临床意义且适合用于预后预测建模的结构化变量。

 

特征提取智能体:从临床记录中提取每个提出的特征的值。

 

 

特征验证智能体:对提取的值进行质量控制,并决定是否继续使用该特征、删除该特征、重新提取或进行后处理。

 

后处理智能体:对提取的特征进行归一化、重新标记或分箱等处理。

 

聚合代码生成智能体:生成Python代码来计算聚合特征。

 

图片

文章详细描述了“医生特征生成”方法的流程,包括将临床实践中的知识转化为临床概念,以及将这些概念转化为可以从非结构化数据中手动提取的患者级别特征。由于前列腺癌活检报告的非结构化和非标准化特性,许多特征需要人工逐个患者进行提取。文章列举了自动化提取这些特征所面临的诸多挑战,例如不同的命名约定、不一致的报告结构和术语等。

 

文章还评估了多种“表征特征生成”方法,包括词袋模型、词袋TF-IDF模型等。 结果显示,这些“表征特征生成”方法在当前的小样本数据集中并没有比基线特征提供额外的预测价值。这可能是因为“表征特征生成”方法生成的特征维度高,在小样本数据集中容易导致过拟合,从而影响模型的性能。

 

图片

与仅使用基线特征的模型相比,使用临床医生生成的特征的模型的AUC显著提高,表明从非结构化临床记录中提取临床相关特征能够显著提高预测模型的性能。基于临床医生指导的大语言模型特征生成方法的性能与“医生特征生成”方法接近,表明大语言模型能够有效地将专家的知识应用于特征生成。最重要的是,完全自动化的“斯诺”系统在性能上与人工“医生特征生成”方法相当,这表明大语言模型能够在保持可解释性的同时,实现大规模、高效的临床特征生成。

 

文章的结论是,“斯诺”系统成功地将临床专家的知识与大语言模型的自动化能力相结合,为利用非结构化电子病历数据构建临床预测模型提供了一种可扩展且可解释的方法。这种方法有潜力改变临床机器学习模型利用非结构化电子病历数据的方式,并为个性化AI驱动的医疗保健的实际应用铺平道路。未来研究可以集中在更大规模的数据集上评估“斯诺”系统的性能,以及探索“斯诺”系统在其他临床预测任务中的应用。