图片

《基于大语言模型的端到端临床试验匹配》一文探讨了利用大型语言模型 (LLM) 来改善癌症患者临床试验匹配的效率和准确性。

 

目前,将癌症患者匹配到合适的临床试验是一个耗时且容易出错的过程,主要原因有三:第一,肿瘤治疗过程中产生的数据量巨大且结构复杂,包括住院记录、基因组数据和影像数据等,给医生带来了沉重的负担;第二,针对肿瘤的临床试验数量庞大且复杂,其资格标准通常包含非结构化的文本信息,需要复杂的逻辑组合才能判断患者是否符合条件;第三,为了避免患者病情恶化导致脱落,需要将患者纳入临床试验并开始治疗的时间缩到最短。

 

传统的临床试验匹配工具通常只关注流程中的一个步骤,例如使用嵌入技术来匹配患者和试验的文本数据,或者将非结构化文本转换为表格格式以便进行数据库查询。而本文提出了一种端到端的解决方案,利用大语言模型作为核心推理引擎,将数据库搜索、试验检索和试验匹配整合到一个流程中。

 

图片

该研究的主要贡献在于:

 

1、构建了第一个真正的端到端临床试验匹配流程: 该流程从在全球所有癌症试验中搜索与特定患者相关的候选试验开始,最终输出对相关试验的资格标准进行完整标注的结果。这克服了现有方法只关注流程一部分步骤的局限性。

 

2、进行了全面的基准测试: 本研究使用51位真实的肿瘤患者电子病历 (EHR) 数据,匹配超过1580个由五位人类专家标注的单一试验标准。结果表明,该流程在从数万个试验中可靠地筛选相关试验以及将选定的候选试验与个体患者进行高精度匹配方面都表现出色。

 

3、证明了大语言模型在临床试验匹配方面可以超越医生: 研究发现,在初始的人工评估与GPT-4o模型结果不一致的标准中,近40%的标准在利用大语言模型反馈重新评估后被认为是有效的,这表明模型能够识别人类标注中的歧义或错误。最终,该流程的标准级准确率达到92.7%

 

4、通过结构化编程对象来处理试验资格标准: 该方法避免了将资格标准作为纯文本输入,从而保证了大语言模型始终输出精确且有效的标注信息。这解决了现有大语言模型方法过度依赖精心设计的提示语以及输出结果难以保证结构一致性的问题。

 

图片

该研究的方法论包括以下几个关键步骤:

 

●数据收集和数据库构建: ClinicalTrials.gov下载临床试验数据,并构建一个混合数据库,该数据库结合了NoSQL数据库和向量数据库。NoSQL数据库用于精确匹配离散属性(如试验地点、招募状态等),向量数据库用于根据文本相似度匹配自由文本描述。

 

●临床病例生成: 研究扩展了已发表的合成病例,创建了51个更真实的肿瘤患者电子病历报告,并确保这些病例与现有临床试验的资格标准相匹配或存在冲突。

 

●试验匹配流程: 该流程由两个主要组件组成:混合数据库和大语言模型。大语言模型作为核心推理引擎,顺序地执行数据库搜索、试验检索和试验匹配。大语言模型通过结构化的思维链 (CoT) 模块来生成数据库查询,检索试验,并对患者信息与试验资格标准进行逐项匹配。为了处理边缘情况,研究定义了一些少样本示例来指导模型的响应。

 

●人工评估: 五位经验丰富的肿瘤学专业人员对所有51个候选试验进行了评估,并使用多数投票法对结果进行汇总。在第二阶段,研究人员对人工智能和人类结果不一致的情况进行了讨论,并对人类基准进行了改进。

 

图片

本研究结果表明,该端到端流程能够有效地减少候选试验的数量,并以高精度匹配患者和试验。大语言模型在筛选相关试验和进行逐项匹配方面都表现出色,甚至超过了合格医生的表现。该流程可以完全自主运行,也可以在人工监督下运行,为提高现实世界中患者与试验的匹配提供了新的视角和一种可扩展的解决方案。这项研究为利用人工智能技术改进临床试验匹配提供了重要的参考,为加速药物研发和改善患者治疗带来了希望。此外,该方案的可扩展性和灵活性使其不仅仅局限于癌症领域,而且也适用于其他医学领域。未来研究可以进一步探索如何改进大语言模型的提示语设计,提高模型的鲁棒性和可解释性,以及如何将该流程应用于其他疾病。