图片

《“医疗链”:通过交互式顺序基准测试弥合大语言模型智能体与临床实践之间的鸿沟》一文旨在解决大型语言模型在临床决策中的实际应用问题。本文提出了一种名为“医疗链”的新型基准测试框架,以及一个名为“医疗链-智能体”的创新多智能体系统,用于评估大语言模型在临床实践中的表现,提升人工智能在临床决策中的性能与可靠性,推动其在临床实践中的应用。

 

一、背景与动机

 

临床决策是医疗服务过程中的关键环节,它涉及复杂多变的情境和大量数据的综合处理。尽管人工智能系统,特别是基于大语言模型的智能体,在一般医学知识和任务中取得了显著进展(如通过医学执照考试和知识问答任务),但它们在真实世界临床场景中的表现却受到限制。这主要是因为缺乏能够全面反映实际医疗实践的测试数据集。

 

图片

二、“医疗链”基准测试框架

 

为应对这一挑战,研究人员开发了“医疗链”这一包含12,163个临床案例的数据集,涵盖了临床工作流程的五个关键阶段:专业推荐、病史采集、检查、诊断和治疗。“医疗链”通过三个核心特征(个性化、交互性和顺序性)来模拟真实世界的临床实践环境,从而区别于现有的基准测试。

 

1、个性化:考虑到每个患者的具体情况和需求,“医疗链”在决策过程中纳入了个性化的信息。

 

2、交互性:“医疗链”模拟了医生与患者之间的持续互动,使得大语言模型智能体能够根据实际反馈动态调整其决策。

 

3、顺序性:“医疗链”强调了临床决策的顺序依赖性,即每个阶段的决策都基于前一个阶段的结果。

 

图片

三、“医疗链-智能体”系统

 

为进一步解决真实世界中的临床决策挑战,研究团队还提出了“医疗链-智能体”,这是一个集成了反馈机制和“医疗案例-检索增强生成”模块(用于基于案例的推理)的人工智能系统。“医疗链-智能体”通过动态收集信息和处理顺序性临床任务,展现了卓越的自适应能力,显著优于现有方法。

 

反馈机制:允许系统根据之前的案例和医生的反馈进行学习和调整。

 

“医疗案例-检索增强生成”模块:利用余弦相似度在相关医学科室内搜索最相似的案例,为决策提供更全面的基础。

 

图片

四、实验与结果

 

研究人员通过一系列实验验证了“医疗链”和“医疗链-智能体”的有效性。这些实验涉及多个评估指标,包括准确性、效率和适应性等。实验结果显示,“医疗链-智能体”在顺序临床决策任务中的表现优于现有的单智能体和多智能体框架。此外,通过消融研究,研究人员还发现个性化、交互性和顺序性对于准确临床决策至关重要。

 

个性化信息:去除个性化信息会导致所有模型在诊断任务中的性能下降。

 

顺序依赖性:移除顺序依赖性后,大多数模型的性能反而提高,这揭示了模型在处理非顺序数据时可能存在的冗余或简化。然而,值得注意的是,在真实世界的临床场景中,顺序决策往往是不可或缺的,因此,尽管移除顺序依赖性可能提高了某些模型的性能,但这并不意味着顺序性在医疗应用中不重要。
交互性:当我们尝试去除交互性后,虽然模型的性能看似有所提升,但这其实反过来说明,在真实临床环境中,交互性是不可或缺的。因为交互性能够模拟医生与患者之间的动态互动,这种互动对于临床决策至关重要。

图片

五、结论与展望
本文介绍了“医疗链”和“医疗链-智能体”,它们分别为评估大语言模型在临床决策中的表现提供了一个新的基准测试框架和一个创新的多智能体框架。通过纳入个性化、顺序性和交互性,这项工作填补了当前人工智能能力与临床实践复杂性之间的关键差距。“医疗链-智能体”这一多智能体系统通过反馈机制和“医疗案例-检索增强生成”模块,在顺序临床决策任务中表现出了前所未有的性能,甚至优于专有系统。

 

未来,研究人员计划进一步丰富“医疗链”数据集,纳入来自不同地区或医疗机构的更多数据源,以提供更广泛的临床场景。此外,他们还将致力于建立一个更全面、标准化和可靠的基准测试系统,用于评估中国的医疗大语言模型。

 

图片

总之,本文的研究不仅为医疗人工智能系统的评估和发展设定了新的标准,还为其负责任地融入临床实践铺平了道路。

 

本项研究相关的数据集和代码会公开,供感兴趣的专业人士复现和参考。