
本文介绍了“动态医疗”,一个用于模拟临床诊断的动态多智能体框架,它突破了现有医疗AI模型的局限性,实现了更贴近真实临床实践的交互式和开放式医疗决策。与以往主要关注单轮问答任务的模型不同,“动态医疗”将临床诊断模拟为多轮交互循环,医生智能体团队可以迭代地向患者系统提问,整合新信息,并动态调整其组成和策略。这使得“动态医疗”能够处理信息不完整、不确定性高的真实临床场景。
为了支持“动态医疗”的运行,研究人员构建了MIMIC-患者数据集。该数据集基于MIMIC-III电子病历构建,以患者为中心,结构化地组织了各种医疗信息,包括结构化数据(如入院信息、人口统计数据、诊断、处方、手术记录、图表数据和实验室数据)和非结构化数据(如心电图报告、超声报告、放射学报告和出院小结)。为了解决MIMIC-III数据复杂且分散的问题,研究人员采用了两阶段数据处理方法:首先筛选符合特定条件的入院记录(例如,诊断疾病少于五种,且包含足够的临床数据),然后将每个患者的各种临床记录合并到单个JSON文件中,方便智能体访问和处理。

“动态医疗”框架由患者系统和医生系统两部分组成。患者系统能够响应医生智能体提出的自然语言问题,它结合了基于规则的关键词匹配和大语言模型(LLM)推理的双阶段应答过程,以确保响应的可靠性并最大限度地减少大语言模型的幻觉。医生系统则由一个中央智能体和一个专家团队组成。中央智能体负责根据不断变化的患者病情动态管理专家团队,根据需要添加或移除专家,以确保团队始终与当前信息保持一致。专家团队采用协作决策协议,在单专家情况下,智能体根据访问日志评估诊断置信度,决定是给出诊断还是提出后续问题;在多专家情况下,每个智能体独立提出响应(诊断或问题)及其置信度分数,然后进行投票,以满足预定义的协议门槛。
“动态医疗”的工作流程是一个六步循环:1)初始化访问日志;2)专家团队组建;3)专家响应生成;4)患者交互;5)更新访问日志;6)动态调整。这个循环会持续进行,直到得出诊断或达到交互轮数限制。整个过程高度动态,专家团队的组成和策略会根据新获得的患者信息不断调整,更真实地模拟了临床诊断过程中的信息收集和决策过程。

研究人员在MIMIC-患者数据集上对“动态医疗”进行了广泛的实验,并与单智能体变体和MEDIQ基准进行了比较。结果表明,“动态医疗”的多智能体动态设置在多个指标上都优于单智能体变体,尤其是在处理复杂和模糊的病例时优势更为明显。使用GPT-4.1作为基础模型时,“动态医疗”在MEDIQ基准测试中的准确率也显著高于最佳基线。对患者系统生成的响应进行人工评估的结果也表明,这些响应在真实性和相关性方面都具有较高的质量。
虽然“动态医疗”在不同ICD-9代码类别上的诊断性能存在差异,这与疾病复杂性、患病率和问答交互的疾病特异性有关,但总体而言,“动态医疗”展现了其在开放式医疗诊断方面的强大能力。
然而,“动态医疗”也存在一些局限性。例如,它目前仅处理文本和表格数据,未来可以考虑整合其它模态的数据;患者系统可以模拟患者主动提供信息的行为,提高交互的真实性;还可以通过整合检索增强生成(RAG)、外部医学知识库或针对特定专业的模块化专家组件来进一步增强其推理能力。重要的是,“动态医疗”目前仅用于研究和教育目的,不应直接用于临床实践。

总而言之,“动态医疗”框架为交互式和开放式医疗决策提供了一个有前景的动态多智能体方法。它通过模拟真实临床诊断过程中的动态交互和决策过程,为未来的医疗AI研究提供了新的基准和方向,也为开发更智能、更可靠的医疗AI系统提供了宝贵的经验。其对真实临床场景的模拟能力,以及对动态团队协作和决策的建模,为医疗AI领域带来了新的突破。