
《用于对话式患者分诊的AI智能体:基于真实世界电子病历数据的初步模拟评估》这篇文章提出了一种新颖的框架,用于开发和评估能够进行多轮对话的人工智能(AI)分诊系统。该系统利用真实世界电子病历数据构建了一个患者模拟器,并以此为基础,设计了一个由多个大语言模型 (LLM) 驱动的多智能体AI分诊系统,模拟医生的临床推理过程,对患者进行分诊。 这项研究的意义在于,它提供了一种在不泄露患者隐私的情况下,对AI分诊系统进行大规模、严谨测试的方法。
文章首先指出,尽管大语言模型在医疗领域的应用前景广阔,但现有系统大多采用单智能体架构,缺乏透明度和可解释性,难以进行有效的测试和调试。为了解决这一问题,研究人员开发了一个病人模拟器,该模拟器利用真实世界的电子病历数据构建了大量的患者病历概要,模拟不同症状和病情的患者,并能与AI智能体进行多轮对话。模拟器通过对真实病历的提取和转换,生成符合真实临床场景的患者表述,避免了使用完全合成数据带来的局限性。模拟器的设计遵循了严格的规则,确保其回复的真实性和一致性,并经过临床专家的反复迭代改进。

AI分诊系统是一个多智能体系统,由八个大语言模型驱动的智能体组成,分别负责不同的任务:症状收集、健康数据规划、健康数据检索、病例小结、鉴别诊断、下一步建议以及指南验证。这些智能体协同工作,模拟医生从收集症状、检索电子病历数据、进行鉴别诊断到给出分诊建议的全过程。这种多智能体架构提高了系统的透明度和可解释性,方便了错误定位和系统优化。值得注意的是,下一步建议智能体不仅提供分诊建议,还提供针对特定病情的家庭护理建议和预警信号,增强了系统的实用性和安全性。指南验证智能体则通过检索和交叉验证临床指南,进一步提高了分诊建议的准确性和可靠性。
研究人员使用来自“健康真相”的 21,779 条去标识化的电子病历记录构建了数据集,并从中筛选出519个符合研究目标的初始就诊病例。这些病例涵盖了多种常见的症状和疾病。研究人员对患者模拟器和AI分诊系统进行了评估,两名经验丰富的临床医生对519次模拟就诊进行了独立评估,评估内容涵盖了模拟患者病历概要的质量、信息收集、临床推理和护理建议等14个维度。结果表明,患者模拟器在97.7%的情况下能够与患者病历小结保持一致,提取的病例小结在99%的情况下与对话历史相关。AI分诊系统在信息收集、病例小结、鉴别诊断和分诊建议等方面也表现出较高的准确性,两名医生在大多数情况下都同意AI分诊系统给出的分诊建议和理由。模型与医生的意见一致性甚至高于医生之间的意见一致性,这表明AI分诊系统具有较高的可靠性。

文章最后讨论了这项研究的局限性,例如数据的不准确性、特定人群或疾病的代表性不足以及模拟环境的局限性等。研究人员也指出了未来研究的方向,例如改进患者模拟器,使其能够模拟更多类型的患者和临床场景,以及进一步优化AI分诊系统的性能和可解释性。尽管存在一些局限性,这项研究仍然为开发和评估用于对话式患者分诊的AI系统提供了一种有价值的方法,其多智能体架构和基于真实世界电子病历数据的模拟评估方法为AI在医疗领域的应用提供了新的思路。该研究的成果为构建更安全、更可靠、更可解释的AI医疗系统奠定了基础,并为未来AI在医疗保健中的广泛应用提供了重要的参考价值。尤其值得关注的是,该研究强调了多智能体架构在提高AI系统透明度、可控性和可调试性方面的优势,这对于在医疗等高风险领域应用AI至关重要。
如需要《用于对话式患者分诊的AI智能体:基于真实世界电子病历数据的初步模拟评估》(英文,15页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



As time has progressed to this day, people seem to have gradually lost the ability to love others — and the longing to be loved. 时代走到了今天,人们似乎已经渐渐失去了爱别人的能力和想被爱的期待。早上好!
