图片

《推进医疗自动化:用于医疗必要性论证的多智能体系统》这篇文章探讨了利用多智能体系统实现医疗“预先核准”(PA)流程的可能性,该流程目前依赖于劳动密集型的人工比较,效率低下。研究人员提出了一种新颖的方法,利用大语言模型作为特化智能体,将复杂的PA审核任务分解成更小、更易于管理的子任务。这项工作的主要贡献在于提出了一个基于临床指南和患者病历进行医疗必要性论证的新挑战,并通过将PA申请分解成多个子任务,利用大语言模型智能体有效地解决了这一问题。

文章首先介绍了美国医疗领域流程管理的挑战,特别指出了“预先核准”(PA) 流程的低效性和对医护人员工作效率的影响。传统的基于规则的方法,例如电子“预先核准” (e-PA),虽然在简单的核准决策中足够有效,但在处理复杂的病例(涉及时间数据、反应证据和临床数据项目趋势)时却力不从心。现有e-PA系统并未显著减少医护人员的工作量,这凸显了改进PA流程的必要性。大语言模型的出现为解决这一问题提供了新的途径,其在处理非结构化数据、自然语言理解和自动化内容创建方面的优势使其成为自动化PA流程的理想工具。多智能体系统的引入进一步提升了人工智能系统的能力,它将复杂任务分解成多个子任务,并将其分配给多个特化智能体,从而构建更模块化、可扩展和强大的人工智能系统。

图片

文章的核心方法论基于一个两步走的策略:首先预测叶节点的判断,然后自下而上地传播判断结果到父节点。在叶节点判断预测中,研究人员采用了一种检索增强型设置,首先利用文本编码器筛选出与特定检查表项目最相关的电子病历文档。然后,分类智能体对这些文档进行分类,区分支持性证据和矛盾性证据。最后,审核智能体根据这些证据预测叶节点的判断结果,并给出置信度分数。该过程使用了多种大语言模型进行实验,结果表明 GPT-4 在预测检查表项目级别的判断(包含证据)方面达到了86.2%的准确率,在确定整体检查表判断方面达到了95.6%的准确率。研究人员还分析了不同大语言模型和提示策略的影响,并通过调整检索到的证据数量 (k) 来优化模型性能。实验结果表明,当k值达到20时,模型性能达到饱和。

在父节点判断预测中,研究人员提出了一种自下而上的判断传播方法,利用传播智能体根据子节点的判断结果和置信度分数,结合逻辑运算符 (ANDORNOT) 来计算父节点的判断结果和置信度分数。为了评估父节点判断传播的性能,研究人员创建了合成数据集。实验结果表明,GPT-4 在使用上下文学习和思维链提示策略时,在预测父节点判断方面取得了较高的准确率( 95%)。然而,思维链提示策略显著增加了大模型的响应时间。与之相比,GPT-3.5 在准确率和延迟之间取得了更好的平衡,在成本和性能之间提供了更优的选择。

图片

文章还详细描述了数据收集和标注过程。由于获取真实的电子病历数据存在困难,研究人员使用了MIMIC-IV-Note数据库中的去标识化出院小结作为替代数据。他们聘请了具有丰富PA审核经验的专业人员对叶节点进行标注,并通过多数投票法确定最终判断结果。对于父节点判断,由于逻辑运算需要专业的医学知识,研究人员创建了合成数据来评估模型的性能。

最后,文章总结了研究成果,并讨论了未来的研究方向。研究人员指出,将真实世界的电子病历数据 (FHIR 数据转换为字符串数据可能会影响系统性能,需要进一步研究。他们还强调了置信度分数在提高系统透明度和可解释性方面的作用,以及在医疗工作流程中使用人工智能模型时保证透明度的重要性。此外,该系统还可以应用于临床决策支持(CDS)系统,为医生提供实时提醒,确保及时处理必要的文档。文章最后展望了该方法未来发展成一个更动态、更强大的多智能体系统,并提出了一个类似于组织结构的理想架构,包括多个工作智能体、检查智能体和超级协调智能体,以提高系统鲁棒性和解决大语言模型的幻觉问题。总之,该研究为自动化医疗“预先核准”流程提供了一种新颖且有效的方法,并为未来医疗自动化的发展提供了有益的借鉴。

如需要《推进医疗自动化:用于医疗必要性论证的多智能体系统》(英文,11页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片

图片


图片


★ 每日鲜鸡汤  ★

Avoiding certain people to protect your emotional health is not a weakness. It's wisdom. 为守护心绪安宁而远离某些人,不是懦弱之举,实乃智慧之择。早上好!

图片