图片

这篇文章探讨了在临床决策支持系统中整合多智能体系统和伦理人工智能治理,以提高预测准确性和透明度,最终增强医疗决策的可信度。 研究人员关注的是如何利用数据驱动的医学方法,将伦理管理和可解释的人工智能融入临床决策支持系统中,以确保可靠有效的患者诊治。

 

文章的核心在于比较两种不同的智能体系统设计:单智能体系统和多智能体系统。两者都基于大语言模型 (LLM),但多智能体系统将决策过程分解成多个模块化智能体,分别负责处理实验室结果、生命体征和临床背景等不同类型的数据,最终进行预测和验证。单智能体系统则采用单一智能体处理所有数据。

图片

多智能体系统的设计:文章提出的多智能体系统包含六个独立的智能体:实验室分析智能体、生命体征分析智能体、上下文分析智能体、集成智能体、预测智能体和透明度智能体。每个智能体负责一个特定的任务:实验室分析智能体分析实验室数据并指出异常;生命体征分析智能体评估生命体征的稳定性;上下文分析智能体分析非结构化临床记录、药物使用和治疗方案;集成智能体整合所有智能体的结果;预测智能体生成死亡率概率和ICU住院时间的预测结果;透明度智能体生成可解释的预测结果说明。为了确保信息在智能体间的有效传递,系统采用了共享内存架构。

 

实验设计与数据:研究人员使用eICU协作研究数据库v2.0作为数据集,该数据库包含来自美国各地超过20万例ICU住院记录的匿名数据,包括结构化数据(生命体征、实验室结果等)和非结构化数据(临床记录)。研究人员对150名患者(76例死亡和74例存活)进行了平衡采样,并提取了临床相关的特征,例如最近十次生命体征读数、最新的实验室指标、临床记录摘要、常用药物等。此外,还使用了“阿帕奇”评分作为参考指标。

图片

结果比较:通过对多智能体系统和单智能体系统进行八次独立运行,文章比较了两种系统在死亡率预测准确性和住院时间 (LOS) 预测误差方面的性能。结果显示:

 

●死亡率预测准确性多智能体系统的平均准确率为 59%,而单智能体系统为 56%。虽然差异看似不大,但多智能体系统在所有八次运行中都保持了这一优势。

 

●住院时间 (LOS) 预测误差多智能体系统的平均误差为 4.37 天,而单智能体系统为 5.82 天。多智能体系统的平均误差比单智能体系统低约 25%,并且方差也更小,表明其预测结果更稳定可靠。

 

●透明度文章设计了一个透明度评估流程,该流程评估预测结果解释的可解释性、可理解性和可追溯性。结果显示,单智能体系统的平均透明度得分 (86.21%) 略高于多智能体系统(85.50%)。 这表明,尽管多智能体系统的结构更复杂,但其透明度仍然保持在较高水平。

 

●伦理人工智能治理文章强调了伦理人工智能治理的重要性,并通过可解释性、可理解性和可追溯性三个维度对系统的透明度进行了评估。多智能体系统的设计旨在提高可解释性和可追溯性,从而增强人工智能辅助决策的可信度。这与当前对医疗人工智能系统安全性和透明度的日益关注相呼应。

图片

结论:文章的结论是,在死亡率预测和住院时间预测方面,多智能体系统的性能优于单智能体系统,同时保持了与单智能体系统几乎相当的透明度水平。 这表明,在需要高预测准确性的重症监护环境中,多智能体系统是一种更有效的临床决策支持方法。 然而,单智能体系统在透明度方面略微领先,这需要进一步研究以平衡性能和可解释性之间的关系。未来的研究将集中在提高多智能体系统的可解释性,同时保持其预测优势。这项研究为构建可靠、可信赖的人工智能辅助临床决策支持系统提供了有价值的参考。