《分层智能体监督：医疗人工智能安全的分层多智能体系统》

一、背景

随着大语言模型（LLMs）在医疗领域的快速应用，它们在问答、辅助诊断、治疗方案制定等方面显示出巨大潜力。然而，单一模型结构在实际临床应用中存在显著安全隐患，例如：

●错误检测能力弱；

●出现“幻觉”内容；

●缺乏多角度审查机制；

●过度依赖单点决策。

这些问题可能导致错误诊断、不当用药等严重后果。因此，亟需构建一种更安全、稳健、可适配的人工智能（AI）监督系统，在保留AI高效能力的同时，确保其临床决策的可信性与伦理性。

二、“陶”：分层智能体监督框架简介

本文提出了一种名为“分层智能体监督”（简称“陶”）的新型AI安全框架，模拟现实医疗团队的层级结构（如护士、普通医生、专家），将AI智能体划分为多个功能层级，以实现更安全、适配性更强的医疗AI应用。

“陶”的主要特点包括：

●分层智能体结构：按任务复杂度，将AI智能体划分为初评层（第一层）、复核层（第二层）、专家层（第三层）。

●动态任务路由机制：根据任务风险与智能体能力，自动匹配最合适的层级智能体任务，并可根据复杂度进行层级升级。

●跨层协作与反馈：不同层级之间可进行信息交流、风险协商与升级判断。

●嵌入人类监督：高风险情形下触发人类医生介入，避免AI独断。

三、框架设计与运行机制

“陶”运行共分三步：

1、智能体调度与路由

智能体调度器根据输入案例分析所需的专业知识和角色（如护士、心脏科医师、伦理顾问），调度合适的医疗智能体。智能体路由器则根据案例复杂性和智能体能力，将查询定向到适当的层级。

2、层内协作与层间升级

每层AI可进行多轮协作讨论形成判断，若不确定性高或风险等级提升，则可触发向上层级升级。上层智能体可选择接受或拒绝该升级请求，并提供反馈。

3、最终决策输出

由最终决策智能体汇总所有层级信息、协作过程与风险判断，结合案例背景生成最终决策，输出包括：风险等级、推理解释、建议方案等。

四、安全性评估与实验结果

文章在五个医疗AI安全评估基准上对“陶”进行了性能测试，结果显示“陶”在其中四项指标上超越所有对比方法，最高提升达8.2%，验证了其卓越的安全性与稳健性：

●评估基准1：检测对不安全输入的响应情况；

●评估基准2：应对具有攻击性或误导性的输入；

●评估基准3：评估输出内容是否合理、合乎伦理与安全；

●评估基准4：在医疗资源分配决策中体现伦理一致性；

●评估基准5：面对图文攻击输入时的鲁棒性。

此外，文章还进行了成本-效能权衡分析，显示“陶”在不显著增加计算开销的情况下，能实现更高的安全标准。

五、关键发现与消融研究

1、每一层的安全贡献不可或缺

通过逐层去除实验发现，第一层对系统安全性的贡献最大。其作为初级筛查关口，可有效过滤大量潜在风险。第二层和第三层也发挥重要补充作用，尤其在处理复杂或升级案例时不可或缺。

2、智能体能力分配的策略性

将能力更强的大模型部署于低层（如第一层）比起部署于高层更能提升整体安全表现。原因在于强智能体在初期阶段即可检测并纠正错误，减少后续层级处理负担，实现“前端纠错、后端减压”的效果。

3、抵御恶意智能体攻击的稳健性

即便系统中引入对抗性智能体（如倾向低估风险、逃避升级），“陶”依然能通过多层协作机制保持较高的安全输出，远优于传统单体模型或其他多智能体系统。

六、人类与AI的协同监督研究

文章设计了一项“临床医生参与监督”的实证研究，结果发现：

●在AI判断准确率为40%的情况下，当引入医生意见协同决策后，准确率提升至60%；

●此协作方式不仅能纠正AI误判，也不会削弱其原有正确判断能力；

●显示“陶”框架可与人类临床专业知识协同演进，达到优于人类或AI单独操作的效果。

七、结语与展望

“陶”通过模拟医疗团队的决策结构，引入多层级、多角色AI智能体系统，解决了单一AI模型在医疗安全性上的局限。其优势体现在：

●高适应性与动态升级机制；

●低风险容忍度与高纠错能力；

●能与人类医生协同作战，提升诊疗质量。

未来，“陶”可推广至各类医疗AI任务，如处方审核、影像诊断、急诊分诊、慢病管理等。也为构建可信赖、安全可控的医疗AI系统提供了可复制的范式与理论基础。

《分层智能体监督：医疗人工智能安全的分层多智能体系统》

《精神健康与人工智能领域指南》

《医疗人工智能：如何开发并实施安全、合乎伦理且值得信赖的人工智能系统》

《“骨原智析”：面向可解释骨健康分类的多模态原型学习》

《脆弱性与希望：基于知识图谱的奖励建模在诊断推理中的应用》

《2025年利用人工智能的20大医疗科技公司》

《用于对话式患者分诊的AI智能体：基于真实世界电子病历数据的初步模拟评估》

《神经成像的可解释人工智能方法：常用工具的系统性失效、特定领域验证的必要性以及安全应用建议》

《智慧医疗×深度医学：第20届世界医学与健康信息学大会论文集》

《基于智能体的临床记录特征生成用于预测预后》