《“医疗路由”：多智能体医疗诊断中基于强化学习的动态专科医生路由框架》

一、研究背景与问题定义

随着大型多模态模型（LMMs）在医学领域的应用日益广泛，如BiomedGPT、LLaVA-Med等模型在疾病分类、病变检测和报告生成方面展现了强大的潜力。然而，现有的LMMs通常具有“过度通用”的特性，难以应对现实世界医疗保健中纷繁复杂的特定病症。在真实的临床实践中，诊断通常由多位具有特定领域专长的专科医生协作完成。例如，一个复杂的病例可能需要神经科医生、放射科医生和肿瘤科医生的联合会诊。

现有的多智能体框架虽然尝试模拟这一过程，但通常采用静态或预定义的专家选择机制。这意味着专家团队在诊断开始前就已固定，无法根据诊断过程中涌现的新信息进行动态调整。这种缺乏协调和动态适应能力的机制，限制了模型在面对复杂、多变的医疗场景时的表现。

为了解决这一痛点，本文提出了“医疗路由”。这是一个灵活且动态的多智能体框架，旨在通过模拟真实的临床工作流，利用强化学习训练的路由器进行动态专家选择，从而显著提高诊断的准确性。

二、核心框架设计：模拟真实诊疗流

“医疗路由”框架的设计灵感直接来源于现实世界的医疗体系，包含三个核心角色：全科医生、专科医生池和调解员。

●全科医生与动态路由机制：全科医生扮演“路由器”的角色，负责根据当前的诊断任务和历史记录，动态决定下一个需要咨询的专科医生。这与静态框架形成鲜明对比，静态框架无法利用先前专科医生的诊断历史来指导后续的专科医生选择。“医疗路由”中的路由器能够基于“先前的诊断历史”来分配下一个专科医生，从而形成一个连贯、迭代的推理过程。

●专科医生池：研究人员并未为所有可能的医学亚专业训练模型，而是基于数据驱动的方法构建了一个专科医生池。通过查询GPT-4.1-mini，根据数据集中样本的特性，生成并筛选出频率最高的Top-k位专科医生（如心脏病学、神经外科、放射科等）。每位专科医生都是一个LMM智能体，专注于其特定领域的诊断。

●调解员：在一系列动态的专科医生咨询结束后，调解员负责汇总所有专科医生的意见，进行综合分析，并做出最终的诊断决策。

这种设计使得“医疗路由”能够像真实医院一样运作：病人先看全科医生，全科医生根据初步检查结果推荐给特定的专科医生，必要时进行多学科会诊，最后由主治医生（调解员）拍板治疗方案。

三、方法论深度解析：强化学习驱动的路由优化

“医疗路由”的核心创新在于其使用强化学习来训练专科医生分配路由器。由于无法直接确定“理想”的专科医生咨询序列，但可以确定“理想”的最终诊断结果，因此研究人员设计了一种基于最终诊断准确性的奖励机制。

3.1 路由器架构

路由器接收多维输入，包括：

●任务嵌入：由问题和图像（通过图像描述器生成）组成。

●专科医生嵌入：专科医生池中所有候选专科医生的角色嵌入。

●历史嵌入：当前的诊断历史记录。

这些嵌入被拼接后输入到一个路由转换模型和多层感知机中，输出最合适的专科医生索引。

3.2 强化学习训练策略

●奖励计算：使用GPT-4.1-mini作为奖励模型。它将模型的最终预测答案与真实答案进行对比，如果语义匹配则给予奖励（1），否则为0。这种设计允许答案在措辞上不完全一致，只要医学含义正确即可。

●长度衰减：为了鼓励模型高效诊断，奖励函数中引入了长度衰减因子（γ^l）。这意味着如果模型通过咨询更少的专科医生就能得出正确结论，将获得更高的奖励。这模拟了临床中“以最少的检查步骤确诊”的高效原则。

●分组优势估计：为了解决不同问题难度差异导致的奖励偏差，研究人员采用了分组奖励归一化技术。通过在每个问题内部对多条轨迹的奖励进行归一化，使得在难题中成功的轨迹能获得更大的优势权重，从而更公平地优化策略。

四、实验设置与数据集

为了验证“医疗路由”的有效性，研究团队在涵盖多种医学亚专业的数据集上进行了广泛评估，分为文本仅限和图文混合两类：

●文本仅限数据集：MedQA（医学考试问答）、PubMedQA（基于生物医学文献的问答）。

●图文混合数据集：PMC-VQA（通用医学视觉问答）、DeepLesion（大规模病变CT影像数据集）、PathVQA（病理学视觉问答）。

基线对比模型包括通用大模型（GPT-4.1-mini, Qwen3）、专业医疗模型（MedAlpaca, BioMedGPT）以及现有的多智能体框架。

五、实验结果与分析

5.1 诊断准确性全面提升

实验结果表明，“医疗路由”在所有5个数据集上均优于现有的最先进基线模型。

●文本任务：在MedQA和PubMedQA上，“医疗路由”分别比基线模型高出约6%和2%，准确率达到了88.76%和38.60%。

●视觉-文本任务：在图像相关的数据集上，提升更为显著。特别是在DeepLesion数据集上，“医疗路由”实现了约5.5%的性能提升。这证明了在处理复杂的放射学影像时，动态调用不同专科医生（如放射科医生、骨科医生、肿瘤科医生）的策略极为有效。

5.2 消融研究

●路由器设计：对比了基于多层感知机的投影与基于余弦相似度的路由，结果显示多层感知机变体表现更好，证明了学习复杂的路由策略比简单的相似度匹配更有效。

●骨干模型影响：实验验证了GPT-4.1-mini作为骨干模型显著优于LLaMA3等开源模型，说明强大的基础能力是多智能体协作的基石。

六、案例研究：动态推理的可视化

本文中的定性案例展示了“医疗路由”处理一个涉及心脏超声和CT影像的复杂病例的过程。

1、初始输入：包含心脏轴位CT和心电图的问题。

2、动态路由：全科医生首先路由到心脏专科医生，专科医生分析出三尖瓣反流。基于此信息，全科医生并未停止，而是进一步路由到胸外科医生和血液科医生，以评估对右心室压力和血液系统的影响。

3、最终决策：调解员综合所有意见，给出了“右心房和右心室显著扩大”的最终精准诊断。

相比之下，静态框架可能在第一次专科医生咨询后就草率结束，或者盲目咨询所有专科医生，缺乏这种基于证据链的迭代推理能力。

七、结论与未来展望

“医疗路由”成功展示了利用强化学习在多智能体系统中实现动态专科医生路由的可行性。它不仅在诊断准确率上取得了突破，更重要的是，它建立了一种更接近真实临床思维的计算范式。

未来的工作方向包括：

1、动态生成专科医生池：不局限于预定义的专科医生列表，而是根据病例需要实时“生成”新的专科医生角色。

2、结合电子病历：将框架扩展到更广泛的患者历史数据中，以提供更具个性化的诊断支持。

八、总结

“医疗路由”是医疗人工智能领域的一项重要进展。它突破了传统大语言模型“单兵作战”或“静态组队”的局限，通过引入动态路由和强化学习优化，实现了“术业有专攻”且“协作有章法”的智能诊断。这项工作为解决复杂领域的推理问题（不仅是医疗）提供了极具价值的架构参考，证明了在资源受限（计算资源或专科医生数量）的情况下，通过智能调度实现性能最大化是可行的。

如需要《“医疗路由”：多智能体医疗诊断中基于强化学习的动态专科医生路由框架》（英文，共18页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

Bear this truth in mind: being overly enthusiastic toward anyone only increases the odds of them taking you for granted. 请记住一个真理：无论对谁太过热情，都会增加对方不珍惜你的概率。早上好！

《“医疗路由”：多智能体医疗诊断中基于强化学习的动态专科医生路由框架》

《用于优化糖尿病诊断与管理的人工智能驱动的临床决策支持系统》

《揭开医疗人工智能的神秘面纱：医疗卫生政策制定者须知》

欧洲研究理事会：《医疗人工智能前沿研究：从疾病预防到诊断和治疗》

《人机六维能动框架：人工智能时代人类能动性的培育》

《面向真实医疗场景的精准医学人工智能型临床决策支持系统》