《“康尔”：面向临床问责的多模态医学推理证据驱动的智能体框架》

一、研究背景与动机

近年来，视觉语言模型在医学图像理解与视觉问答任务中取得了显著进展。然而，现有方法大多采用端到端的“黑箱”推理方式，缺乏对诊断过程中所依赖的视觉证据的显式定位与验证。这种设计不仅容易导致模型在分布外数据上产生幻觉和捷径学习，也与临床医生逐步推理、依赖证据的工作流程背道而驰。

尽管已有研究尝试将视觉定位引入视觉语言模型，但这些方法通常将定位视为一个独立的感知任务，其输出并未有效反馈至推理过程。此外，部分通用领域的视觉语言模型虽通过图像操作（如裁剪、放大）引入感兴趣区域，但其将感知与推理耦合在同一模型中，容易导致错误传播：早期定位错误会误导后续推理，甚至产生看似合理的错误答案。

为解决上述问题，本文提出了一种名为“康尔”的智能体框架，旨在通过模拟临床诊断流程，实现基于证据的多模态医学推理，提升模型的临床问责能力。

二、“康尔”框架概述

“康尔”的核心思想是将医学视觉问答任务分解为三个协同的子模块，分别由不同的专家模型负责：

1、医学实体提议模块

该模块由一个轻量级视觉语言模型构成，根据用户问题从图像中提议相关的医学实体（如器官、病变、设备等）。该模型通过强化学习与可验证奖励（RLVR）进行微调，确保所提议实体与问题语义一致，并支持后续的定位与推理。

2、实体指代分割模块

基于SAM架构的分割模型，接收实体提议后生成像素级的感兴趣区域掩码，并提供置信度评分。该模块在预训练的医学SAM模型基础上，通过引入文本编码器与模态嵌入，实现指代分割能力，且仅微调少量参数，保持高效性与专业性。

3、基于证据的视觉问答模块

该模块接收原始图像与三种类型的视觉线索之一（局部放大图、二值掩码、全局提示），结合实体信息进行最终推理。模型经过两阶段微调（SFT + RLVR），能够在不同线索类型下生成具有解释性的答案。

此外，“康尔”提供两种运行模式：

●“康尔”-Flow：静态流程，依次执行上述三个模块，并通过多数投票机制聚合三种线索的答案；

●“康尔”-Coord：动态协调模式，引入一个强大的视觉语言模型作为协调器，负责规划工具调用顺序、选择最优视觉线索，并对推理过程进行迭代审查，进一步提升答案的准确性与一致性。

三、实验设计与结果分析

1. 数据集与评估设置

研究团队在四个标准医学视觉问答基准上进行了评估，包括：

●OmniMedVQA、VQA-RAD、SLAKE（作为域内数据）

●VQA-Med-2019（作为域外数据）

所有开放性问题答案由GPT-4o进行评分。实体提议模型使用SA-Med-20M合成数据训练，分割模型则在170k图像-掩码对上进行微调。

2. 主要实验结果

实验结果表明：

●“康尔”-Flow-B（10B参数）在四个数据集上的平均准确率达到74.91%，超过了参数量更大的Lingshu-32B（72.29%），展现出卓越的参数效率；

●“康尔”-Coord-B进一步提升至77.54%，在域外数据集上提升尤为显著，表明协调器在复杂场景下的泛化能力；

●在与InternVL3、Qwen2.5-VL、HuatuoGPT-Vision等主流模型的对比中，“康尔”在多数据集上均取得领先或接近领先的性能。

3、消融实验与深入分析

●视觉线索有效性：引入视觉线索（尤其是局部放大图）可显著提升模型性能，协调器动态选择线索进一步优化结果；

●训练策略：SFT + RFT + 长度奖励的组合效果最佳，DAPO优于GRPO；

●实体提议模块：使用Kuhn-Munkres匹配与语义相似度奖励的模型在实体准确性、分割质量与视觉问答性能上均优于基于贪心匹配或二值奖励的变体；

●分割模型对比：“康尔”的分割模型在MeCo-G基准上优于BiomedParse、UniBiomed等现有方法，且对视觉问答任务的提升更为显著；

●协调器行为分析：约7.89%的答案被协调器修改，其中约4.84%为成功修正，显示出其在错误检测与纠正方面的潜力；

●人工评估：在35个正确回答的案例中，“康尔”-Coord的推理轨迹通过率达到82.14%，显著高于GPT-4o协调器（73.94%），说明其推理更具可解释性与可信度。

四、贡献与创新点

本文的主要贡献可归纳如下：

1、提出首个面向医学视觉推理的证据驱动的智能体框架“康尔”，通过解耦实体提议、指代分割与证据推理，模拟临床诊断流程，提升模型的解释性与问责能力；

2、引入动态协调机制，实现工具调用的智能规划与答案的迭代审查，有效缓解幻觉问题；

3、构建高精度的指代分割模型，在保持轻量级的同时，显著提升感兴趣区域定位质量；

4、在多个医学视觉问答任务上取得领先性能，尤其在参数效率与域外泛化方面表现突出；

5、提供完整的开源实现与数据拆分，为后续研究提供可复现的基准。

五、局限性与未来工作

尽管“康尔”在多项任务上表现优异，但仍存在一定局限性：

●任务聚焦性强：当前设计主要针对依赖局部细节的诊断型问题，对于全局性任务（如图表分析、模态识别）提升有限；

●依赖高质量分割数据：虽然使用了合成数据，但实体提议模块仍依赖于高质量的医学实体标注；

●协调器幻觉问题：尽管引入了审查机制，但强大的协调器（如GPT-5）仍可能引入错误推理，导致答案被错误覆盖；

●推理效率较低：动态协调模式虽提升了准确性，但也显著增加了推理时间，不适合实时性要求高的场景。

未来工作可从以下几个方向展开：

●扩展工具集，引入图像编辑、编码模型等，提升对多样化任务的适应能力；

●探索更轻量、高效的协调器模型，兼顾性能与速度；

●引入更鲁棒的幻觉检测机制，增强系统的稳定性与可信度；

●与临床专家合作，开展更大规模的人工评估，验证其在真实临床场景中的实用价值。

六、总结

本文提出的“康尔”框架，通过解耦医学视觉问答任务、引入证据驱动的推理流程与动态协调机制，在多个医学视觉问答任务上取得了领先性能，同时提升了模型的可解释性与临床问责能力。其设计理念与实现方式为构建可信、可解释的医学人工智能系统提供了有力参考。未来，随着更多专家模型的引入与协调机制的优化，“康尔”有望在更广泛的医学影像任务中发挥更大作用。

如需要《“康尔”：面向临床问责的多模态医学推理证据驱动的智能体框架》（英文，共35页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

Walk away from people who always bring up your past mistakes and find ones who celebrate your new beginnings. 远离那些总翻旧账的人，去靠近那些愿为你的新生活举杯庆贺的人。早上好！

《“康尔”：面向临床问责的多模态医学推理证据驱动的智能体框架》

《2026年医疗行业关键趋势前瞻》

《医学可解释性与大语言模型知识图谱》

《2026年医疗若干趋势：有效应用人工智能的战略要务》

《2026年AI智能体五大趋势：医疗保健与生命科学》

《基于生物标志物的个性化健康干预建议：大语言模型的基准测试研究》