
一、研究背景与动机
近年来,视觉语言模型在医学图像理解与视觉问答任务中取得了显著进展。然而,现有方法大多采用端到端的“黑箱”推理方式,缺乏对诊断过程中所依赖的视觉证据的显式定位与验证。这种设计不仅容易导致模型在分布外数据上产生幻觉和捷径学习,也与临床医生逐步推理、依赖证据的工作流程背道而驰。
尽管已有研究尝试将视觉定位引入视觉语言模型,但这些方法通常将定位视为一个独立的感知任务,其输出并未有效反馈至推理过程。此外,部分通用领域的视觉语言模型虽通过图像操作(如裁剪、放大)引入感兴趣区域,但其将感知与推理耦合在同一模型中,容易导致错误传播:早期定位错误会误导后续推理,甚至产生看似合理的错误答案。
为解决上述问题,本文提出了一种名为“康尔”的智能体框架,旨在通过模拟临床诊断流程,实现基于证据的多模态医学推理,提升模型的临床问责能力。

二、“康尔”框架概述
“康尔”的核心思想是将医学视觉问答任务分解为三个协同的子模块,分别由不同的专家模型负责:
1、医学实体提议模块
该模块由一个轻量级视觉语言模型构成,根据用户问题从图像中提议相关的医学实体(如器官、病变、设备等)。该模型通过强化学习与可验证奖励(RLVR)进行微调,确保所提议实体与问题语义一致,并支持后续的定位与推理。
2、实体指代分割模块
基于SAM架构的分割模型,接收实体提议后生成像素级的感兴趣区域掩码,并提供置信度评分。该模块在预训练的医学SAM模型基础上,通过引入文本编码器与模态嵌入,实现指代分割能力,且仅微调少量参数,保持高效性与专业性。
3、基于证据的视觉问答模块
该模块接收原始图像与三种类型的视觉线索之一(局部放大图、二值掩码、全局提示),结合实体信息进行最终推理。模型经过两阶段微调(SFT + RLVR),能够在不同线索类型下生成具有解释性的答案。
此外,“康尔”提供两种运行模式:
●“康尔”-Flow:静态流程,依次执行上述三个模块,并通过多数投票机制聚合三种线索的答案;
●“康尔”-Coord:动态协调模式,引入一个强大的视觉语言模型作为协调器,负责规划工具调用顺序、选择最优视觉线索,并对推理过程进行迭代审查,进一步提升答案的准确性与一致性。

三、实验设计与结果分析
1. 数据集与评估设置
研究团队在四个标准医学视觉问答基准上进行了评估,包括:
●OmniMedVQA、VQA-RAD、SLAKE(作为域内数据)
●VQA-Med-2019(作为域外数据)
所有开放性问题答案由GPT-4o进行评分。实体提议模型使用SA-Med-20M合成数据训练,分割模型则在170k图像-掩码对上进行微调。
2. 主要实验结果
实验结果表明:
●“康尔”-Flow-B(10B参数)在四个数据集上的平均准确率达到74.91%,超过了参数量更大的Lingshu-32B(72.29%),展现出卓越的参数效率;
●“康尔”-Coord-B进一步提升至77.54%,在域外数据集上提升尤为显著,表明协调器在复杂场景下的泛化能力;
●在与InternVL3、Qwen2.5-VL、HuatuoGPT-Vision等主流模型的对比中,“康尔”在多数据集上均取得领先或接近领先的性能。
3、消融实验与深入分析
●视觉线索有效性:引入视觉线索(尤其是局部放大图)可显著提升模型性能,协调器动态选择线索进一步优化结果;
●训练策略:SFT + RFT + 长度奖励的组合效果最佳,DAPO优于GRPO;
●实体提议模块:使用Kuhn-Munkres匹配与语义相似度奖励的模型在实体准确性、分割质量与视觉问答性能上均优于基于贪心匹配或二值奖励的变体;
●分割模型对比:“康尔”的分割模型在MeCo-G基准上优于BiomedParse、UniBiomed等现有方法,且对视觉问答任务的提升更为显著;
●协调器行为分析:约7.89%的答案被协调器修改,其中约4.84%为成功修正,显示出其在错误检测与纠正方面的潜力;
●人工评估:在35个正确回答的案例中,“康尔”-Coord的推理轨迹通过率达到82.14%,显著高于GPT-4o协调器(73.94%),说明其推理更具可解释性与可信度。

四、贡献与创新点
本文的主要贡献可归纳如下:
1、提出首个面向医学视觉推理的证据驱动的智能体框架“康尔”,通过解耦实体提议、指代分割与证据推理,模拟临床诊断流程,提升模型的解释性与问责能力;
2、引入动态协调机制,实现工具调用的智能规划与答案的迭代审查,有效缓解幻觉问题;
3、构建高精度的指代分割模型,在保持轻量级的同时,显著提升感兴趣区域定位质量;
4、在多个医学视觉问答任务上取得领先性能,尤其在参数效率与域外泛化方面表现突出;
5、提供完整的开源实现与数据拆分,为后续研究提供可复现的基准。

五、局限性与未来工作
尽管“康尔”在多项任务上表现优异,但仍存在一定局限性:
●任务聚焦性强:当前设计主要针对依赖局部细节的诊断型问题,对于全局性任务(如图表分析、模态识别)提升有限;
●依赖高质量分割数据:虽然使用了合成数据,但实体提议模块仍依赖于高质量的医学实体标注;
●协调器幻觉问题:尽管引入了审查机制,但强大的协调器(如GPT-5)仍可能引入错误推理,导致答案被错误覆盖;
●推理效率较低:动态协调模式虽提升了准确性,但也显著增加了推理时间,不适合实时性要求高的场景。
未来工作可从以下几个方向展开:
●扩展工具集,引入图像编辑、编码模型等,提升对多样化任务的适应能力;
●探索更轻量、高效的协调器模型,兼顾性能与速度;
●引入更鲁棒的幻觉检测机制,增强系统的稳定性与可信度;
●与临床专家合作,开展更大规模的人工评估,验证其在真实临床场景中的实用价值。

六、总结
本文提出的“康尔”框架,通过解耦医学视觉问答任务、引入证据驱动的推理流程与动态协调机制,在多个医学视觉问答任务上取得了领先性能,同时提升了模型的可解释性与临床问责能力。其设计理念与实现方式为构建可信、可解释的医学人工智能系统提供了有力参考。未来,随着更多专家模型的引入与协调机制的优化,“康尔”有望在更广泛的医学影像任务中发挥更大作用。
如需要《“康尔”:面向临床问责的多模态医学推理证据驱动的智能体框架》(英文,共35页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



Walk away from people who always bring up your past mistakes and find ones who celebrate your new beginnings. 远离那些总翻旧账的人,去靠近那些愿为你的新生活举杯庆贺的人。早上好!
