
本文叙述了名为“奥拉”的多模态医学智能体,它代表了医学影像分析领域的一次重大飞跃,将静态预测系统转变为能够进行推理、与工具交互并适应复杂任务的智能体。“奥拉”是首个专门为全面分析、解释和评估医学图像而设计的视觉语言可解释性智能体,它通过动态交互、情境化解释和假设检验,显著提升了AI系统的透明度、适应性和临床一致性。
传统的医学影像AI模型通常无法满足实际临床实践的需求。它们往往是僵化的,专为特定任务设计,具有固定的输入和输出。这种缺乏灵活性的特点使得这些系统无法适应不断变化的临床情况。当面临不明确的发现、不熟悉的疾病或信息不完整时,这些模型无法请求更多细节、收集更多数据或修改其结论。因此,它们在可解释性、适应性和获得临床信任方面都存在不足。

与之形成鲜明对比的是,“奥拉”智能体则能够独立推理,识别其缺乏足够上下文的情况,并动态地使用各种工具,这与临床医生在复杂的诊断场景中的做法非常相似。“奥拉”结合了自主推理和动态工具使用,极大地提高了AI在临床环境中的实用性,弥合了静态自动化与医学实践中所需的灵活决策之间的差距。
“奥拉”基于Qwen-32B大型语言模型架构,集成了一个模块化工具箱,包含以下几个关键模块:(1) 分割套件,包括阶段定位、病理分割和解剖分割,用于定位具有临床意义的区域;(2) 反事实图像生成模块,支持通过图像级解释进行推理;(3) 一套评估工具,包括像素级差异图分析、分类和先进的最新组件,用于评估结果的诊断相关性和视觉可解释性。
“奥拉”的核心创新在于其动态推理和专家工具箱的整合。它采用ReAct风格的推理循环,由经过代码指令微调的大语言模型驱动,能够将用户的请求分解成一系列逻辑步骤,并利用其集成的医学工具集来执行每个步骤。与静态流水线不同,这种动态方法使“奥拉”能够推断胸部X光图像的发现(这对于视觉验证和临床可解释性至关重要),并通过有效的自我评估机制动态生成和选择最相关的视觉证据来支持其文本响应。

“奥拉”的分析能力源于其灵活地将工具从其集成工具箱中链接起来的能力,这些工具包括:视觉问答(使用ChexAgent VQA或MAIRA-2生成病理医学报告)、定位报告生成(使用MAIRA-2将医学发现与边界框或分割叠加层对齐以进行视觉接地)、反事实编辑(使用RadEdit进行病理的精确引导图像编辑,以及使用PRISM生成反事实图像)、分割和检测(利用MedSAM和PSPNet进行解剖定位,以及使用TorchXRayVision进行病理分类)、分析和可视化(差异图,用于量化编辑、生成特定主题的图像变化和管理整体分析会话)。
“奥拉”的模块化架构使其能够支持在多个GPU上进行并行执行、强大的回退策略,并使其系统易于扩展。更重要的是,这种模块化是“奥拉”最显著特征的基础:自我评估。通过将自身的工具视为行动者和评论者,“奥拉”可以自主地评估和改进其工作。例如,当被要求从图像中去除病理结构时,该智能体将启动以下多步骤、自我校正的工作流程:生成多个候选反事实图像(提供不同的可解释性),利用TorchXRayVision对原始图像和每个候选反事实解释图像中的病理结构进行分类,比较病理和相似性分数,选择在目标病理分数方面取得最大改进同时有效保留主题身份的反事实,从而确保编辑的临床相关性和高质量。

实验结果表明,“奥拉”在反事实图像生成方面优于其底层图像编辑工具RadEdit和PRISM。“奥拉”能够在有限的监督下有效运行,并能够处理不完整病理信息的情况,这通常反映了现实世界的临床环境。值得注意的是“奥拉”通过识别上下文中的差距,在必要时调用报告生成工具,并相应地改进视觉编辑,展现了其智能决策能力。这种自我导向的推理和适应能力代表了在开发与临床相关的AI系统方面向前迈进了一步。
总而言之,“奥拉”通过其模块化工具箱、动态推理循环和自我评估机制,为医学影像分析提供了一种新的范例。它不仅能够提高诊断准确性,还能提供可解释的视觉语言解释,增强临床医生的信任和决策支持。“奥拉”的成功为未来构建更可靠、透明和上下文感知的医学诊断AI系统铺平了道路,预示着智能体医疗领域将发挥越来越重要的作用。“奥拉”的开源特性也为进一步的研究和应用提供了便利,推动了医学影像AI领域的发展。
如需要《“奥拉”:用于理解、推理和标注的多模态医学智能体》(英文,11页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



What others see in you is but a reflection of their own knowing. When your vision exceeds theirs, they measure you by their own narrow light. Seek not understanding—for the truth of who you are is rarely seen. 他人的评价不过是他认知的投影,当你的境界远超对方时,他只能用自己有限的尺子来丈量你,所以不必祈求理解,众人见你,皆非你。早上好!
