《“瑞德维厄姆”:放射学多任务会话视觉语言模型》
Feb. 8, 2025
![图片]()
随着胸部X光片的广泛使用以及放射科医生的短缺,自动化胸片分析和人工智能辅助报告的需求日益增长。传统的视觉语言模型虽然在报告生成或异常检测等特定任务上显示出潜力,但往往缺乏支持交互式诊断的能力。为了应对这一挑战,研究人员提出了“瑞德维厄姆”,一个专为胸片解读设计的紧凑、多任务对话基础模型。
胸片的研发背景基于自回归大语言模型的兴起,这些模型基于转换器架构,并在庞大的文本语料库上进行预训练,能够执行广泛的基于语言的下游任务。然而,在医学领域,尤其是放射学领域,需要结合视觉和语言信息来进行准确诊断,这推动了视觉语言模型的发展。“瑞德维厄姆”的创建旨在填补任务特定的人工智能模型与更灵活、多轮对话式人工智能助手之间的空白。
![图片]()
为了构建“瑞德维厄姆”,研究人员首先创建了一个大规模的指令数据集,该数据集包含超过100万张图像-指令对,涵盖了单轮任务(如报告生成)和多轮对话任务。这个数据集不仅包含自由文本报告和异常标签,还包含了视觉坐标,使得模型能够更精确地理解和定位胸片中的异常。通过整合这些多样化的模态,研究人员能够将它们组织成一个统一的指令数据集,用于训练“瑞德维厄姆”。在模型架构上,“瑞德维厄姆”采用了LLaVA-OneVision-7B作为视觉语言骨干网络。该架构结合了SigLIP视觉编码器和qwen-2语言模型,通过两层“多层感知器”进行连接。这种设计使得模型能够同时处理视觉和语言信息,从而实现多任务对话功能。在训练过程中,研究人员使用了视觉指令调优技术,对模型进行了全面的微调,以确保其能够准确响应与胸片相关的查询和命令。
![图片]()
“瑞德维厄姆”的核心优势在于其多任务对话能力。与传统的视觉大语言模型相比,“瑞德维厄姆”不仅能够生成报告或标记异常,还能够处理多轮对话中的后续问题。这包括观察、位置、医学术语澄清等一系列精确问题。为了实现这一点,研究人员在指令数据集中包含了图像-对话对,这些对话对模拟了真实场景中用户与助手之间的多轮交互。通过这种方式,“瑞德维厄姆”学会了根据之前的回答内容来回应新的问题,从而提供了更自然、更灵活的对话体验。在评估方面,研究人员设计了基于大语言模型的评估方法,以评估“瑞德维厄姆”在多轮设置中的实用性和性能。他们使用GPT-4o作为评估标准,将生成的响应与基于图像的预期答案进行比较。结果显示,“瑞德维厄姆”在标准互动和基于图像的互动中均表现出色,其评分远高于其它对比模型。
![图片]()
此外,“瑞德维厄姆”的指令数据集还考虑了医学领域的特殊性,通过包含与临床工作流程相匹配的对话任务,使得模型更加适应放射学实践的需求。这种设计不仅提高了模型的实用性,还为其在放射学教育和临床决策支持方面的应用提供了广阔的前景。综上所述,“瑞德维厄姆”是一个具有创新性和实用性的多任务对话视觉语言模型,它结合了最新的视觉语言建模技术和放射学领域的专业知识。通过提供准确、灵活且用户友好的工具,“瑞德维厄姆”有望减轻放射科医生的工作负担,提高诊断效率和准确性。随着放射学数据集的不断增长和视觉语言建模技术的快速发展,人工智能驱动的工具在临床实践中将变得越来越可靠和有价值。“瑞德维厄姆”的提出不仅为这一领域的发展做出了重要贡献,还为未来多任务对话视觉语言模型的研究提供了有益的参考和启示。