技术报告：《“医疗杰玛 1.5”：统一架构下的医疗多模态基础模型》

在人工智能辅助医疗诊断的快速发展进程中，如何构建既能理解复杂医学知识，又能处理高维影像数据（如 3D CT、MRI）的通用基础模型，一直是学术界和产业界的难点。现有的许多模型往往局限于单一模态（仅文本或仅2D图像），难以满足临床实践中多维度信息融合的需求。

“医疗杰玛 1.5”（发布于2026年4月）正是为了解决这一痛点而诞生的。作为 “医疗杰玛”系列的最新迭代版本，它在保持 4B（40亿）参数轻量级架构的同时，成功扩展了对高维、纵向医疗数据的原生支持。这份技术报告不仅展示了该模型在多项基准测试中的显著性能提升，更为开发者社区提供了一个开放、强大的工具，用于构建下一代医疗AI系统。

一、核心演进：从2D到高维时空的跨越

“医疗杰玛 1.5”相比于前代版本，最核心的突破在于其多模态能力的显著扩展。它不再仅仅是一个处理“图片+文字”的模型，而是进化为能够理解“体积”和“时间”的临床助手。

报告指出，“医疗杰玛 1.5”原生集成了四大关键医疗影像能力：

1、3D 放射学解读：支持CT和MRI体积数据的分析。

2、全切片病理成像：能够处理数字病理切片。

3、细粒度解剖定位：通过边界框在X光片中精确定位病灶。

4、纵向（多时间点）分析：能够对比不同时间拍摄的胸片，判断病情发展。

这种在单一轻量级模型中集成如此广泛能力的尝试，在开源领域尚属首次。

二、方法论创新：架构与预处理

“医疗杰玛 1.5”的底层架构依然基于“医疗杰玛 3”，视觉编码器沿用了MedSigLIP（400M 参数）。为了在有限的计算资源下处理海量的医疗数据，研究团队在方法论上进行了三项关键创新：

1、针对高维影像的预处理管道

由于视觉编码器只能处理2D图像，团队设计了精巧的切片策略来处理3D数据：

●3D CT/MRI处理：将体积数据切分为一系列2D轴向图像。为了保持内存可控，训练和评估时将切片数量限制在85张以内（对应 21,760 个视觉Token）。对于CT数据，采用了多通道窗宽窗位映射（红、绿、蓝通道分别对应不同的“HU值”范围），以保留从肺部到骨骼的形态学边界信息；对于MRI，则采用 Min-Max 归一化处理。

●病理全切片处理：针对显微镜下超高分辨率的病理图片，团队开发了基于HSV颜色空间的组织分割算法。系统会随机选择放大倍率（5倍, 10倍, 20倍），并将切片提取为126个不重叠的 896x896 像素图块，既保留了组织结构，又适应了模型的输入长度限制。

2、分阶段训练策略
模型的训练并非从头开始，而是采用了“冻结视觉编码器，继续预训练语言解码器”的策略。

●预训练：引入了大量新数据，包括内部的 CT、MRI、皮肤科及病理全切片数据集，以及公开的ISIC数据集。

●后训练：结合了蒸馏和强化学习。研究团队利用专门针对 CT、MRI和病理数据训练的“教师模型”来指导“医疗杰玛 1.5”的学习，使其能够继承专家模型的高精度判断能力。

3、数据集的大幅扩充
报告详细列出了新增的训练数据（见报告表1）。除了常规的胸片（CXR）外，新增了数万例CT和MRI研究数据，以及超过33万对病理全切片与文本报告的配对数据。此外，为了提升对医疗文档（PDF）的理解，模型还接受了大量电子病历（EHR）和实验室报告的训练。

三、性能评估：数据背后的临床价值

“医疗杰玛 1.5”在多项评估中展现出了令人瞩目的性能提升。相比于 “医疗杰玛 1”，它在保持原有2D影像诊断能力的基础上，在新领域实现了质的飞跃。

1、高维影像诊断的显著提升
这是“医疗杰玛 1.5”最亮眼的成绩单：

●3D MRI分类：准确率提升了11%（绝对增益）。

●3D CT分类：准确率提升了3%。

●病理全切片（WSI）：宏平均 F1分数提升了47%。这表明模型在处理复杂的病理组织图像时，生成诊断描述的能力大幅增强。

2、空间与时间推理能力

●解剖定位（胸片）：在Chest ImaGenome数据集（一个用于临床推理的大规模胸部X光数据集）上的IoU（交并比）提升了35%，意味着模型能更精准地框出肺部结节或心脏扩大的具体位置。

●纵向分析（时间维度）：在MS-CXR-T 数据集上，模型能够通过对比新旧胸片判断病情是“改善”、“稳定”还是“恶化”，宏精准度达到了65.7%（前代为61.1%）。

3、文本与文档理解

在纯文本临床知识问答（MedQA）上，准确率提升了5%；而在更具挑战性的电子病历问答（EHRQA）上，准确率飙升了22%。这表明模型不仅“懂病”，更“懂文档”，能够从杂乱的医疗报告中提取关键信息。

4、与通用模型的对比

报告特意将“医疗杰玛 1.5”与通用的千问3 VL 4B模型进行了对比。结果显示，虽然千问在通用生物医学知识（如 MedQA）上略强，但在所有医学视觉任务（包括 3D CT、病理全切片成像、胸片定位等）上，“医疗杰玛 1.5”均大幅领先。这验证了其“垂直领域专业化”策略的有效性：通用模型难以替代经过特定医疗视觉数据精调的模型。

四、讨论与局限性：权衡的艺术

报告在讨论部分非常诚实地指出了模型面临的权衡。

●通用知识的轻微退化：为了适应复杂的医疗影像能力，“医疗杰玛 1.5”在通用常识基准（如 MMLU Pro）上的得分较“医疗杰玛3”有所下降（从43.6降至33.8）。这说明在4B这样的小参数规模下，模型的容量是有限的，增强专业技能往往需要牺牲一部分通用常识。

●特定基准的回归：相比于前代，在SLAKE和VQA-RAD等通用医学视觉问答基准上出现了轻微性能下降。作者认为这可能是因为模型变得更像一个“医学通才”，而在某些狭窄任务上需要通过针对性微调来恢复巅峰性能。

●推理效率的挑战：在处理3D CT数据集（CT-RATE）时，由于模型需要逐个切片分析并生成文本，导致推理速度远慢于专门设计的分类器。这表明虽然“医疗杰玛 1.5”功能强大，但在临床实时应用中仍需优化推理框架。

五、总结与展望

“医疗杰玛 1.5”的发布标志着开源医疗 AI 进入了一个新阶段。它证明了小语言模型（SLM）在经过精心设计的架构和训练后，完全有能力处理过去只有巨型模型才能应对的复杂3D医学影像和纵向数据分析任务。

对于开发者而言，“医疗杰玛 1.5”不仅仅是一个模型，更是一个基础工具箱。它内置了对CT、MRI、病理切片和医疗文档的原生理解能力，开发者无需从头构建复杂的多模态管道，即可在此基础上微调出针对特定科室（如放射科、病理科）的专用。

尽管存在通用知识退化等局限，但其在专业医疗视觉任务上的卓越表现，使其成为目前最具实用价值的开源医疗基础模型之一。它不仅拉近了学术研究与临床实际应用的距离，也为未来医疗AI的发展指明了方向：即在统一的架构下，融合文本、2D/3D影像与时间序列信息，构建真正懂“人”也懂“病”的临床决策辅助系统。

如需要技术报告：《“医疗杰玛 1.5”：统一架构下的医疗多模态基础模型》（英文，共23页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

The best start is often a rough one, just like changing the way you think and open up new possibilities. Taking action itself is already shaping your future. Action beats daydreaming. Action beats over planning. Action beats worrying about every possible outcome. Once you take that first step, your luck will start to roll. 锦绣前程，常始于坎坷；至善之端，多发于磨砺。正如破心中之藩篱，方见天地之宏阔。起而行之，便是对未来的雕琢与重塑。笃行胜于浮想，躬身优于空谈，勇进强于杞忧。待尔迈出那坚实的一步，乾坤自此轮转，福泽便随步而生。早上好！

技术报告：《“医疗杰玛 1.5”：统一架构下的医疗多模态基础模型》

《基于视频的手术时序映射的视觉语言模型与平台》

《手术AI的比较研究：数据集、基础模型与医疗AGI的障碍》

《人工智能的流行病学

《迈向AI就绪的医学影像数据

《构建不同人体器官的数字孪生以实现个性化医疗》