
随着大语言模型(LLMs)在医疗领域的广泛应用,其内部工作机制的可解释性问题日益受到关注。尽管LLMs在诊断辅助、药物推荐、临床文档生成等任务中表现出色,但其决策过程的“黑箱”特性限制了其在高风险医疗场景中的可信度和安全性。《医学可解释性与大语言模型知识图谱》一文,系统性地研究了LLMs在医学知识表示与处理方面的内部机制,提出了四种可解释性分析方法,并绘制了多个主流模型的知识图谱,为医疗AI的安全部署和优化提供了重要指导。
一、研究背景与意义
LLMs在编程、推理、上下文学习等方面展现出强大能力,但在医疗领域,模型的透明度、可信度和公平性尤为重要。医疗决策涉及患者生命健康,任何潜在的偏见或错误都可能带来严重后果。因此,理解LLMs如何表示年龄、症状、疾病、药物等医学概念,识别其内部知识存储的位置和方式,成为构建安全、可靠医疗AI系统的关键前提。
本研究正是基于这一需求,提出了一套系统的医学可解释性分析框架,旨在揭示LLMs内部的知识组织结构,并为后续的模型微调、知识卸载、去偏等操作提供理论依据。

二、研究方法
研究团队采用了四种互补的可解释性技术,分别从不同角度解析LLMs的内部机制:
1、均匀流形逼近与投影技术
通过均匀流形逼近与投影技术,将模型中间层的激活值投影到二维空间,直观展示不同医学概念在模型内部的聚类情况。研究者进一步引入轮廓系数和局部各向异性等量化指标,评估聚类质量和年龄表示的线性程度。
2、梯度权重显著性
通过计算损失函数对模型权重的梯度,评估各层参数在特定医学任务中的重要性。该方法有助于识别哪些层在面对特定提示时最为活跃,从而定位知识存储的关键区域。
3、层损伤
受神经科学中脑区损伤研究的启发,研究人员逐层用恒等函数替换模型层,观察模型输出质量的变化。通过GPT-4o作为评判模型,量化每层被移除后对回答的破坏程度,从而推断该层对任务的重要性。
4、激活修补
通过替换某一层的激活值为另一提示下的激活值,观察模型输出的变化。该方法能够精确定位哪些层在特定推理路径中起关键作用,尤其适用于分析模型在两类相似任务之间的决策差异。
通过综合四种方法的结果,研究团队绘制了LLM知识图谱,标示出不同医学概念在模型各层中的分布区间。

三、主要研究发现
1、大语言模型知识图谱:Llama3.3-70B为例
研究表明,Llama3.3-70B的医学知识主要存储在前半部分层中。具体而言:
●年龄信息主要在0–5层处理;
●症状信息分布在0–9层及15–40层;
●疾病信息集中在0–5层及27–37层;
●药物信息主要在15–45层;
●药物剂量信息则分布在0–40层,但结论相对不明确。
这一发现为后续的微调和干预提供了明确的方向:若希望调整模型对某类医学概念的理解,应优先针对上述层进行操作。
2、年龄表示的非线性与不连续性
研究发现,Llama3.3-70B在表示年龄时存在明显的非线性和不连续性,尤其在18岁处出现显著断裂。模型似乎将17岁及以下和18岁及以上的人群视为两个不同的群体,这种“成年”与“未成年”的划分可能反映出模型在训练过程中学习到的社会认知偏见。这一现象提示,在去偏处理中需特别关注年龄相关的表示结构。
3、疾病进展的循环与非单调表示
在对阿尔茨海默病、帕金森病、新冠和慢阻肺四种疾病的进展表示分析中,研究团队发现LLMs的疾病进展路径呈现出循环性和非单调性。例如,在某些层中,晚期疾病的表示反而更接近早期健康状态。这种表示方式可能与疾病的多路径进展机制有关,但也可能影响模型对疾病严重程度的准确判断。
4、药物表示的双重聚类特性
研究发现,Llama3.3-70B对药物的表示既能按作用机制聚类,也能按医学专科聚类。定量分析显示,按专科聚类的效果优于按机制聚类,提示模型在学习药物知识时更倾向于临床使用场景而非药理机制。
5、Gemma/MedGemma的中间层坍塌现象
在对Gemma3-27B和MedGemma-27B的分析中,研究者发现其中间层激活值在均匀流形逼近与投影空间中发生明显坍塌,形成少数几个聚类点,虽然后续层恢复,但这一现象可能导致表示能力的浪费。研究人员建议在训练中引入均匀性损失,防止嵌入向量的过度聚合。

四、量化分析结果
研究团队还对Llama3.3-70B、Gemma3-27B、MedGemma-27B、Qwen-32B、GPT-OSS-120B等五种模型进行了量化比较,涵盖年龄线性度、症状聚类、疾病聚类、疾病进展循环性、药物聚类、剂量修补效果等指标。结果显示:
●Llama3.3-70B和GPT-OSS-120B在多数指标上表现优异;
●Gemma系列模型在多数任务中得分较低,但其激活修补成功率较高;
●Qwen-32B在症状和疾病聚类方面表现突出。
此外,研究还对六种医学专用大语言模型进行了分析,发现它们在医学知识表示上各有优劣,进一步验证了模型架构和训练数据对知识组织方式的影响。

五、实践建议与未来方向
基于上述发现,本研究提出了以下可操作建议:
1、年龄去偏与线性化
若希望消除年龄表示中的不连续性,可在微调时引入年龄线性化正则项,强制模型在不同年龄段之间保持平滑过渡。
2、防止激活坍塌
针对Gemma/MedGemma的中间层坍塌问题,建议在训练中加入均匀性损失,鼓励嵌入向量在超球面上均匀分布,避免过度聚合。
3、疾病进展单调性约束
若希望模型更准确地反映疾病严重程度,可引入单调性正则项,强制疾病阶段表示随病程推进而逐步远离健康状态。
4、知识干预的层定位
本研究提供的知识图谱可直接用于指导模型编辑、知识卸载或去偏操作,帮助研究人员精准定位干预目标层,提高操作效率和效果。

六、研究局限与展望
尽管本研究采用了多种可解释性方法相互验证,但由于缺乏医学知识表示的“金标准”,结论的绝对准确性仍需进一步验证。未来研究可结合更多模型、更丰富的医学概念、更细粒度的干预实验,进一步揭示LLMs在医疗领域的知识组织机制。此外,随着多模态模型的发展,如何解释图像、文本、基因组等多源信息的融合表示,也将成为新的研究方向。
七、结语
《医学可解释性与大语言模型知识图谱》为理解LLMs在医疗领域的内部工作机制提供了系统的方法论和丰富的实证数据。通过绘制知识图谱、识别表示异常、提出优化建议,该研究不仅推动了可解释AI在医疗中的应用,也为构建更安全、更透明、更可信的医疗AI系统奠定了坚实基础。未来,随着可解释性技术的不断演进,我们有理由相信,AI将在医疗领域发挥更大的价值,真正实现“科技+人文”的深度融合。



The people who are meant to be in your life will always gravitate back towards you, no matter how far they wander. 命中注定该伴你同行的人,纵一时漂泊天涯,终亦会循着缘分之线,似归舟泊岸,兜兜转转,仍悄然回到你的身旁。早上好!
