《大语言模型在NHS基层医疗药物安全审查中的真实世界评估》

一、研究背景与意义

用药安全是全球医疗行业面临的重大挑战。世界卫生组织估计，全球每年因用药错误造成的经济损失高达420亿美元，占全球医疗卫生总支出的近1%。在英国，NHS每年发生约2.37亿次用药错误，尤其在多病共存的老年人群中，合理用药尤为复杂。英国每年因药物错误造成的成本在9850万至16亿英镑之间，导致1700至22000人死亡，占住院人数的约8%。因此，提高用药安全性成为亟待解决的问题。

近年来，大语言模型在医学知识评测中展现出超越人类专家的能力，但绝大多数研究仍基于合成数据或考试型题目，缺乏在真实临床数据上的系统评估。更重要的是，现有研究多聚焦于“是否有效”，而忽视了“如何失败”这一关键问题。本研究首次基于NHS真实电子病历，系统评估了大语言模型在药物安全审查任务中的表现，并深入剖析其失败机制。

二、研究方法

2.1 数据来源与病例筛选

研究数据来源NHS柴郡和默西塞德郡，涵盖2,125,549名成年人，包含其诊断、用药、住院及实验室检查等结构化信息。研究采用分层抽样策略，兼顾临床复杂性与药物安全风险，最终纳入277例患者进行分析。

2.2 系统架构与评估框架

研究评估的核心系统基于GPT-OSS-120B模型，输入为结构化患者档案，输出包括是否存在需干预的问题、问题描述、证据及干预建议。系统未接入外部知识库（如BNF、NICE指南），以测试其自身推理能力。

评估采用三层级框架：

●一级：系统是否识别出存在临床问题；

●二级：识别出的问题是否正确；

●三级：提出的干预措施是否恰当。

临床专家在非盲态下对系统输出进行评价，并对所有失败案例进行归类分析。

三、主要结果

3.1 总体表现

在277例患者中，临床专家判定206例存在需干预的用药安全问题。系统在“是否发现问题”层面表现出色：

●灵敏度：100%（206/206）

●特异度：83.1%（59/71）

●总体准确率：95.7%

然而，在“发现问题正确”层面，系统仅58.7%的病例正确识别了所有问题；在“干预措施恰当”层面，仅46.9%的病例输出完全正确（包括正确识别无问题的情况）。这表明系统在“发现有问题”与“知道该怎么做”之间存在显著差距。

3.2 失败机制分析

在148例存在失败的患者中，研究识别出178个失败实例，归纳为五类原因：

1、对不确定性的过度自信（51例）：系统在信息不充分时仍做出明确干预建议，例如未确认患者是否仍在怀孕就建议停用避孕药，或建议停用专科医生处方的甲氨蝶呤而未咨询专科意见。

2、协议与患者个体差异的脱节（49例）：系统机械套用指南，未考虑患者个体情况，如对临终关怀患者建议重新启动已停用的多种心血管药物。

3、协议与临床实践的脱节（30例）：系统不理解英国医疗实践中的常见操作，如将多种剂型组合用药误判为重复用药。

4、结构合理但事实错误（25例）：系统生成逻辑清晰的推理，但事实依据错误，如多次将单硝酸异山梨酯‌”误判为氯吡格雷、钙通道阻滞剂或阿片类药物。

5、过程盲点（23例）：系统虽识别出正确的临床目标，但提出不安全的实施路径，如建议立即停用需缓慢减量的药物，或在未确认诊断前启动降压治疗。

在这些失败中，上下文推理错误（86%）远超事实性错误（14%），说明当前模型的主要瓶颈并非医学知识不足，而是缺乏将知识应用于复杂临床情境的能力。

3.3 临床影响评估

根据WHO患者安全分类，绝大多数失败案例若按系统建议执行，不会造成严重伤害：

●无伤害：48.3%

●轻度伤害：43.5%

●中度伤害：7.5%

●严重伤害：1例（0.6%）

●无致死案例

尽管这一分布令人鼓舞，但研究指出，药物审查任务本身的风险较低，不宜直接推广至其他高风险临床决策场景。

四、模型对比与扩展分析

研究还比较了多种模型配置，发现：

●GPT-OSS-120B在中等推理强度下表现最优；

●模型规模对性能影响显著，20B版本性能下降37.4%；

●医学微调虽有提升，但仍远不及通用大模型；

●系统输出存在显著随机性，同一患者多次运行结果差异较大；

●在引入患者种族信息后，系统表现未出现显著偏差。

五、讨论与启示

5.1 知识与应用的鸿沟

研究指出，当前大语言模型在药物安全审查中的主要障碍不是“知道什么”，而是“如何在复杂临床情境中应用已知知识”。这一发现对当前以检索增强生成和医学微调为主的优化路径提出了挑战。未来的改进应聚焦于：

●不确定性校准；

●支持信息请求的智能体架构；

●嵌入隐性医疗实践知识的训练。

5.2 研究局限

研究存在若干局限：

●临床评审为单专家、非盲态，可能存在锚定偏倚；

●提示设计鼓励“果断干预”，可能放大过度自信问题；

●数据仅来自单一地区，缺乏自由文本记录；

●时间与计算资源限制，未能充分优化系统配置。

六、结论

本研究首次在真实NHS基层医疗数据中系统评估了大语言模型在药物安全审查中的表现，揭示了其在“发现问题”与“正确处置”之间的显著差距。失败分析表明，当前模型的主要短板在于上下文推理与临床实践理解，而非医学知识本身。研究呼吁更大规模的前瞻性评估，并强调在部署前必须解决这些推理层面的根本性问题。

如需要《大语言模型在NHS基层医疗药物安全审查中的真实世界评估》（英文，共46页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

The most precious gift you can give someone is the gift of your time and attention. 世间万千馈赠，莫若以此为最：赠人以共度的流年，予人以全心的关注。早上好！

《大语言模型在NHS基层医疗药物安全审查中的真实世界评估》

《基于AI推理的患者-临床试验匹配系统》

《“电子病历导航员”：面向异构电子病历的患者级临床问题应答多智能体系统》

《时间到事件转换模型：捕获电子病历时序数据中事件的时序注意力》

《基于内在可解释组件的可解释AI：穿戴式健康监测新范式》

《利用基于实验室数据的人工智能与规则相融合的决策支持系统实现疾病的诊断和管理》