《生成式AI生成的临床内容中的患者安全风险评估：FMECA框架的开发与验证》

一、研究背景与目标

随着电子病历的普及，临床信息的碎片化增加了医生的文书负担。大语言模型（LLM）在临床文本摘要方面展现出巨大潜力，但其带来的患者安全风险尚缺乏系统性的定义和评估方法。现有的研究往往缺乏系统性的故障分析，且术语不统一（如模糊的“幻觉”概念），难以建立标准化的错误分类法。

此外，监管层面存在空白。根据欧盟《人工智能法案》（EU AI Act）及医疗器械协调小组（MDCG）2019-11 rev.1指南，用于医疗目的的LLM软件属于医疗器械软件（MDSW）。然而，目前缺乏针对此类生成式AI的前瞻性风险评估工具。

为了解决这一难题，该研究旨在开发并验证首个基于“故障模式、影响及危害性分析（FMECA）”的框架，用于前瞻性评估LLM生成的临床摘要中的患者安全风险。其主要目标包括：

1、设计一个针对LLM临床摘要的初始FMECA框架，定义故障模式分类法及评分量表。

2、在基于真实世界出院摘要生成的文本上实施并评估该框架。

3、根据评估反馈迭代优化框架，并分析其可靠性及临床相关性。

二、材料与方法

（一）FMECA框架的设计

1、范围界定：分析仅关注临床摘要生成阶段的风险，排除了数据提取、提示工程设计及临床决策等外部过程。

2、专家小组：组建了一个跨学科专家小组，成员包括FMECA专家、临床信息学家、LLM专家、质量保证专家及临床医生。

3、故障模式识别：通过文献回顾和头脑风暴，初始识别出78个潜在故障模式，经去重和筛选后形成初步分类法。

4、评分量表制定：针对发生频率、严重程度和可检测性三个维度，设计了适合临床摘要场景的5分制有序量表，以减少评估者间的变异性。

（二）数据收集与实验设置

1、数据来源：使用了来自日内瓦大学医院电子病历中的真实世界数据。研究获得了州伦理委员会的批准（批准号：2025-01062）。

2、样本选择：从一个包含846名患者的队列中，目的性选取了4名具有不同临床复杂度（住院次数分别为2次、4次、12次和19次）的患者，共36份出院摘要（PDF格式）。

3、LLM模型与提示工程：由于数据敏感性，使用了本地部署的开源模型GPT-OSS 120B。提示词设计结合了角色提示（模拟医生）和模板提示（固定输出结构），要求模型生成结构化的临床摘要。

（三）框架验证流程

1、评估者：由三名医生（两名内科医生，一名新近毕业的医生）组成评估团队。

2、两轮评估：

（1）第一轮：两名评估者对所有摘要进行标注，旨在发现框架的模糊之处和可用性问题。

（2）第二轮：引入第三名评估者，经过标准化培训后，三人独立使用优化后的框架重新评估摘要。

3、统计分析：计算评估者间的一致性，包括科恩卡帕系数、格威特AC1和克里彭多夫α系数等指标，并使用改进的系统可用性量表（SUS）评估框架的可用性。

三、研究结果

（一）故障模式分类法的建立

研究最终确立了一个包含14种具体故障模式的分类法，这些模式被组织为6个大类和10个子类。主要类别包括：

1、对查询的忠实度：涉及结构、内容和词汇方面的错误（如信息放置在错误的章节）。

2、可读性：涉及歧义表述、逻辑断裂或语言错误。

3、伦理适当性：涉及歧视性或污名化词汇。

4、相对于源文档的内容忠实度：这是核心类别，包括事实错误、信息不可追溯（编造）等。

5、穷尽性：主要指遗漏源文档中的重要信息。

6、技术问题：如未能生成摘要。

（二）评分量表的优化

1、严重程度：改编自AHRQ通用格式伤害量表，从1分（无临床影响）到5分（导致患者死亡）。

2、可检测性：本研究新设计的量表，从1分（极易检测）到5分（极难检测），考虑了是否需要查阅源文档及认知努力程度。

（三）框架的可靠性与有效性

1、评估者一致性：在第二轮评估中，子类别级别的弗莱斯卡帕值为0.424（中等），故障模式级别的弗莱斯卡帕值为0.400（中等到实质性）。值得注意的是，严重程度和可检测性评分的一致性较高（组内相关系数ICC > 0.7）。

2、可用性：框架的平均SUS评分为79.2/100（等级B+，良好）。评估者对评分量表的解释清晰度表示满意，且对使用框架充满信心。

四、讨论与结论

（一）研究意义

本研究首次将FMECA方法应用于生成式AI的临床输出评估。与以往仅关注“幻觉”或“遗漏”的二元分类不同，该框架提供了一个多层次、结构化的风险分析视角。特别是引入“可检测性”作为独立维度，对于评估LLM生成的流畅但可能具有误导性的文本至关重要。

（二）与现有文献的比较

相较于阿斯加里等人提出的框架（仅包含幻觉/遗漏二分法），本研究的分类法更为细致，通过共识过程定义了14种具体的故障模式，有助于更精准地识别临床风险。同时，研究指出传统的风险优先级编号（RPN）在小样本研究中存在局限性，未来需在更大规模数据上进行验证。

（三）局限性

1、样本量较小（仅4名患者），限制了发生频率估计的普适性。

2、仅使用了一种LLM模型（GPT-OSS 120B）和一种语言（法语）。

3、评估过程本身具有主观性，尽管经过培训，评估者在判断细微错误时仍存在差异。

（四）未来方向

1、将框架扩展到更大、更多样化的数据集上，以准确估计发生频率并进行风险优先级排序。

2、在不同的临床任务、模型架构和语言环境中验证框架的通用性。

3、探索替代RPN的聚合策略，以更准确地反映临床风险。

五、总结

该研究成功开发并验证了一个针对LLM生成临床摘要的FMECA框架。该框架通过定义详细的故障模式分类法和定制化的评分量表，为医疗AI的前瞻性安全评估提供了一个可靠且实用的工具。尽管基于有限的样本，但该研究为标准化生成式AI在临床环境中的风险评估迈出了重要一步。

如需要《生成式AI生成的临床内容中的患者安全风险评估：FMECA框架的开发与验证》（英文，共21页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

A pure heart is a perpetual spring. 心有澄明，岁岁长春。早上好！

《生成式AI生成的临床内容中的患者安全风险评估：FMECA框架的开发与验证》

《医疗智盾：构建面向患者的医疗大模型“安全护栏”

《“虚拟言语治疗师”：基于“临床医生在环”模式的个性化的、监督治疗之AI言语治疗智能体》

《人工智能语言技术在多语言医疗中的应用：七大挑战与未来展望》

《面向临床医生的电子病历嵌入式AI智能体的端到端评估与治理》

《“医疗AI训练场”：从单轮问答到多轮临床决策智能体》