《通过临床世界模型和技能组合框架将临床AI能力建立在人类认知基础之上》

一、引言：临床AI的现实困境

近年来，人工智能在医疗领域的应用取得了显著进展，尤其是在医学影像分析、自然语言处理和临床决策支持等方面。然而，尽管AI在受控的基准测试中表现优异，其在真实临床环境中的部署却频繁遭遇失败。研究表明，超过94%的放射学AI模型在外部验证中性能下降，AUC平均降低8%。即便是在医学执照考试中取得高分的大语言模型，在真实临床推理中仍表现出不可靠性。当前，AI系统正朝着“智能体化”方向发展，具备规划、记忆和工具使用能力，试图模拟临床推理流程。然而，这种转向并未解决根本问题，反而可能因错误传播和人类监督削弱而引入新的风险。

本文指出，这一困境的根源并非纯粹技术性的，而是缺乏对临床世界本质的统一建模。现有的评估、监管和设计框架各自为政，缺乏一个共享的临床世界模型来连接它们。为此，本文作者提出了三个相互关联的模型：临床世界模型、决策架构模型和临床AI技能组合模型，旨在将AI能力嵌入到人类认知与临床实践的真实结构中。

二、临床世界模型：构建统一的临床现实框架

临床世界模型的核心思想是将临床护理视为一个三元交互系统，由患者、医疗服务提供者和生态系统三部分构成。患者是疾病或风险的承受者，医疗服务提供者包括医生、护士、药师等所有医务人员，生态系统则涵盖物理空间、信息系统、医疗设备、组织流程等环境因素。

为结构化描述生态系统，作者提出了“功能-基质矩阵”：功能包括数据、心智和服务；基质包括人类、数字和物理。临床AI被定位在“心智×数字”单元格中，意味着它参与推理过程，但以数字形式存在。这一位置决定了AI如何与人类和其他生态系统组件交互。

临床世界模型还定义了十三个维度来描述临床现实，包括：时间性、公理、信息、法典、行动者、上下文、使命、认知、表征、权威、规范性、结果和适应。这些维度共同构成了临床状态空间，任何AI系统的能力都必须在其中被定义和评估。

三、决策架构模型：人类与AI的认知对齐

为了使AI能够与人类协同工作，必须理解人类临床决策的认知机制。本文分别提出了临床决策模型（面向医疗服务提供者）和患者决策模型（面向患者），并在此基础上构建了AI智能体决策模型（面向AI）。

1、临床决策模型

临床决策模型基于双过程认知理论。提供者的输入包括：接触数据（如病史、体格检查）、患者偏好、就诊背景（如资源、制度）和记录数据（如检验、影像）。这些信息进入“循环处理球”，通过数据处理器提取线索，生成假设，形成计划，最终转化为行动。

在这一过程中，系统I（临床直觉）提供快速模式识别，系统II（分析推理）进行慢速、逐层的逻辑分析。两者之间双向振荡，由“反思”模块进行元认知监控。当置信度高时，系统I可绕过反思直接行动，这既是专家效率的来源，也是偏误的温床。

2、患者决策模型

患者同样是一个主动的认知智能体。其输入包括：来自提供者的诊断信息、就诊背景、记录数据，以及独特的“生活自我”（身体体验、情绪状态、价值观）和“情境自我”（支持系统、资源、角色）。患者的认知过程也采用双过程架构，但其反思能力受健康素养、决策能力等先验因素的影响。

3、AI智能体决策模型

AI智能体的决策架构与人类高度平行，但每个组件被替换为计算对应物：数据处理器变为“注意抽象”，假设生成变为“潜空间”，系统I和II变为“即时推理”和“顺序推理”，反思变为“轨迹投影”。此外，AI还具有人类没有的“请求确认”行动类型，用于在置信度不足或超出授权范围时请求人类干预。

四、临床AI技能组合：能力空间的结构化规范

本文的核心创新之一是提出了临床AI技能组合，将AI能力规范化为一个多维空间。该空间由八个维度构成：

1、临床能力空间（5个维度）：

（1）病症：如疾病、综合征、风险状态，采用ICD-10-CM编码。

（2）诊疗阶段：如风险识别、症状前检测、诊断、治疗、随访等。

（3）医疗场景：如急诊、住院、康复、家庭等。

（4）医疗服务提供者角色：如医生、护士、药师等86种角色。

（5）临床任务：如诊断、治疗、沟通、管理等58项任务。

2、AI认知参与空间（3个维度）：

（1）分配权威：监控（提供反馈）、增强（辅助人类决策）、自动化（替代人类）。

（2）面向对象：面向医疗服务提供者、患者、互动过程或生态系统。

（3）锚定层：AI在认知架构中的接入点，如输入层、数据处理器、假设层、系统I/II、反思层、行动层。

这八个维度的笛卡尔积产生了数十亿个可能的“能力单元格”。本文强调，在一个单元格中验证的能力不能推广到另一个单元格，这意味着临床AI的评估必须是细粒度、上下文依赖的。

五、意义与应用

1、评估意义

本文提出，AI的评估应从“它是否有效”转向“它在哪些能力单元格中被证明有效”。每个单元格需要独立的验证路径，包括内部验证、外部验证和前瞻性临床验证。评估标准应随分配权威和锚定层的不同而调整，自动化任务要求更高性能阈值，而增强任务则更强调透明度和解释性。

2、设计意义

设计决策应基于任务的可编码性、可逆性和关系性需求。可编码的知识（如指南）适合自动化，而依赖隐性知识或人际信任的任务更适合增强。患者面向的AI必须支持而非替代医患对话，保护关系动态。

3、智能体系统意义

在多智能体系统中，能力单元格可作为接口规范。不同锚定层的智能体之间需要保持认知兼容性，避免权威的隐性升级。本文建议，复合链路的输出权威不应超过序列中最受限单元格的权威，除非有明确的治理机制。

六、局限性与未来方向

本文坦诚地指出了多个局限性。首先，框架的理论建构仍需更多利益相关方的参与和实证验证。其次，患者决策模型基于西方自主患者的伦理假设，在家庭决策主导的文化中需要调整输入配置。此外，框架尚未充分处理多模态基础模型、AI对医学教育的影响，以及在性能超越人类但仍不透明的情况下的伦理问题。

七、结论

这篇文章通过将临床AI的能力锚定在人类认知和临床实践的坚实基础上，成功地将一个庞大的、混乱的工程问题转化为一个结构化的、可管理的科学问题。它不仅解释了为什么现有的AI系统在临床中容易失败（因为它们忽略了认知架构的匹配），还为未来的临床AI开发提供了一张详尽的“路线图”。

通过临床世界模型、决策架构模型和技能组合框架，研究人员为临床AI建立了一种“共同语言”。这使得开发者可以精确地规格化AI能力，监管者可以据此制定证据要求，而临床医生则能清晰地理解AI在诊疗过程中的具体角色。其核心贡献在于：将问题从“AI是否有效”重新框定为“在哪些能力单元格中，AI被证明可靠，并为谁而可靠”。这标志着临床AI领域从“粗放式开发”向“精准化规格化”的重要范式转变。

如需要《通过临床世界模型和技能组合框架将临床AI能力建立在人类认知基础之上》（英文，共93页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

When others fall silent, you’d better figure out whether it’s your excellence that awed them into silence, or your stupidity that left them speechless. 当别人不再说话的时候，你最好分析一下，是你的优秀使他沉默，还是你的愚蠢让他无语。早上好！

《通过临床世界模型和技能组合框架将临床AI能力建立在人类认知基础之上》

《用于优化糖尿病诊断与管理的人工智能驱动的临床决策支持系统》

《揭开医疗人工智能的神秘面纱：医疗卫生政策制定者须知》

欧洲研究理事会：《医疗人工智能前沿研究：从疾病预防到诊断和治疗》

《人机六维能动框架：人工智能时代人类能动性的培育》

《面向真实医疗场景的精准医学人工智能型临床决策支持系统》