
一、引言:临床AI的现实困境
近年来,人工智能在医疗领域的应用取得了显著进展,尤其是在医学影像分析、自然语言处理和临床决策支持等方面。然而,尽管AI在受控的基准测试中表现优异,其在真实临床环境中的部署却频繁遭遇失败。研究表明,超过94%的放射学AI模型在外部验证中性能下降,AUC平均降低8%。即便是在医学执照考试中取得高分的大语言模型,在真实临床推理中仍表现出不可靠性。当前,AI系统正朝着“智能体化”方向发展,具备规划、记忆和工具使用能力,试图模拟临床推理流程。然而,这种转向并未解决根本问题,反而可能因错误传播和人类监督削弱而引入新的风险。
本文指出,这一困境的根源并非纯粹技术性的,而是缺乏对临床世界本质的统一建模。现有的评估、监管和设计框架各自为政,缺乏一个共享的临床世界模型来连接它们。为此,本文作者提出了三个相互关联的模型:临床世界模型、决策架构模型和临床AI技能组合模型,旨在将AI能力嵌入到人类认知与临床实践的真实结构中。

二、临床世界模型:构建统一的临床现实框架
临床世界模型的核心思想是将临床护理视为一个三元交互系统,由患者、医疗服务提供者和生态系统三部分构成。患者是疾病或风险的承受者,医疗服务提供者包括医生、护士、药师等所有医务人员,生态系统则涵盖物理空间、信息系统、医疗设备、组织流程等环境因素。
为结构化描述生态系统,作者提出了“功能-基质矩阵”:功能包括数据、心智和服务;基质包括人类、数字和物理。临床AI被定位在“心智×数字”单元格中,意味着它参与推理过程,但以数字形式存在。这一位置决定了AI如何与人类和其他生态系统组件交互。
临床世界模型还定义了十三个维度来描述临床现实,包括:时间性、公理、信息、法典、行动者、上下文、使命、认知、表征、权威、规范性、结果和适应。这些维度共同构成了临床状态空间,任何AI系统的能力都必须在其中被定义和评估。

三、决策架构模型:人类与AI的认知对齐
为了使AI能够与人类协同工作,必须理解人类临床决策的认知机制。本文分别提出了临床决策模型(面向医疗服务提供者)和患者决策模型(面向患者),并在此基础上构建了AI智能体决策模型(面向AI)。
1、临床决策模型
临床决策模型基于双过程认知理论。提供者的输入包括:接触数据(如病史、体格检查)、患者偏好、就诊背景(如资源、制度)和记录数据(如检验、影像)。这些信息进入“循环处理球”,通过数据处理器提取线索,生成假设,形成计划,最终转化为行动。
在这一过程中,系统I(临床直觉)提供快速模式识别,系统II(分析推理)进行慢速、逐层的逻辑分析。两者之间双向振荡,由“反思”模块进行元认知监控。当置信度高时,系统I可绕过反思直接行动,这既是专家效率的来源,也是偏误的温床。
2、患者决策模型
患者同样是一个主动的认知智能体。其输入包括:来自提供者的诊断信息、就诊背景、记录数据,以及独特的“生活自我”(身体体验、情绪状态、价值观)和“情境自我”(支持系统、资源、角色)。患者的认知过程也采用双过程架构,但其反思能力受健康素养、决策能力等先验因素的影响。
3、AI智能体决策模型
AI智能体的决策架构与人类高度平行,但每个组件被替换为计算对应物:数据处理器变为“注意抽象”,假设生成变为“潜空间”,系统I和II变为“即时推理”和“顺序推理”,反思变为“轨迹投影”。此外,AI还具有人类没有的“请求确认”行动类型,用于在置信度不足或超出授权范围时请求人类干预。

四、临床AI技能组合:能力空间的结构化规范
本文的核心创新之一是提出了临床AI技能组合,将AI能力规范化为一个多维空间。该空间由八个维度构成:
1、临床能力空间(5个维度):
(1)病症:如疾病、综合征、风险状态,采用ICD-10-CM编码。
(2)诊疗阶段:如风险识别、症状前检测、诊断、治疗、随访等。
(3)医疗场景:如急诊、住院、康复、家庭等。
(4)医疗服务提供者角色:如医生、护士、药师等86种角色。
(5)临床任务:如诊断、治疗、沟通、管理等58项任务。
2、AI认知参与空间(3个维度):
(1)分配权威:监控(提供反馈)、增强(辅助人类决策)、自动化(替代人类)。
(2)面向对象:面向医疗服务提供者、患者、互动过程或生态系统。
(3)锚定层:AI在认知架构中的接入点,如输入层、数据处理器、假设层、系统I/II、反思层、行动层。
这八个维度的笛卡尔积产生了数十亿个可能的“能力单元格”。本文强调,在一个单元格中验证的能力不能推广到另一个单元格,这意味着临床AI的评估必须是细粒度、上下文依赖的。

五、意义与应用
1、评估意义
本文提出,AI的评估应从“它是否有效”转向“它在哪些能力单元格中被证明有效”。每个单元格需要独立的验证路径,包括内部验证、外部验证和前瞻性临床验证。评估标准应随分配权威和锚定层的不同而调整,自动化任务要求更高性能阈值,而增强任务则更强调透明度和解释性。
2、设计意义
设计决策应基于任务的可编码性、可逆性和关系性需求。可编码的知识(如指南)适合自动化,而依赖隐性知识或人际信任的任务更适合增强。患者面向的AI必须支持而非替代医患对话,保护关系动态。
3、智能体系统意义
在多智能体系统中,能力单元格可作为接口规范。不同锚定层的智能体之间需要保持认知兼容性,避免权威的隐性升级。本文建议,复合链路的输出权威不应超过序列中最受限单元格的权威,除非有明确的治理机制。

六、局限性与未来方向
本文坦诚地指出了多个局限性。首先,框架的理论建构仍需更多利益相关方的参与和实证验证。其次,患者决策模型基于西方自主患者的伦理假设,在家庭决策主导的文化中需要调整输入配置。此外,框架尚未充分处理多模态基础模型、AI对医学教育的影响,以及在性能超越人类但仍不透明的情况下的伦理问题。
七、结论
这篇文章通过将临床AI的能力锚定在人类认知和临床实践的坚实基础上,成功地将一个庞大的、混乱的工程问题转化为一个结构化的、可管理的科学问题。它不仅解释了为什么现有的AI系统在临床中容易失败(因为它们忽略了认知架构的匹配),还为未来的临床AI开发提供了一张详尽的“路线图”。
通过临床世界模型、决策架构模型和技能组合框架,研究人员为临床AI建立了一种“共同语言”。这使得开发者可以精确地规格化AI能力,监管者可以据此制定证据要求,而临床医生则能清晰地理解AI在诊疗过程中的具体角色。其核心贡献在于:将问题从“AI是否有效”重新框定为“在哪些能力单元格中,AI被证明可靠,并为谁而可靠”。这标志着临床AI领域从“粗放式开发”向“精准化规格化”的重要范式转变。
如需要《通过临床世界模型和技能组合框架将临床AI能力建立在人类认知基础之上》(英文,共93页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



When others fall silent, you’d better figure out whether it’s your excellence that awed them into silence, or your stupidity that left them speechless. 当别人不再说话的时候,你最好分析一下,是你的优秀使他沉默,还是你的愚蠢让他无语。早上好!
