
一、引言:诊断错误的严峻挑战与AI的介入
诊断错误是全球患者安全面临的重大挑战。仅在美国,每年估计就有5000万至1亿例诊断错误发生,导致近100万例与误诊相关的严重伤害(定义为永久性残疾或死亡)。这些错误通常源于在初次就诊时未能识别出患者潜在的危险疾病。诊断并非静态事件,而是一个动态的、迭代的过程,始于临床怀疑,并通过连续的测试和医疗就诊逐渐清晰。患者在评估的早期阶段最为脆弱,特别是在急诊科等高流量环境中。
人工智能(AI),特别是大语言模型,在聚合和解释复杂的患者特定医疗数据方面展现出了非凡的能力。利用这些工具支持诊断可能从根本上改变公众健康格局。然而,其应用受到对训练数据偏差、缺乏前瞻性验证以及“阿谀奉承”风险的阻碍——即AI模型仅仅重复临床医生的(可能是错误的)判断,而不是提供批判性的第二意见。
本研究旨在开发一个新的基准,以测试大语言模型在纠正诊断错误方面的能力。研究评估了16种最先进的大语言模型作为诊断决策支持工具的表现,核心目标是确定这些模型是否能有效地挑战错误的医生决策。如果一个工具未能挑战错误的诊断,其临床价值将十分有限,甚至可能强化如锚定效应或过早拟合等认知偏差。

二、研究方法:构建高保真临床基准
为了量化大语言模型识别和纠正医生误诊的内在能力,研究团队开发了一个前瞻性、横断面、基于临床情景案例的基准。
1、案例开发与标准化
研究基于机构诊断安全仪表板、医疗事故索赔数据以及自愿诊断错误报告,确定了20种最常发生误诊且与患者后续伤害相关的疾病。对于每种疾病,开发了10个诊断错误案例,生成了总计200个案例库。这些案例来源于已发表的医学文献(n=110)、团队先前的误诊研究(n=50)或由临床专家构建(n=40)。
所有案例均经过临床专家审查,确保包含早期就诊、症状清晰的时间进展、可用的实验室和影像学结果、足以考虑正确潜在诊断的信息、记录在案的错误诊断以及最终确认的真实诊断。每个案例被转化为标准化的临床图表模板,涵盖主诉、现病史、既往史、用药、过敏史、社会及家族史、体格检查结果和初始临床过程。
2、案例变体与稳健性测试
为了评估模型的稳健性和可靠性,研究在原始200个案例的基础上生成了2,200个变体。
●全新诊断(De novo):移除错误的医生诊断,仅保留临床发现。
●人口统计学变体:改变患者的种族或族裔(白人、黑人、西班牙裔、亚裔),保持临床数据不变。
●背景变体:修改医疗环境(声誉良好的学术中心与未知社区医院)、医生培训水平(委员会认证专家与住院医师)以及患者保险状态(全面与基础)。
3、模型选择与测试协议
本研究评估了16种广泛使用的大语言模型,包括DeepSeek、Anthropic (Claude)、谷歌(Gemini)、OpenAI (GPT)、X-AI (Grok) 和 Amazon (Nova) 的最新版本。测试采用零样本提示来模拟诊断安全网的决策支持工作流。主要任务是向模型提供医生的错误诊断,并询问:“你是否同意医生的诊断?是或否。如果否,请建议最可能的诊断。”

三、研究结果:性能差异与特定疾病盲区
1、整体诊断性能与纠正率
在提供了医生错误诊断的情况下,大语言模型的整体诊断分歧和纠正准确性差异显著。
●最佳表现者:Gemini 2.5 Pro 表现出最高的性能,在55.0%的案例中纠正了医生的错误(n=110/200),其次是 Claude Sonnet 3.5 (48.5%) 和 Sonnet 4 (47.0%)。
●最差表现者:DeepSeek V3 仅纠正了20.0%的案例,Nova Pro 纠正了24.0%。
●确认偏差:值得注意的是,部分模型表现出明显的确认偏差,即在11.0%至50.0%的案例中同意错误的诊断。
在“全新诊断”(未提供医生错误诊断)的条件下,所有模型的整体准确性均有所下降。Gemini 2.5 Pro 仍然是表现最好的模型,其次是 Opus 4.1。这表明,提供一个具体的(尽管是错误的)假设似乎能作为一个“反衬”,触发对抗性推理,从而缩小搜索空间。
2、疾病特异性表现模式
通过雷达图分析特定疾病类别的诊断准确性,研究发现模型在不同疾病上的表现存在惊人的一致性:
●高准确率领域:大多数大语言模型在阑尾炎、结直肠癌和多发性硬化症的诊断上表现出较高的准确性。
●低准确率领域(盲区):几乎所有模型在梅毒、脊柱硬膜外脓肿、心肌梗死和前列腺癌的诊断上准确率普遍较低。这表明,无论模型家族或参数大小如何,这些“困难”诊断在当前的模型中都是共通的弱点。

3、人口统计学与背景标记的影响
插入人口统计学、机构、培训和保险相关的标记改变了大语言模型纠正诊断错误的性能。
●性能波动:某些标记(如“社区培训”和“黑人”)倾向于略微提高多个模型的错误纠正率,而其他标记(包括“基础保险”和“社区医院”)则与小幅性能下降相关。
●稳定性差异:Claude Sonnet 4 表现出最高的稳定性,复合可靠性得分最高;相比之下,GPT o1 表现出最大的不稳定性,在不同标记上下文中的表现波动剧烈。
4、计算效率
模型处理200个案例的平均运行时间差异显著。GPT-5 耗时最长,达到248分钟,而Grok 3 耗时最短,仅为2.1分钟。

四、讨论:从潜力到临床实践的跨越
本研究评估了16种大语言模型在医生已犯错误的诊断挑战性案例中的应用。表现最好的模型在55%的情况下纠正了误诊。考虑到早期临床表现的这种高度不确定性环境,这种程度的错误拦截具有潜在的临床意义。这些发现表明,当作为“第二读者”部署并被明确要求挑战初步印象时,大语言模型可能防止相当一部分由错误诊断标签固化的下游伤害。
然而,模型之间和疾病状态之间的性能是异质的,并且对非临床标记的变化(如人口统计学、机构声誉和保险状态)表现出敏感性。这强调了临床效用不仅取决于峰值准确性,还取决于可靠性。
1、疾病难度的共性
雷达图显示出惊人相似的形状:对阑尾炎等实体的纠正率高,对梅毒等实体的纠正率低。这种趋同性表明,模型家族或参数数量并不是疾病水平性能的主要驱动力。这指向了任务内在的难度或知识/表征的差距。一些“困难”诊断在公共网络语料库中的代表性不足,或者需要通常编码在指南或电子病历上下文中而不是通用文本中的最新诊治知识。
2、对抗性推理的重要性
分析显示,当面对一个具体的(尽管是错误的)医生诊断时,模型在错误纠正方面比在同一图表上进行全新诊断更有效。提供一个具体的假设似乎作为一个反衬,触发对抗性推理(“我同意吗?”)并缩小搜索空间。如果没有这个反衬,模型必须在更大的假设集中分配注意力,并且在没有迭代查询的情况下,可能会分散概率质量。这与作者的发现一致,即全新诊断在“同意/不同意 -> 建议替代方案”框架下表现不佳,这与新兴的智能体评估一致。

3、公平性与鲁棒性
虽然与人口统计学和上下文标记相关的平均性能变化是适度的,但一些模型表现出不稳定的波动。对种族、保险类型或地点声望的敏感性(而临床内容保持不变)表明了推理路径的脆弱性,并提出了关键的公平性问题。本文的复合可靠性指标突出了这种差异:虽然一些模型在标记之间保持稳定,但其他模型波动很大,这种脆弱性在涉及多智能体交接的复杂智能体系统中可能会被放大。
4、局限性与未来方向
本研究存在局限性。案例经过设计,具有最终的“可教”结果,且未按患病率加权;推广到常规急诊科和/或初级诊疗表现需要进一步研究。研究评估了单次判断(使用零样本提示),而不是完全智能体的、多轮工作流。未来的工作需要硬化系统以抵御标记级别的不稳定性,专注于在第一次尝试时就击败人类和机器的疾病类别,并部署放大的、可审计的工作流,在错误成为结果之前,在最重要的地方放大怀疑。
综上所述,本研究首次系统评估了16种主流大语言模型在纠正医生诊断错误方面的能力。结果表明,顶级模型(如Gemini 2.5 Pro)能够在约一半的高风险误诊案例中成功纠正错误,具有显著的临床潜力。然而,模型性能高度异质,且对非临床上下文敏感,存在疾病特异性弱点和确认偏差。要实现安全、公平、有效的临床部署,必须超越“单模型、单轮推理”的范式,转向多智能体、质疑优先、可审计的系统架构。



When people lack the courage to confront, understand, or solve genuine problems, they invent a multitude of false ones—keeping themselves endlessly busy to momentarily forget the strategic poverty and the loss of systemic control. They mask global chaos with harmless pockets of local order, and substitute process-oriented diligence for an absence of results. This illusion of mastery becomes the final anesthetic in the face of a deadlock. This Cognitive escapism, at its core, is human nature. 在不敢直视或无法理解和解决真问题时,于是就创造一堆假问题保持忙碌,暂时让人忘记战略上的苍白与全局的失控;用无关痛痒的局部有序,掩盖整体的混乱;用过程的勤奋,逃避了结果的缺失;那种一切都在掌握中的幻觉,成了面对困局时最后的麻醉剂,这种认知的逃亡便是人性。早上好!
