《“医师能力基准”：大语言模型智能体在真实电子病历环境中的能力评估》

一、引言：从“解题高手”到“实习医生”的残酷落差

2026年5月，斯坦福大学联合多家顶尖医疗机构发布了一项可能重塑医疗AI评估体系的重磅成果——医师能力基准。长久以来，大语言模型（LLM）在医疗领域的评估陷入了“应试教育”的怪圈：无论是MedQA还是PubMedQA，模型只需在静态的多项选择题中选出正确答案，便能被冠以“超越人类医生”的光环。然而，现实世界的临床工作绝非选择题。医生需要在繁杂的电子病历中检索信息、推理鉴别诊断、开具医嘱、安排转诊，并最终生成规范的病历文书。

医师能力基准的问世，标志着医疗AI评估从“知识记忆”正式迈入“工作执行”时代。这是一个基于真实电子病历环境、包含100个长周期临床任务的基准测试。它的核心发现令人警醒：即便是最先进的GPT‑5.5，在面对真实的临床工作流时，单次尝试成功率也仅为46%，而开源模型的最高成功率甚至不足20%。这意味着，目前的AI还远不能被称为合格的“医生助手”，充其量只是一个需要严密监督的“实习生”。

二、核心架构：模拟真实世界的“数字医院”

医师能力基准的颠覆性在于其构建了一个可执行、可验证、可追溯的闭环环境。

1、任务设计：源于真实会诊的复杂性

100个任务全部改编自斯坦福真实世界的全科与专科会诊案例。这些任务不是孤立的问答，而是长周期的复合工作流。例如，一个任务可能要求AI扮演内分泌科医生，评估一位肾上腺功能不全患者的激素替代治疗效果，这需要AI检索患者的化验单、核对用药史、计算临床评分、判断是否启动抗凝治疗，并最终在系统中创建转诊申请和病历记录。平均每个任务需要调用27次工具，最多允许100次交互。

2、环境构建：FHIR 标准的真实复刻

区别于以往基于文本模拟的环境，医师能力基准直接部署了符合 HL7 FHIR R4 标准的 HAPI FHIR 服务器。每个任务都在独立的 Docker容器中运行，加载了经过脱敏和扰动处理的真实患者数据。AI必须通过标准化的API接口与电子病历交互，就像真实医生通过 Epic或Cerner系统操作一样。这种设计杜绝了“纸上谈兵”，强迫AI理解结构化的医疗数据交换逻辑。

3、评估机制：670个检查点的全流程透视

医师能力基准放弃了单一的“最终答案对错”，转而采用细粒度检查点评估。100个任务共分解为670个临床里程碑，涵盖四个维度：

数据检索：是否找全了必要的化验和病史？
临床推理：对指标的解读是否正确？诊断逻辑是否严密？
行动执行：是否真的在系统中创建了正确的医嘱和转诊单？
文书记录：生成的病历是否完整、合规、安全？

这种评估方式不仅能打分，还能像解剖一样精准定位AI在哪一步“掉链子”。

三、实验结果：断层领先的GPT‑5.5与惨淡的行业现状

研究团队对12个主流大模型（包括闭源和开源）进行了地毯式测试，结果揭示了巨大的技术鸿沟。

1、榜首的尴尬：46%的成功率

GPT‑5.5 以46.3%的Pass@1 位居榜首，Claude Opus 4.6和4.7紧随其后，分别为31.7%和29.3%。即使是排名第一的模型，其表现也远未达到临床可用的及格线（通常认为需>95%）。更令人担忧的是可靠性：即便是GPT‑5.5，在三次独立运行中全部成功的几率仅为28%。这意味着AI的表现具有极大的随机性，今天能完成的任务，明天可能就会搞砸。

2、开源模型的困境

表现最好的开源模型DeepSeek V4‑Pro 和 Kimi‑K2.6 成功率分别为18.7%和17.0%。这表明，在需要复杂工具调用和环境交互的临床场景下，开源模型与当前在各类基准测试中表现最优的闭源模型之间存在难以逾越的代差。

3、专科差异与任务难度

擅长领域：GPT‑5.5在内分泌科（59%）、心血管科（55.6%）和消化科（57.1%）表现相对较好，因为这些领域的数据结构清晰，指南明确。
短板领域：在治疗计划这类开放性、多步骤的任务中，所有模型表现均大幅下滑。GPT‑5.5在此类任务上的成功率仅为40.7%，而 Claude Opus 4.6更是跌至21%。
最差表现：肾脏/泌尿科是所有模型的重灾区，GPT‑5.5 在此仅为29.2%，说明涉及复杂的电解质平衡和水盐代谢调节时，AI的推理能力严重不足。

四、深度归因：AI究竟是如何“犯错”的？

通过对失败检查点的分析，研究团队绘制了一幅清晰的“AI临床失误图谱”。

1、临床推理是最大瓶颈（占失败的50.4%）

超过一半的错误发生在思考环节。AI往往能检索到正确的数据，却无法得出正确的结论。

典型案例（肾上腺危象管理）：Claude Opus 4.6面对一位69岁女性患者，检索到了肾素升高（Renin 16.0），却错误地将“继发性肾上腺功能不全”诊断为“原发性肾上腺功能不全（艾迪森氏症）”，进而错误地建议加用盐皮质激素。实际上，该患者是因垂体问题导致的继发性，通常不需要盐皮质激素，错误的加药可能导致高血压和低钾血症。
细节缺失：AI经常给出“正确的废话”，比如建议“进一步检查”，但遗漏了具体的检查项目、剂量或监测频率。

2、行动执行：嘴上说得好，手上不动弹

约18.8%的失败属于“输出缺口”。AI在生成的病历中写得头头是道：“建议患者转诊至心内科”，但在电子病历系统中却没有创建对应的转诊单资源。这种“言行不一”在临床上是极其危险的，会导致患者失访和治疗延误。

3、数据检索与文书

较弱的模型往往在第一步就失败了，找不到藏在电子病历深处的关键病史。而较强的模型虽然能完成任务，但在文书规范性上仍常出现遗漏关键安全警示的情况。

五、行业启示：为什么GPT‑5.5能赢？

研究发现，GPT‑5.5的领先并非因为它懂得更多的医学知识（在纯粹的知识问答上，各模型差距不大），而在于更强的“执行力”和“纪律性”。

数据忠实度：GPT‑5.5更倾向于直接引用电子病历中的原始数据，而Claude有时会“脑补”或抽象化数据，导致与事实不符。
工具调用频次：GPT‑5.5 在复杂任务上会发起更多的工具调用（平均41.9次），意味着它更愿意花时间去“翻病历”，而不是急于下结论。这种“慢思考”特质是临床工作最需要的。

六、局限与未来

医师能力基准目前主要聚焦于门诊咨询场景，尚未覆盖住院病历书写、急诊抢救等高动态环境。此外，它还未涉及多模态数据（如影像、病理切片）的解读。

未来，随着智能体技术的发展，评估的重点将从“单兵作战”转向“团队协作”，即AI如何与人类医生、护士以及其他AI协同工作。同时，如何降低AI的“幻觉率”和“随机性”，使其达到医疗级的稳定性，将是下一阶段的核心挑战。

七、结语

医师能力基准像一面照妖镜，让那些在选择题中“封神”的大模型露出了原型。它告诉我们，医疗AI的落地比想象中要艰难得多。46%的成功率不仅是一个冰冷的数字，更是对行业的警示：在涉及生命的严肃医疗场景中，我们不能被模型的“聪明”表象所迷惑。只有当AI能够像人类医生一样，在真实的电子病历迷宫中稳定地完成每一个检索、每一次推理、每一项操作时，真正的医疗智能化才算到来。在此之前，人类医生的监督和把关，依然是不可或缺的底线。

如需要《“医师能力基准”：大语言模型智能体在真实电子病历环境中的能力评估》（英文，共30页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

People know your name, not your story. They've heard what you've done, but not what you've been through. So take their opinions of you with a grain of salt. In the end, it's not what others think, it's what you think about yourself that counts. Sometimes you have to do exactly what's best for you and your life, not what's best for everyone else. 世人只知你的名字，未闻你的故事；他们听闻你做过什么，却不知你曾历经何等风雨。故而，他人的评判，且当轻尘拂过，莫要放在心上。终究，重要的不是旁人如何看你，而是你如何看待自己。有时，你必须为自己的人生，做出那独属于自己的选择，而非为成全他人而委屈了自己。早上好！

《“医师能力基准”：大语言模型智能体在真实电子病历环境中的能力评估》

《用于罕见病诊断与风险基因优先排序的多功能AI智能体系统》

《肿瘤治疗计划的临床推理 AI：基于病例的多专科评估》

《安全网医疗机构的AI落地：障碍与策略的实证研究》

《人机协作对话提升急诊诊断准确性》

《“睿思德”：临床人工智能决策支持系统的部署前安全评估框架》