
一、研究背景与目的
随着大语言模型在医疗领域的快速渗透,如何在实际临床工作流中安全、有效地部署这些工具,已成为当前人工智能医疗应用的关键挑战。尽管已有大量研究展示了大语言模型在临床决策支持、文档自动生成等任务中的潜力,但真正在真实临床环境中与电子病历深度集成并接受前瞻性评估的系统仍属罕见。
本研究由斯坦福大学医学院团队主导,旨在开发并评估一个集成于电子病历的、基于大语言模型的外科患者分诊工具(“外科共管导航工具”),用于自动化识别适合接受“外科共管”的患者。“外科共管”是一种由医院医生与外科团队共同管理围手术期复杂患者的循证医疗模式,已被证明可降低并发症、缩短住院时间并节约医疗成本。然而,其有效实施依赖于对适合患者的准确识别,传统人工识别方式存在高变异性、低效且易遗漏的问题。

二、研究方法
1、工具设计与技术架构
“外科共管导航工具”是一个人在环(人机协同)的智能体工作流,基于斯坦福自研的ChatEHR平台构建。该平台支持大语言模型安全访问的电子病历数据。与完全自主的智能体不同,“外科共管导航工具”采用固定代码路径来编排大语言模型行为,包括:
●程序化组装术前麻醉评估记录与用药清单;
●通过固定提示词策略应用分诊标准;
●将输出后处理为结构化格式,集成入Epic的电子病历系统。
这种设计在最大化可预测性、可审计性和操作可靠性的同时,降低了运行复杂性和成本。
2、临床分诊标准与提示设计
研究团队基于既有文献和外科共管临床经验,制定了包含14项医学共病条件的结构化分诊标准,涵盖卒中、心力衰竭、冠心病、糖尿病、高血压、痴呆、炎症性肠病、生物制剂使用、癌症活动期用药等。这些标准被转化为分类提示,要求大语言模型输出“明确推荐”、“可能推荐”或“不推荐”三种结果,并附带依据说明。
3、研究阶段
研究分为两个阶段:
●第一阶段(2024年12月—2025年8月):回顾性工具开发与验证。使用232例历史手术病例,通过三位评审者同步手动标注建立金标准标签,评估多个大语言模型骨干模型(GPT-4o-mini、GPT-4o、o3-mini、GPT-4.1、GPT-5)的性能。最终选择OpenAI o3-mini作为部署模型,因其在性能与成本之间达到最佳平衡。
●第二阶段(2025年9月—2026年2月):前瞻性部署与评估。“外科共管导航工具”每日分析次日手术病例,将分类结果写入Epic系统列表,供外科共管医生审阅。医生可确认、否决或覆盖推荐,并通过嵌入式反馈表记录决策与原因。14名外科共管主治医师(共16名)参与。

三、研究结果
1、回顾性验证阶段表现
在232例历史病例中,常规临床医生人工分诊的准确率仅为75%,主要因敏感性低(55%)导致近半数合格患者被遗漏。相比之下,o3-mini驱动的“外科共管导航工具”在验证集中实现了96%的准确率,敏感性达91%,特异性达99%,显著优于人工分诊。
2、前瞻性部署阶段表现
自2025年9月部署至2026年2月,“外科共管导航工具”共分诊6,193例外科病例,其中1,582例(26%)被标记为可能适合外科共管。在收到医生反馈的1,077例(17%)中,工具表现出:
●敏感性:94%(95% CI 0.91–0.96)
●特异性:74%(95% CI 0.71–0.77)
●阳性预测值(PPV):58%(其中“明确推荐”强标记组PPV为63%,“可能推荐”弱标记组PPV为23%)
●阴性预测值(NPV):97%
工具整体表现稳定,高敏感性确保了极少有合格患者被遗漏(NPV高达97%),而中等特异性则体现了设计上对安全性的优先考量——宁可误报,不可漏报。
3、错误分析与人工审查
在203例假阳性(工具推荐但医生否决)中,医生反馈的主要原因包括:
●临床复杂性不足(37%):患者虽满足部分标准,但医生判断无需共管;
●操作/流程排除(合计约36%):如术后ICU收治、非外科共管覆盖科室、门诊手术、外部医疗集团管理等;
●数据可靠性问题(约10%):如手术当天由住院改为门诊、外部机构管理未被记录。
对19例假阴性(工具未推荐但医生认为应共管)的深入审查发现:
●仅2例(11%)归因于大语言模型分类错误;
●其余主要源于分诊标准不全面(37%)、医生自身判断失误(16%)、术前或术后并发症(11%)、麻醉术前记录不完整(11%)等。
对假阳性中“复杂性不足”子集的进一步审查显示,在随后未实际接受外科共管服务的15例患者中,仍有40%明确满足分诊标准,提示工具在某些情况下可能比医生更准确地识别了潜在获益患者。

四、研究结论与启示
1、主要结论
本研究成功部署并前瞻性评估了一个集成于电子病历的大语言模型驱动外科分诊工具,证实其在真实临床环境中能够以高敏感性、中等特异性自动化识别适合外科共管的患者。部署6个月期间,工具未引发任何患者安全事件,绝大多数分诊差异源于临床标准不完善、流程设计局限性或医生实践差异,而非大语言模型自身错误。
2、对AI临床部署的启示
●人在环设计是安全部署的关键:“外科共管导航工具”将大语言模型输出作为决策支持而非自主决策,保留了医生最终判断权,有效规避了自动化风险。
●标准化与个性化之间的张力:工具统一应用证据标准,有助于减少医生间实践差异;但医生对“复杂性”的主观判断差异提示,AI系统需在标准化与临床灵活性之间取得平衡。
●真实世界部署的挑战:成功部署不仅依赖技术准确性,更需要多利益相关方参与(医生、运营、IT)、与现有工作流深度整合、持续反馈机制以及对组织特有流程的深入理解。
3、局限性与未来方向
本研究存在单中心设计、医生反馈率中等(18%)、未全面评估临床结局等局限。未来研究应聚焦:
●工具对患者结局(并发症、再入院、住院时长)的影响;
●对医生工作负担与满意度的改善;
●更广泛的外科科室与医疗机构推广;
●进一步优化分诊标准与提示,降低假阳性率,向更高自动化迈进。

五、总体评价
本研究是大语言模型在真实临床工作流中集成与前瞻性评估的典范之作。它不仅展示了大语言模型在结构化临床决策支持任务中的高效性,更通过严谨的误差分析与人工审查,揭示了AI临床部署中技术、流程、人因三者交织的复杂性。“外科共管导航工具”的成功,为未来AI辅助临床工作流的规模化、安全化部署提供了宝贵的实践框架与经验参照;为医疗AI从“实验室演示”走向“真实临床部署”提供了可复制的模板:技术可靠只是基础,机构适应性、利益相关方协同和持续安全监控才是落地关键。对于希望在围手术期管理、住院服务或类似高认知任务中引入AI的医疗机构而言,本研究具有极高的参考价值。



You can't change the people around you, but you can change the people around you. 你无法改变身边的人,但你可以选择,谁留在你身边。早上好!
