《“代码诊所”：临床推理智能体编码技能的自动化评估》

一、背景与动机

近年来，以大语言模型（LLM）为核心的临床推理智能体在医疗人工智能领域展现出巨大潜力。这些智能体被期望能够自动完成诸如重症监护室（ICU）患者状态监测、脓毒症筛查、器官功能评估等复杂任务。然而，现有系统普遍面临两个关键瓶颈：一是依赖专家手工构建的临床工具库，维护成本高且难以跨机构推广；二是采用零样本代码生成方式时，智能体往往产生低效、不可靠且缺乏复用性的推理链条，尤其在面对不同医疗机构的特定政策时表现不佳。

为系统评估和推动这一领域的发展，本文作者提出了“代码诊所”基准（这里的“代码”不单指普通代码，而是临床推理代码、电子病历查询编码、诊疗逻辑脚本；这里的“诊所”不是普通小诊所，而是取临床诊疗、临床研判、临床实训评测之意）。该基准基于公开的MIMIC-IV重症监护数据库，旨在检验LLM智能体是否能够自主合成与组合可复用的临床技能，而非仅依赖固定工具库。同时，本文提出了一种临床自动化形式化基线方法，通过离线迭代优化将自然语言的临床指南转化为经过验证的Python函数库。

二、“代码诊所”基准设计

“代码诊所”包含两大互补任务：纵向ICU监测与组合式信息查询。这两项任务分别考察智能体在时间维度上的状态跟踪能力与在多步推理中的概念组合能力。

2.1 纵向ICU监测任务

该任务模拟了医生在ICU中对患者进行连续监测的过程。研究团队从MIMIC-IV中筛选出约46,000次ICU住院记录（至少48小时），并将每次住院切分为每4小时一个决策点，共13个时间步。在每个时间步，智能体必须基于截止到当前时刻的数据（无未来信息）输出结构化决策，包括：疑似病症集合、警报集合、全局动作（继续监测或升级护理）以及优先级。

任务覆盖8大临床类别（如感染与脓毒症、肾损伤、呼吸支持、血流动力学、神经功能等），共25种典型ICU监测发现。标签生成采用确定性规则，区分了单调性概念（如感染一旦触发则持续活跃）与非单调性概念（如机械通气仅在干预进行时活跃）。这种设计迫使智能体不仅要记住历史状态，还要理解不同临床概念的时间语义。

该任务的评价指标包括：全局动作准确率、优先级准确率、疑似病症与警报集合的宏F1分数，以及轨迹准确率（所有时间步全局动作完全正确的住院比例）。轨迹准确率尤为严格——任何一个时间步的错误都会导致整条轨迹失败。

2.2 组合式信息查询任务

该任务构建了一个大规模临床问答基准，覆盖MIMIC-IV衍生模式中的63个临床概念，分属9个领域（如实验室检查、器官衰竭评分、脓毒症变量、ICU治疗等）。这些概念之间构成有向无环依赖图（DAG），例如序贯器官衰竭评估（SOFA）评分依赖于多个子概念。

基于依赖深度，概念被划分为三个难度等级：

等级 1（无上游依赖）：如生命体征、去甲肾上腺素使用；
等级 2（一层聚合）：如通气状态、肌酐基线；
等级3+（多层组合）：如SOFA评分、Sepsis-3标准。

任务共生成约63,000个查询实例（含6,300训练 / 56,700测试），涵盖比较、聚合、时间、直接、计数、衍生、比例、算术等多种问题类型。每个概念仅使用10%的数据（约100例）作为验证集，模拟真实临床场景中标注数据稀缺且昂贵的条件。

三、基线方法：临床自动化形式化

论文提出的核心基线方法是一种离线自动化形式化管道，其目标是将自然语言的临床指南转化为可复用、可验证的Python函数库。整个过程分为三个阶段：

3.1 工具生成阶段

系统为一个LLM智能体提供代码解释器环境，并开放三个工具：数据库查询、检索临床指南、查找已有函数。智能体通过ReACT风格的推理-行动循环，自主探索数据库模式、查阅指南、编写目标概念的Python函数。

3.2 验证阶段

候选函数在10%的训练/验证数据上进行评估。若准确率达到阈值θ=0.90，则被接受并存入共享库；否则，将错误轨迹作为结构化反馈返回给智能体进行下一轮迭代。最终保留各轮中性能最佳的函数。

3.3 推理阶段

在测试时，智能体不再需要重复探索数据库或重新推导临床规则，而是直接调用已构建的、经过验证的函数库。该设计显著降低了每次查询的词元消耗，且保证了同一患者多次查询结果的一致性，这对临床可重复性至关重要。

四、实验与主要发现

本文评估了多个前沿模型（如Claude-Sonnet-4.6、Gemini-Pro-3.1、GPT-5.4）和开源模型（如Qwen3.5系列、Gemma4-31B），并对比了零样本方法、组相对策略优化（GRPO）微调方法与自动化形式化方法。

4.1 纵向监测任务结果

状态跟踪困难：即使最强模型（Claude-Sonnet-4.6）的轨迹准确率也仅为34.0%，尽管其时间步平均准确率达76.2%。这表明智能体难以同时处理单调性与非单调性临床概念的时间演化。
疾病识别难于动作决策：所有模型的全局动作准确率（25–76%）显著高于疑似病症F1（18–43%）和警报F1（22–47%）。智能体更容易判断“是否需要升级”，但难以精确刻画多器官的完整状态。
自动化形式化的提升作用：配备预验证函数库的模型在大多数情况下优于零样本版本，且词元效率普遍提升。预验证函数编码了正确的临床时间语义，减少了每个时间步的重复错误。

4.2 组合式信息查询任务结果

整体挑战性高：最佳模型（Claude-Sonnet-4.6）总体准确率仅为53.1%，远未达到专家水平，表明基于真实电子病历数据库的临床信息检索仍有很大提升空间。
难度分层有效：从等级1到等级 3+，所有模型的准确率均呈系统性下降（下降幅度约14–21个百分点），验证了依赖深度作为推理难度的有效智能体指标。例如，回答Sepsis-3问题需要同时正确计算SOFA子评分、感染标准与抗生素时机。
自动化形式化 vs. 强化微调：GRPO微调在等级 1任务上有所提升，但在需要深层组合推理的等级2+任务上性能下降。相比之下，自动化形式化在不更新模型参数的情况下取得了与微调相当甚至更优的性能，并将每次查询的词元消耗量降低约23%。

4.3 跨模型一致性与效率

无论模型规模大小，自动化形式化库均带来了稳定的准确率提升和词元效率改善，尤其对小型模型受益更明显。这表明该方法的增益主要来源于经过验证的函数库本身，而非特定模型的能力，因此具有较好的通用性。

五、局限性与更广泛影响

论文坦诚指出了若干局限性：基准仅基于单一家美国学术医疗中心的数据（MIMIC-IV），自动化形式化函数可能无法直接迁移到其他机构的电子病历系统；验证集规模较小（每概念约100例），可能遗漏罕见边缘案例；临床指南由LLM从PubMed摘要生成，存在与真实临床文档的潜在偏差。

在更广泛影响方面，“代码诊所”有望降低部署LLM临床智能体所需的手工工程投入，并促进可验证、可复现的临床代码库的发展。但同时必须警惕：自动化抽取的临床概念若未经充分的本地验证，可能将错误传播至下游决策支持系统。此外，MIMIC-IV的人群偏向性可能导致函数库在少数群体或不同地域患者中表现下降。本文强烈建议任何实际部署前均应进行机构特定的验证。

六、总结

“代码诊所”不仅仅是一个评估基准，它更代表了一种全新的医疗AI构建范式。它证明了：未来的临床智能体不应是“全知全能”的通才，而应是“善假于物”的工匠。

通过将繁琐的、易出错的底层逻辑（如定义计算、数据提取）封装进经过验证的代码库，大模型可以将宝贵的计算资源集中在高层级的临床决策和复杂的病例分析上。这种“离线形式化、在线调用”的策略，不仅大幅降低了运营成本，更为解决医疗AI最棘手的幻觉问题和机构特定政策适配问题提供了切实可行的工程化解决方案。对于医疗AI开发者而言，从“提示工程”转向“工具工程”与“知识编译”，将是2026年之后制胜的关键。

如需要《“代码诊所”：临床推理智能体编码技能的自动化评估》（英文，共23页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

Do not waste time thinking about what you could have done differently. Keep your eyes on the road ahead and do it differently now. 莫为昨日之失，空耗今朝之光。过往已如烟云散，何苦沉溺于“本可以”的虚妄。且将目光投向远方，让前路成为新的诗行。此刻，便是重塑一切的序章。早上好！

《“代码诊所”：临床推理智能体编码技能的自动化评估》

《面向可解释疾病诊断的大语言模型不确定性推理》

《在医疗领域“大模型充当评判”：应用、方法与人机对齐的综合分析》

《“复杂交叉基准测试”：AI智能体能否自动化端到端、长时程、条款密度高的医疗工作流？》

《医疗超级智能架构

《AI优先的医疗机构将赢得未来》