《“复杂交叉基准测试”：AI智能体能否自动化端到端、长时程、条款密度高的医疗工作流？》

一、引言与问题背景

近年来，大语言模型驱动的AI智能体在自动化复杂任务方面展现出巨大潜力，尤其是在编码、网页操作等长时程任务中取得了显著进展。然而，现实中的医疗运营工作流，如事先授权、医疗资源利用管理、医疗管理，对智能体提出了三类现有基准测试尚未充分挑战的要求：

1、条款规则密度：智能体的每一步决策都必须依据大量的医疗、保险和运营规则。这些规则通常存储在一个庞大的策略库中，且随政策变化而更新。

2、多角色组合：一个完整的工作流需要在不同角色之间切换，例如从接待员到护士，再到医生。每次角色切换都是不可逆的，智能体必须掌握所有角色的领域知识并在上下文中无缝切换。

3、多边互动：工作流中的某些步骤并非简单的工具调用，而是多轮对话，例如医患沟通、同行评审等。智能体需要从实时对话中收集信息，并将其反馈到工作流中。

为了系统性地评估当前AI智能体在上述挑战下的能力，来自学术界和行业界的联合研究团队提出了“复杂交叉基准测试”——一个高保真、长时程、端到端的医疗工作流自动化基准测试。

二、“复杂交叉基准测试”的核心设计

“复杂交叉基准测试”构建了一个名为“复杂交叉世界引擎”的高保真模拟环境，该环境模拟了20个日常医疗应用系统，并通过87个MCP工具（模型上下文协议）暴露其功能。环境内包含约5000个活动记录、50个模拟患者和90个医务工作者。智能体通过调用这些工具来驱动工作流，如同真实员工操作软件一样。

2.1 三大任务领域

“复杂交叉基准测试”涵盖三个核心的医疗运营场景：

●医疗服务提供方事先授权：模拟医院或诊所向保险机构提交治疗请求的完整流程，包括验证保险、收集证据、提交文件、处理拒绝或补充信息请求，直至最终获得授权。

●支付方资源利用管理：模拟保险机构审核医疗服务请求的过程，包括分流、护士临床审查、医生审查、同行评审以及最终裁决。

●医疗管理：模拟注册护士对高风险患者进行长期管理，包括病历审查、患者外联、结构化评估以及制定个性化护理计划。

2.2 核心技能：管控式医疗保险操作手册

为了指导智能体完成上述复杂工作流，“复杂交叉基准测试”提供了一个庞大的技能库——管理式医疗操作手册。该手册包含1279个Markdown文档，由约翰斯·霍普金斯医学院的临床医生和运营专家共同开发，内容涵盖工作流、平台使用教程以及具体的医疗/保险政策。智能体必须主动查阅并正确引用该手册中的条款，才能做出合规的决策。

2.3 验证机制

每个任务的完成情况由一个双层验证器进行评分。第一层是确定性检查，验证智能体是否到达了正确的终态、生成了必要的工件；第二层是基于评分标准的LLM评判，由Claude Opus 4.7模型对智能体的临床推理、策略合规性等进行评分。一个任务只有同时通过两层验证才算成功。

三、实验结果与核心发现

研究团队评估了30种智能体框架与大模型的组合，包括前沿的商业模型和开源方案。在75个代表性任务上进行了系统测试，结果揭示了当前AI智能体的显著局限性。

3.1 整体表现不佳

●最佳配置（Claude Code + Claude Opus 4.6）在所有任务上的一次通过率（pass@1）仅为28.0%。

●当采用更严格的pass^3标准（即同一个任务连续三次试运行均成功）时，没有任何智能体组合的通过率超过20%。

在执行所有任务的“马拉松”模式（一个会话内完成所有25个任务）下，最佳配置的成功率暴跌至3.8%。

3.2 端到端双智能体协作失败

在模拟医疗服务提供方与保险支付方双智能体协同完成PA任务的“竞技场”测试中，原本单智能体通过率30.4%的任务，在双智能体协作场景下成功率直接降为0%。这表明，不同角色间的信息不对称和状态隔离对现有智能体构成了巨大挑战。

3.3 失败模式分析

通过对5886次失败试验的深入分析，本文归纳出五大主要失败类别：

1、临床推理错误：占比最高，达到35.4%。智能体虽然找到了正确的保险条款并调用了相关工具，但在应用临床判断时出错，例如错误评估了患者是否符合某项医疗必要性标准。

2、工作流未完成：占比23.3%。智能体在“即将成功”时停止，例如完成了所有文书工作，却忘记点击最终的“提交”按钮。

3、放弃或卡住：占比15.6%。智能体因超时、陷入循环或明确拒绝行动而无法完成任务。

4、策略合规性错误：占比13.2%。智能体错误地解读了手册中的文字条款，导致决策违反规定。

5、工具使用错误：占比10.7%。主要集中在部分开源框架上，一个小小格式错误的工具调用就会导致整个试验崩溃。

特别值得注意的是，在医疗管理任务中，智能体常常通过“问题挖掘”（反复换种说法询问）来迫使抗拒的患者最终同意，这虽然在形式上推动了流程，却严重违背了“以患者自主为先”的伦理原则。这表明，仅凭任务完成率作为成功标准是不够的。

3.4 保险条款手册的重要性

实验证明，智能体主动查阅保险条款手册的频率与其任务成功率呈强正相关。失败案例中，智能体平均只查阅了不到30%的所需条款文档。当移除或精简手册后，智能体在某些领域的表现甚至出现下降，因为它会陷入“过度验证”的循环。

四、局限性

本文作者也坦诚地指出了“复杂交叉基准测试”的局限性：

●模态单一：当前基准仅支持纯文本交互，而真实医疗工作常涉及影像、语音等多模态信息。

●领域覆盖有限：尽管已经覆盖了高影响力的工作流，但医疗行业仍有大量长尾流程未被纳入。

●评判模型单一：目前主要依赖Claude Opus 4.7作为LLM评判员，不同评判模型可能带来结果偏差。

五、结论与启示

“复杂交叉基准测试”通过构建一个高度真实、策略密集、角色耦合的医疗工作流模拟环境，对当前最先进的AI智能体进行了严苛的压力测试。结论清晰而有力：现有的AI智能体远未准备好自动化真实的、端到端的医疗运营任务。尽管它们在编码等结构化任务上表现出色，但在需要深厚领域知识、严谨策略遵从和复杂人际交互的医疗领域，差距依然巨大。

这项研究不仅为AI在医疗领域的应用设立了一个新的、更现实的标杆，更是一次重要的“警示”：在将AI智能体部署到影响患者生命健康的不可逆工作流之前，必须进行更加全面、审慎的评估。“复杂交叉基准测试”的发布，旨在揭示当前技术的真实能力边界，并推动整个领域向更可靠、更安全、更符合伦理的医疗自动化迈进。

本研究的意义在于，它将AI评测从“代码沙盒”拉回到了“现实世界”。对于开发者而言，未来的优化方向不应仅局限于模型上下文长度的增加，更应聚焦于增强AI在复杂状态机中的导航能力、提升多角色视角切换的逻辑一致性以及强化对海量外部知识库的精准检索与字面理解能力。只有跨过“复杂交叉基准测试”设置的这道高门槛，AI智能体才能真正从实验室走向医院、走向企业，成为可靠的生产力工具。

如需要《“复杂交叉基准测试”：AI智能体能否自动化端到端、长时程、条款密度高的医疗工作流？》（英文，共66页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

You have permission to rest. You are not responsible for fixing everything that is broken. You do not have to try and make everyone happy. For now, take time for you. It's time to replenish. 君自可休憩，毋须肩负天下残缺；亦不必竭力使众生皆悦。且暂敛心神，归于己身，任时光如泉，悄然滋养，复归丰盈。早上好！

《“复杂交叉基准测试”：AI智能体能否自动化端到端、长时程、条款密度高的医疗工作流？》

《面向可解释疾病诊断的大语言模型不确定性推理》

《在医疗领域“大模型充当评判”：应用、方法与人机对齐的综合分析》

《“代码诊所”：临床推理智能体编码技能的自动化评估》

《医疗超级智能架构

《AI优先的医疗机构将赢得未来》