《大语言模型在临床推理任务中的表现》

一、研究背景与问题提出

近年来，大语言模型在医学领域的应用迅速扩展，涵盖电子病历分析、诊断支持、临床文档生成、患者沟通等多个方面。多家科技公司积极推广其大语言模型产品用于患者诊疗场景，并强调其在各类医学考试中的高分表现。然而，现有评估大多基于多项选择题形式的标准化考试（如美国执业医师资格考试），这种方式虽然易于量化，却无法真实反映临床推理的复杂性、动态性和不确定性。

临床推理不仅仅是知识的检索与应用，更包括在信息不完整的情况下生成鉴别诊断、合理选择辅助检查、动态调整诊断假设、制定治疗方案以及在不确定性中做出临床决策等能力。当前缺乏一个能够全面、纵向评估大语言模型在完整临床工作流程中推理能力的标准化指标。为此，本研究提出了“大语言模型医学评估比例指数”，旨在通过多维度的综合评分，衡量大语言模型在不同临床推理阶段的表现，并揭示了传统评估方法掩盖的关键能力短板。

二、研究方法

2.1 研究设计

本研究为横断面研究，时间跨度为2025年1月至12月，使用2025年1月更新的《默克诊疗手册》专业版中的29个标准化临床案例，对21个主流大语言模型进行评估。每个案例均按标准临床工作流程依次呈现：病史、体格检查、实验室检查等信息，并依次包含五个推理领域的问题：

（1）鉴别诊断

（2）诊断性检查

（3）最终诊断

（4）治疗方案

（5）其他临床推理相关问题（如风险评估、预后判断等）

2.2 评估模型

研究涵盖了来自OpenAI、Anthropic、DeepSeek、Google DeepMind和xAI等五大开发商的21个模型，包括GPT系列（如GPT-4o、GPT-5）、Claude系列（如Claude 4.5 Opus）、DeepSeek V3/R1、Gemini系列（如Gemini 3.0 Pro）以及Grok 3和Grok 4。模型通过API或Web界面进行调用，关闭了联网搜索和图像识别等增强功能，以评估其“出厂设置”下的基础推理能力（即，评估的是大语言模型的“裸模型能力”）。

2.3大语言模型医学评估比例指数评分体系

“大语言模型医学评估比例指数”评分是本研究提出的核心指标。它将模型在五个推理领域的准确率绘制为雷达图，计算多边形面积，并与“完美模型”（各领域均为100%准确率）的面积比值作为最终得分。该评分方法奖励均衡发展的推理能力，惩罚在某一领域的严重短板。

2.4 评分与统计方法

模型输出的自由文本由医学生评估者根据标准答案进行评分，完全正确才计分。每个案例重复三次以控制随机性。统计分析包括方差分析、t检验、图基HSD事后检验、混合效应回归等。

三、主要结果

3.1 “大语言模型医学评估比例指数”评分总体情况

21个模型的“大语言模型医学评估比例指数”评分范围为0.64～0.78，最高分为Grok 4（0.78），最低分为Gemini 1.5 Flash（0.64）。相比传统总体准确率（均在0.81～0.90之间）， “大语言模型医学评估比例指数”评分显示出更强的区分能力。传统准确率未能有效区分模型之间的推理质量差异，而“大语言模型医学评估比例指数”则揭示了显著的能力梯度。

3.2 各领域表现差异

在所有模型中，鉴别诊断领域表现最差，失败率普遍超过0.80（即80%以上的问题未能完全正确回答）。相比之下，最终诊断领域表现最佳，失败率低于0.40（多数在0.09～0.39之间）。诊断性检查、治疗和其他推理问题的表现居中。

这种“高最终诊断准确率、低鉴别诊断能力”的强烈反差，表明大语言模型倾向于快速收敛到一个答案，而非像临床医生那样保持多种可能性并逐步排除。这种推理模式在面对不确定性和复杂病例时存在重大风险。

3.3 推理优化模型vs.非推理模型

研究将模型分为“推理优化模型”（如GPT-5、Claude 4.5 Opus、Grok 4等）和“非推理模型”。推理优化模型的平均“大语言模型医学评估比例指数”评分为0.76，显著高于非推理模型的0.67（p < 0.001），效应量极大（Cohen d = 2.60）。然而，即使推理优化模型，在鉴别诊断领域的短板依然显著，说明当前技术仍未从根本上解决这一问题。

3.4 多模态能力

在18个具备图像理解能力的模型中，部分模型（如GPT-4.5、Gemini 3.0 Pro、Grok 4）在处理含图像的问题（如X光片、CT、心电图）时准确率显著高于纯文本问题，提升幅度约为5～10个百分点。但多数模型并未显示出显著差异，整体多模态能力仍不稳定，距离可靠处理临床图像数据尚有较大距离。

3.5 模型失败率与患者人口学特征

模型在不同年龄段的失败率存在差异：青年和中年患者的病例中，大语言模型在鉴别诊断和治疗方面的失败率更高；儿科病例的失败率相对较低（除鉴别诊断外）。未发现基于患者性别的一致性差异。

3.6 回归分析结果

混合效应回归显示，最终诊断类问题的准确率显著高于参照组（β=0.13），而鉴别诊断类问题显著低于参照组（β=-0.08）。推理优化模型的表现显著优于非推理模型（β=0.04），而患者年龄和性别对模型准确率无显著影响。

四、讨论与启示

4.1 传统评估方法的局限

本研究明确指出，仅依靠多项选择题考试或总体准确率评估大语言模型的临床能力，会掩盖其在关键推理环节的严重缺陷。“大语言模型医学评估比例指数”评分体系提供了一个更具临床意义的评估标准，能够暴露模型在不确定性管理、多假设推理等方面的短板。

4.2 大语言模型推理模式的本质差异

临床医生的推理是迭代、保守、分布式的，始终保持多个鉴别诊断并在新信息下动态调整。而当前大语言模型则表现出过早收敛的倾向，倾向于快速跳到一个“最可能”的答案。这种模式在面对典型病例时尚可取得不错的最终诊断准确率，但在复杂、罕见或信息不完整的病例中则极易出错。

4.3 对临床部署的警示

尽管部分模型在最终诊断任务上表现亮眼，但研究作者强烈警告：当前通用型、出厂设置的大语言模型尚未具备安全应用于患者诊疗的推理能力。厂商的宣传往往夸大其在考试中的表现，而忽略了临床真实场景中的不确定性。盲目部署可能导致临床错误，甚至侵蚀医疗系统赖以保护患者安全的推理防线。

4.4 负责任的使用建议

研究建议，大语言模型目前在临床中的最负责任角色是：在低不确定性任务中、在医生严格监督下作为辅助工具使用，例如辅助生成初步笔记、文献检索、简单问答等。不应将其作为独立的诊断或治疗决策系统。

五、研究局限

本研究具有以下局限性：

1、模型配置受限：关闭了联网搜索、检索增强生成等增强功能，评估的是基础推理能力，而非最大潜力。

2、数据泄露风险：MSD Manual案例为公开资源，不能完全排除部分模型在预训练阶段已接触过这些内容。

3、缺乏人类比较：研究未设计大语言模型与人类医师的直接对比，因此不能直接推断大语言模型是否“优于”或“劣于”人类。

4、接口差异：部分模型通过API访问，部分通过Web界面，可能存在上下文管理方式的差异。

六、结论

本研究首次系统评估了21个主流大语言模型在完整临床工作流程中的纵向推理能力，提出了“大语言模型医学评估比例指数”评分这一多维评估指标。研究发现，尽管大语言模型在最终诊断任务上表现良好，但在鉴别诊断和不确定性管理等关键环节存在系统性、持续的严重缺陷。推理优化模型虽有改进，但并未根本解决问题。研究呼吁：在大语言模型真正具备安全、可靠的临床推理能力之前，应谨慎对待厂商的宣传，避免过早投入高风险临床场景。“大语言模型医学评估比例指数”框架可作为未来模型评估和监管的有力工具。

如需要《大语言模型在临床推理任务中的表现》（英文，共12页），请在本微信公众号中赞赏（点喜欢或稀罕作者后按本公众号设定打赏）后，发来email地址索取。

★ 每日鲜鸡汤 ★

Listening deeply is more powerful than speaking loudly. 敛神深听，重于辞色之激越。早上好！

《大语言模型在临床推理任务中的表现》

《基于元谓词与领域特定语言的可信临床决策支持》

《基于视频的手术时序映射的视觉语言模型与平台》

《手术AI的比较研究：数据集、基础模型与医疗AGI的障碍》

技术报告：《“医疗杰玛 1.5”：统一架构下的医疗多模态基础模型》

《人工智能的流行病学