
一、研究背景与问题提出
近年来,大语言模型在医学领域的应用迅速扩展,涵盖电子病历分析、诊断支持、临床文档生成、患者沟通等多个方面。多家科技公司积极推广其大语言模型产品用于患者诊疗场景,并强调其在各类医学考试中的高分表现。然而,现有评估大多基于多项选择题形式的标准化考试(如美国执业医师资格考试),这种方式虽然易于量化,却无法真实反映临床推理的复杂性、动态性和不确定性。
临床推理不仅仅是知识的检索与应用,更包括在信息不完整的情况下生成鉴别诊断、合理选择辅助检查、动态调整诊断假设、制定治疗方案以及在不确定性中做出临床决策等能力。当前缺乏一个能够全面、纵向评估大语言模型在完整临床工作流程中推理能力的标准化指标。为此,本研究提出了“大语言模型医学评估比例指数”,旨在通过多维度的综合评分,衡量大语言模型在不同临床推理阶段的表现,并揭示了传统评估方法掩盖的关键能力短板。

二、研究方法
2.1 研究设计
本研究为横断面研究,时间跨度为2025年1月至12月,使用2025年1月更新的《默克诊疗手册》专业版中的29个标准化临床案例,对21个主流大语言模型进行评估。每个案例均按标准临床工作流程依次呈现:病史、体格检查、实验室检查等信息,并依次包含五个推理领域的问题:
(1)鉴别诊断
(2)诊断性检查
(3)最终诊断
(4)治疗方案
(5)其他临床推理相关问题(如风险评估、预后判断等)
2.2 评估模型
研究涵盖了来自OpenAI、Anthropic、DeepSeek、Google DeepMind和xAI等五大开发商的21个模型,包括GPT系列(如GPT-4o、GPT-5)、Claude系列(如Claude 4.5 Opus)、DeepSeek V3/R1、Gemini系列(如Gemini 3.0 Pro)以及Grok 3和Grok 4。模型通过API或Web界面进行调用,关闭了联网搜索和图像识别等增强功能,以评估其“出厂设置”下的基础推理能力(即,评估的是大语言模型的“裸模型能力”)。
2.3大语言模型医学评估比例指数评分体系
“大语言模型医学评估比例指数”评分是本研究提出的核心指标。它将模型在五个推理领域的准确率绘制为雷达图,计算多边形面积,并与“完美模型”(各领域均为100%准确率)的面积比值作为最终得分。该评分方法奖励均衡发展的推理能力,惩罚在某一领域的严重短板。
2.4 评分与统计方法
模型输出的自由文本由医学生评估者根据标准答案进行评分,完全正确才计分。每个案例重复三次以控制随机性。统计分析包括方差分析、t检验、图基HSD事后检验、混合效应回归等。

三、主要结果
3.1 “大语言模型医学评估比例指数”评分总体情况
21个模型的“大语言模型医学评估比例指数”评分范围为0.64~0.78,最高分为Grok 4(0.78),最低分为Gemini 1.5 Flash(0.64)。相比传统总体准确率(均在0.81~0.90之间), “大语言模型医学评估比例指数”评分显示出更强的区分能力。传统准确率未能有效区分模型之间的推理质量差异,而“大语言模型医学评估比例指数”则揭示了显著的能力梯度。
3.2 各领域表现差异
在所有模型中,鉴别诊断领域表现最差,失败率普遍超过0.80(即80%以上的问题未能完全正确回答)。相比之下,最终诊断领域表现最佳,失败率低于0.40(多数在0.09~0.39之间)。诊断性检查、治疗和其他推理问题的表现居中。
这种“高最终诊断准确率、低鉴别诊断能力”的强烈反差,表明大语言模型倾向于快速收敛到一个答案,而非像临床医生那样保持多种可能性并逐步排除。这种推理模式在面对不确定性和复杂病例时存在重大风险。

3.3 推理优化模型vs.非推理模型
研究将模型分为“推理优化模型”(如GPT-5、Claude 4.5 Opus、Grok 4等)和“非推理模型”。推理优化模型的平均“大语言模型医学评估比例指数”评分为0.76,显著高于非推理模型的0.67(p < 0.001),效应量极大(Cohen d = 2.60)。然而,即使推理优化模型,在鉴别诊断领域的短板依然显著,说明当前技术仍未从根本上解决这一问题。
3.4 多模态能力
在18个具备图像理解能力的模型中,部分模型(如GPT-4.5、Gemini 3.0 Pro、Grok 4)在处理含图像的问题(如X光片、CT、心电图)时准确率显著高于纯文本问题,提升幅度约为5~10个百分点。但多数模型并未显示出显著差异,整体多模态能力仍不稳定,距离可靠处理临床图像数据尚有较大距离。
3.5 模型失败率与患者人口学特征
模型在不同年龄段的失败率存在差异:青年和中年患者的病例中,大语言模型在鉴别诊断和治疗方面的失败率更高;儿科病例的失败率相对较低(除鉴别诊断外)。未发现基于患者性别的一致性差异。
3.6 回归分析结果
混合效应回归显示,最终诊断类问题的准确率显著高于参照组(β=0.13),而鉴别诊断类问题显著低于参照组(β=-0.08)。推理优化模型的表现显著优于非推理模型(β=0.04),而患者年龄和性别对模型准确率无显著影响。

四、讨论与启示
4.1 传统评估方法的局限
本研究明确指出,仅依靠多项选择题考试或总体准确率评估大语言模型的临床能力,会掩盖其在关键推理环节的严重缺陷。“大语言模型医学评估比例指数”评分体系提供了一个更具临床意义的评估标准,能够暴露模型在不确定性管理、多假设推理等方面的短板。
4.2 大语言模型推理模式的本质差异
临床医生的推理是迭代、保守、分布式的,始终保持多个鉴别诊断并在新信息下动态调整。而当前大语言模型则表现出过早收敛的倾向,倾向于快速跳到一个“最可能”的答案。这种模式在面对典型病例时尚可取得不错的最终诊断准确率,但在复杂、罕见或信息不完整的病例中则极易出错。
4.3 对临床部署的警示
尽管部分模型在最终诊断任务上表现亮眼,但研究作者强烈警告:当前通用型、出厂设置的大语言模型尚未具备安全应用于患者诊疗的推理能力。厂商的宣传往往夸大其在考试中的表现,而忽略了临床真实场景中的不确定性。盲目部署可能导致临床错误,甚至侵蚀医疗系统赖以保护患者安全的推理防线。
4.4 负责任的使用建议
研究建议,大语言模型目前在临床中的最负责任角色是:在低不确定性任务中、在医生严格监督下作为辅助工具使用,例如辅助生成初步笔记、文献检索、简单问答等。不应将其作为独立的诊断或治疗决策系统。

五、研究局限
本研究具有以下局限性:
1、模型配置受限:关闭了联网搜索、检索增强生成等增强功能,评估的是基础推理能力,而非最大潜力。
2、数据泄露风险:MSD Manual案例为公开资源,不能完全排除部分模型在预训练阶段已接触过这些内容。
3、缺乏人类比较:研究未设计大语言模型与人类医师的直接对比,因此不能直接推断大语言模型是否“优于”或“劣于”人类。
4、接口差异:部分模型通过API访问,部分通过Web界面,可能存在上下文管理方式的差异。

六、结论
本研究首次系统评估了21个主流大语言模型在完整临床工作流程中的纵向推理能力,提出了“大语言模型医学评估比例指数”评分这一多维评估指标。研究发现,尽管大语言模型在最终诊断任务上表现良好,但在鉴别诊断和不确定性管理等关键环节存在系统性、持续的严重缺陷。推理优化模型虽有改进,但并未根本解决问题。研究呼吁:在大语言模型真正具备安全、可靠的临床推理能力之前,应谨慎对待厂商的宣传,避免过早投入高风险临床场景。“大语言模型医学评估比例指数”框架可作为未来模型评估和监管的有力工具。
如需要《大语言模型在临床推理任务中的表现》(英文,共12页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



Listening deeply is more powerful than speaking loudly. 敛神深听,重于辞色之激越。早上好!
