图片

一、研究背景与问题提出

近年来,大语言模型在医学领域的应用迅速扩展,涵盖电子病历分析、诊断支持、临床文档生成、患者沟通等多个方面。多家科技公司积极推广其大语言模型产品用于患者诊疗场景,并强调其在各类医学考试中的高分表现。然而,现有评估大多基于多项选择题形式的标准化考试(如美国执业医师资格考试),这种方式虽然易于量化,却无法真实反映临床推理的复杂性、动态性和不确定性。

临床推理不仅仅是知识的检索与应用,更包括在信息不完整的情况下生成鉴别诊断、合理选择辅助检查、动态调整诊断假设、制定治疗方案以及在不确定性中做出临床决策等能力。当前缺乏一个能够全面、纵向评估大语言模型在完整临床工作流程中推理能力的标准化指标。为此,本研究提出了大语言模型医学评估比例指数,旨在通过多维度的综合评分,衡量大语言模型在不同临床推理阶段的表现,并揭示了传统评估方法掩盖的关键能力短板。

图片

二、研究方法

2.1 研究设计

本研究为横断面研究,时间跨度为20251月至12月,使用20251月更新的《默克诊疗手册》专业版中的29个标准化临床案例,对21个主流大语言模型进行评估。每个案例均按标准临床工作流程依次呈现:病史、体格检查、实验室检查等信息,并依次包含五个推理领域的问题:

1)鉴别诊断

2)诊断性检查

3)最终诊断

4)治疗方案

5)其他临床推理相关问题(如风险评估、预后判断等)

2.2 评估模型

研究涵盖了来自OpenAIAnthropicDeepSeekGoogle DeepMindxAI等五大开发商的21个模型,包括GPT系列(如GPT-4oGPT-5)、Claude系列(如Claude 4.5 Opus)、DeepSeek V3/R1Gemini系列(如Gemini 3.0 Pro)以及Grok 3Grok 4。模型通过APIWeb界面进行调用,关闭了联网搜索和图像识别等增强功能,以评估其出厂设置下的基础推理能力即,评估的是大语言模型的裸模型能力)。

2.3大语言模型医学评估比例指数评分体系

“大语言模型医学评估比例指数”评分是本研究提出的核心指标。它将模型在五个推理领域的准确率绘制为雷达图,计算多边形面积,并与完美模型(各领域均为100%准确率)的面积比值作为最终得分。该评分方法奖励均衡发展的推理能力,惩罚在某一领域的严重短板。

2.4 评分与统计方法

模型输出的自由文本由医学生评估者根据标准答案进行评分,完全正确才计分。每个案例重复三次以控制随机性。统计分析包括方差分析、t检验、图基HSD事后检验、混合效应回归等。

图片

三、主要结果

3.1 “大语言模型医学评估比例指数评分总体情况

21个模型的大语言模型医学评估比例指数评分范围为0.640.78,最高分为Grok 40.78),最低分为Gemini 1.5 Flash0.64)。相比传统总体准确率(均在0.810.90之间), 大语言模型医学评估比例指数评分显示出更强的区分能力。传统准确率未能有效区分模型之间的推理质量差异,而大语言模型医学评估比例指数则揭示了显著的能力梯度。

3.2 各领域表现差异

在所有模型中,鉴别诊断领域表现最差,失败率普遍超过0.80(即80%以上的问题未能完全正确回答)。相比之下,最终诊断领域表现最佳,失败率低于0.40(多数在0.090.39之间)。诊断性检查、治疗和其他推理问题的表现居中。

这种高最终诊断准确率、低鉴别诊断能力的强烈反差,表明大语言模型倾向于快速收敛到一个答案,而非像临床医生那样保持多种可能性并逐步排除。这种推理模式在面对不确定性和复杂病例时存在重大风险。

图片

3.3 推理优化模型vs.非推理模型

研究将模型分为推理优化模型(如GPT-5Claude 4.5 OpusGrok 4等)和非推理模型。推理优化模型的平均大语言模型医学评估比例指数评分为0.76,显著高于非推理模型的0.67p < 0.001),效应量极大(Cohen d = 2.60)。然而,即使推理优化模型,在鉴别诊断领域的短板依然显著,说明当前技术仍未从根本上解决这一问题。

3.4 多模态能力

18个具备图像理解能力的模型中,部分模型(如GPT-4.5Gemini 3.0 ProGrok 4)在处理含图像的问题(如X光片、CT、心电图)时准确率显著高于纯文本问题,提升幅度约为510个百分点。但多数模型并未显示出显著差异,整体多模态能力仍不稳定,距离可靠处理临床图像数据尚有较大距离。

3.5 模型失败率与患者人口学特征

模型在不同年龄段的失败率存在差异:青年和中年患者的病例中,大语言模型在鉴别诊断和治疗方面的失败率更高;儿科病例的失败率相对较低(除鉴别诊断外)。未发现基于患者性别的一致性差异。

3.6 回归分析结果

混合效应回归显示,最终诊断类问题的准确率显著高于参照组β=0.13),而鉴别诊断类问题显著低于参照组β=-0.08)。推理优化模型的表现显著优于非推理模型(β=0.04),而患者年龄和性别对模型准确率无显著影响。

图片

四、讨论与启示

4.1 传统评估方法的局限

本研究明确指出,仅依靠多项选择题考试或总体准确率评估大语言模型的临床能力,会掩盖其在关键推理环节的严重缺陷。大语言模型医学评估比例指数评分体系提供了一个更具临床意义的评估标准,能够暴露模型在不确定性管理、多假设推理等方面的短板。

4.2 大语言模型推理模式的本质差异

临床医生的推理是迭代、保守、分布式的,始终保持多个鉴别诊断并在新信息下动态调整。而当前大语言模型则表现出过早收敛的倾向,倾向于快速跳到一个最可能的答案。这种模式在面对典型病例时尚可取得不错的最终诊断准确率,但在复杂、罕见或信息不完整的病例中则极易出错。

4.3 对临床部署的警示

尽管部分模型在最终诊断任务上表现亮眼,但研究作者强烈警告:当前通用型、出厂设置的大语言模型尚未具备安全应用于患者诊疗的推理能力。厂商的宣传往往夸大其在考试中的表现,而忽略了临床真实场景中的不确定性。盲目部署可能导致临床错误,甚至侵蚀医疗系统赖以保护患者安全的推理防线。

4.4 负责任的使用建议

研究建议,大语言模型目前在临床中的最负责任角色是:在低不确定性任务中、在医生严格监督下作为辅助工具使用,例如辅助生成初步笔记、文献检索、简单问答等。不应将其作为独立的诊断或治疗决策系统。

图片

五、研究局限

本研究具有以下局限性:

1、模型配置受限:关闭了联网搜索、检索增强生成等增强功能,评估的是基础推理能力,而非最大潜力。

2、数据泄露风险MSD Manual案例为公开资源,不能完全排除部分模型在预训练阶段已接触过这些内容。

3、缺乏人类比较:研究未设计大语言模型与人类医师的直接对比,因此不能直接推断大语言模型是否优于劣于人类。

4、接口差异:部分模型通过API访问,部分通过Web界面,可能存在上下文管理方式的差异。

图片

六、结论

本研究首次系统评估了21个主流大语言模型在完整临床工作流程中的纵向推理能力,提出了大语言模型医学评估比例指数评分这一多维评估指标。研究发现,尽管大语言模型在最终诊断任务上表现良好,但在鉴别诊断和不确定性管理等关键环节存在系统性、持续的严重缺陷。推理优化模型虽有改进,但并未根本解决问题。研究呼吁:在大语言模型真正具备安全、可靠的临床推理能力之前,应谨慎对待厂商的宣传,避免过早投入高风险临床场景。大语言模型医学评估比例指数框架可作为未来模型评估和监管的有力工具。

如需要《大语言模型在临床推理任务中的表现》(英文,共12页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。

图片


图片

图片


★ 每日鲜鸡汤  ★

Listening deeply is more powerful than speaking loudly. 敛神深听,重于辞色之激越。早上好

图片