人类医生要被AI拉爆了?
5月12日,OpenAI联手全球60个国家,262名执业医生,打造出专为医疗大模型设计的AI医疗大模型标准——HealthBench。
根据测试,OpenAI最强推理模型GPT-o3,直接力压Grok 3和Gemini 2.5 Pro,比人类医生的回答率高出4倍。
与此前过时的数据集不同,该基准包含了5000个基于现实场景的健康对话,并且获得了医生评分反馈。
也就是说,该评分体系能够衡量AI的可信度和临床价值,而不是AI做题的能力和回答流畅度。
当该评价基准如同ImageNet推广开后,一个AI医疗新时代,真的来了。
定义行业新标准
作为全球AI领头羊,OpenAI来定义AI医疗新基准了。
一个好的AI测试集对于技术发展非常重要,例如ImageNet挑战赛直接推动了深度学习革命。
但当前,以各种医学问答、执业医生考试为主的医学测试集过于僵化,不能代表医生真实的临床工作,导致AI应用受限。
于是,OpenAI团队基于以下原则打造出HealthBench:
有意义(Meaningful):即能够突破考试问题的局限,捕捉复杂的真实场景和工作流程,反映了患者和临床医生与模型交互的方式
值得信赖(Trustworthy):评分能够真实体现医生判断,反映医护人员的行业标准和优先事项,为改进 AI 模型提供严格的基础。
未饱和(Unsaturated):基准测试将推动行业进步。现有模型必须展现巨大的改进空间,持续激励开发者持续改进AI性能
HealthBench耗时一年,由来自60个国家/地区的262位执业医生共同打造,支持包括英语、普通话在内的49种语言,以及26个医学专业。

它们被创建为逼真且类似于大型语言模型的实际使用:它们是多轮次和多语言的,捕获一系列外行和医疗保健提供者角色,跨越一系列医学专业和上下文,并根据难度进行选择。
此外,HealthBench 对话分为七个主题,每个主题都包含相关示例,每个示例都有特定的评分量规标准。

与以前的狭窄基准不同,HealthBench涵盖了多个维度,力求全面衡量模型性能。它们主要包括“场景”和“轴”两类。
场景即7个真实世界的主题,包括全球健康、紧急转诊等,轴则着重测试模式的行为维度,包括准确性、遵循指示、沟通等。
模型性能
根据测试,GPT-o3 的表现优于其他AI,得分明显高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。(截至2025年3月)。


值得一提的是,OpenAI 的前沿模型在 HealthBench 上提高了 28%。
与 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之间的相比,在模型安全性和性能上实现飞跃。
成本与准确性
除开性能外,OpenAI还根据模型大小和测试时计算指标,研究了成本与性能的关系。
结果发现,小模型在最近几个月,有了显着改进。大模型也成本与性能也遵循摩尔定律。
例如,2025年4月发布的GPT-4.1 nano 的性能,优于 2024 年 8 月的 GPT-4o 模型,并且成本仅有其1/25。
当下OpenAI的最强推理模型GPT-o3之间的差异,显著打羽GPT-4o和GPT-3.5Turbo之间的差异。

由于行业的特殊性,医疗AI对于回答的错误容忍率非常低。
因此,OpenAI在HealthBench上评估了各模型在k个样本下的最差表现(worst-of-n performance)。结果发现,o3模型在16个样本时的最差分数是GPT-4o的两倍。

挑战人类医生
在真实对话的数据集测评中,AI有可能战胜人类医生吗?
OpenAI对此也非常好奇,找来了262名医生参与测试,以比较 AI 模型性能与专家临床判断。
OpenAI把参与测试的262位人类医生分为两组,并和AI回答进行比较。
1、第一组医生可以使用互联网进行回复,但不能使用AI工具
2、第二组医生能够使用OpenAI的模型,医生能够对生成的答案进行改编,以及编写新的答案
结果发现随着时间的推移,AI模型性能进化迅速,人类医生也甘拜下风。

2024年9月,OpenAI测试了GPT-o1-preview和GPT-4o。
结果发现,AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。
也就是说人类医生对进行编辑后,明显提升了AI的回答质量。
而到了2025年4月测试GPT-o3 和 GPT-4.1 ,情况有了巨大改变。
AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。
这表明AI不仅比人类医生强,还比使用相同AI工具的人类医生强,人类甚至限制了AI的回答!
OpenAI的AGI野心
HealthBench基准数据集已在GitHub全面上传。
除本体外,OpenAI还引入了HealthBench 的两种变体——HealthBench Consensus和 HealthBench Hard。
HealthBench Consensus的回答经过绝大多数医生验证,几乎保证了答案的准确度。HealthBench Hard则优选其中 1,000 高难度问题,即使是最好的模型在该标准中得分率也仅为32%,也是AI可以努力的重要方向。
可以说,HealthBench重新定义了AI在医疗领域的评估方式——转向了以大模型为基础的现实世界评估,这也是打造AGI的重要工具。
而随着时间的推移,大型语言模型已经有了显著的改进,并且在编写基准测试的答案已经优于人类专家。
不止于此,当前表现最优的AI仍然有很大的改进空间。
而该评价体系的发布,有望帮助整个行业和学界打造出更好的医疗模型,改善人类健康。