性能登顶！GPT-o3碾压人类医生，OpenAI重新定义AI医疗行业新标准！

人类医生要被AI拉爆了？

5月12日，OpenAI联手全球60个国家，262名执业医生，打造出专为医疗大模型设计的AI医疗大模型标准——HealthBench。

根据测试，OpenAI最强推理模型GPT-o3，直接力压Grok 3和Gemini 2.5 Pro，比人类医生的回答率高出4倍。

与此前过时的数据集不同，该基准包含了5000个基于现实场景的健康对话，并且获得了医生评分反馈。

也就是说，该评分体系能够衡量AI的可信度和临床价值，而不是AI做题的能力和回答流畅度。

当该评价基准如同ImageNet推广开后，一个AI医疗新时代，真的来了。

定义行业新标准

作为全球AI领头羊，OpenAI来定义AI医疗新基准了。

一个好的AI测试集对于技术发展非常重要，例如ImageNet挑战赛直接推动了深度学习革命。

但当前，以各种医学问答、执业医生考试为主的医学测试集过于僵化，不能代表医生真实的临床工作，导致AI应用受限。

于是，OpenAI团队基于以下原则打造出HealthBench：

有意义（Meaningful）：即能够突破考试问题的局限，捕捉复杂的真实场景和工作流程，反映了患者和临床医生与模型交互的方式

值得信赖（Trustworthy）：评分能够真实体现医生判断，反映医护人员的行业标准和优先事项，为改进 AI 模型提供严格的基础。

未饱和（Unsaturated）：基准测试将推动行业进步。现有模型必须展现巨大的改进空间，持续激励开发者持续改进AI性能

HealthBench耗时一年，由来自60个国家/地区的262位执业医生共同打造，支持包括英语、普通话在内的49种语言，以及26个医学专业。

它们被创建为逼真且类似于大型语言模型的实际使用：它们是多轮次和多语言的，捕获一系列外行和医疗保健提供者角色，跨越一系列医学专业和上下文，并根据难度进行选择。

此外，HealthBench 对话分为七个主题，每个主题都包含相关示例，每个示例都有特定的评分量规标准。

与以前的狭窄基准不同，HealthBench涵盖了多个维度，力求全面衡量模型性能。它们主要包括“场景”和“轴”两类。

场景即7个真实世界的主题，包括全球健康、紧急转诊等，轴则着重测试模式的行为维度，包括准确性、遵循指示、沟通等。

模型性能

根据测试，GPT-o3 的表现优于其他AI，得分明显高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。（截至2025年3月）。

值得一提的是，OpenAI 的前沿模型在 HealthBench 上提高了 28%。

与 GPT-4o（2024 年 8 月）和 GPT-3.5 Turbo 之间的相比，在模型安全性和性能上实现飞跃。

成本与准确性

除开性能外，OpenAI还根据模型大小和测试时计算指标，研究了成本与性能的关系。

结果发现，小模型在最近几个月，有了显着改进。大模型也成本与性能也遵循摩尔定律。

例如，2025年4月发布的GPT-4.1 nano 的性能，优于 2024 年 8 月的 GPT-4o 模型，并且成本仅有其1/25。

当下OpenAI的最强推理模型GPT-o3之间的差异，显著打羽GPT-4o和GPT-3.5Turbo之间的差异。

由于行业的特殊性，医疗AI对于回答的错误容忍率非常低。

因此，OpenAI在HealthBench上评估了各模型在k个样本下的最差表现（worst-of-n performance）。结果发现，o3模型在16个样本时的最差分数是GPT-4o的两倍。

挑战人类医生

在真实对话的数据集测评中，AI有可能战胜人类医生吗？

OpenAI对此也非常好奇，找来了262名医生参与测试，以比较 AI 模型性能与专家临床判断。

OpenAI把参与测试的262位人类医生分为两组，并和AI回答进行比较。

1、第一组医生可以使用互联网进行回复，但不能使用AI工具

2、第二组医生能够使用OpenAI的模型，医生能够对生成的答案进行改编，以及编写新的答案

结果发现随着时间的推移，AI模型性能进化迅速，人类医生也甘拜下风。

2024年9月，OpenAI测试了GPT-o1-preview和GPT-4o。

结果发现，AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。

也就是说人类医生对进行编辑后，明显提升了AI的回答质量。

而到了2025年4月测试GPT-o3 和 GPT-4.1 ，情况有了巨大改变。

AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。

这表明AI不仅比人类医生强，还比使用相同AI工具的人类医生强，人类甚至限制了AI的回答！

OpenAI的AGI野心

HealthBench基准数据集已在GitHub全面上传。

除本体外，OpenAI还引入了HealthBench 的两种变体——HealthBench Consensus和 HealthBench Hard。

HealthBench Consensus的回答经过绝大多数医生验证，几乎保证了答案的准确度。HealthBench Hard则优选其中 1,000 高难度问题，即使是最好的模型在该标准中得分率也仅为32%，也是AI可以努力的重要方向。

可以说，HealthBench重新定义了AI在医疗领域的评估方式——转向了以大模型为基础的现实世界评估，这也是打造AGI的重要工具。

而随着时间的推移，大型语言模型已经有了显著的改进，并且在编写基准测试的答案已经优于人类专家。

不止于此，当前表现最优的AI仍然有很大的改进空间。

而该评价体系的发布，有望帮助整个行业和学界打造出更好的医疗模型，改善人类健康。

—The End—

推荐阅读

性能登顶！GPT-o3碾压人类医生，OpenAI重新定义AI医疗行业新标准！

1200万美元种子轮！华人科学家用AI破解细胞密码，细胞疗法迎来重大飞跃！

半年启动7项！“合成生物学”重点专项盘点，事关27所高校、6家企业！

生成式AI爆发！比人工成本降低208倍，这家“套壳"AI医疗公司估值200亿

医药迎来AI Agent革命！沃顿商学院最新研究：Agent可承担55%工作，每年创造2400亿美元价值！

福布斯榜单发布！这4家AI+医疗企业入选！晶泰科技上榜……