人类医生要被AI拉爆了?


512OpenAI联手全球60个国家,262名执业医生打造出专为医疗大模型设计的AI医疗大模型标准——HealthBench

 

根据测试,OpenAI最强推理模型GPT-o3,直接力压Grok 3Gemini 2.5 Pro,比人类医生的回答率高出4倍。


与此前过时的数据集不同,该基准包含了5000个基于现实场景的健康对话并且获得了医生评分反馈。

 

也就是说,该评分体系能够衡量AI的可信度和临床价值,而不是AI做题的能力和回答流畅度。


当该评价基准如同ImageNet推广开后,一个AI医疗新时代,真的来了。

 

定义行业新标准


作为全球AI领头羊,OpenAI来定义AI医疗新基准了。

 

一个好的AI测试集对于技术发展非常重要,例如ImageNet挑战赛直接推动了深度学习革命

 

但当前,以各种医学问答、执业医生考试为主的医学测试集过于僵化,不能代表医生真实的临床工作,导致AI应用受限。

 

于是,OpenAI团队基于以下原则打造HealthBench

 

有意义(Meaningful):即能够突破考试问题的局限,捕捉复杂的真实场景和工作流程,反映了患者和临床医生与模型交互的方式

 

值得信赖(Trustworthy)评分能够真实体现医生判断,反映医护人员行业标准和优先事项,为改进 AI 模型提供严格的基础。

 

未饱和(Unsaturated)基准测试将推动行业进步。现有模型必须展现巨大的改进空间,持续激励开发者持续改进AI性能

 

HealthBench耗时一年,由来自60个国家/地区262位执业医生共同打造,支持包括英语、普通话在内的49种语言,以及26个医学专业。

 


 

图片

 

它们被创建为逼真且类似于大型语言模型的实际使用:它们是多轮次和多语言的,捕获一系列外行和医疗保健提供者角色,跨越一系列医学专业和上下文,并根据难度进行选择。

 

此外,HealthBench 对话分为七个主题,每个主题都包含相关示例,每个示例都有特定的评分量规标准。


 

图片

 


与以前的狭窄基准不同HealthBench涵盖了多个维度,力求全面衡量模型性能。它们主要包括“场景”和“轴”两类。

 

场景即7个真实世界的主题,包括全球健康、紧急转诊等,轴则着重测试模式的行为维度,包括准确性、遵循指示、沟通等。

 

模型性能

 

根据测试,GPT-o3 的表现优于其他AI,得分明显高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。截至20253月)。

 

图片
图片


值得一提的是OpenAI 的前沿模型 HealthBench 上提高了 28%

 

 GPT-4o2024 年 月)和 GPT-3.5 Turbo 之间的相比,模型安全性和性能上实现飞跃。

 

成本与准确性

 

除开性能外,OpenAI还根据模型大小和测试时计算指标,研究了成本与性能的关系。

 

结果发现,小模型在最近几个月,有了显着改进大模型也成本与性能也遵循摩尔定律。

 

例如,20254月发布的GPT-4.1 nano 的性能优于 2024 年 月的 GPT-4o 模型,并且成本仅有其1/25

 

当下OpenAI的最强推理模型GPT-o3之间的差异,显著打羽GPT-4oGPT-3.5Turbo之间的差异。


图片

 

由于行业的特殊性,医疗AI对于回答的错误容忍率非常低。

 

因此,OpenAIHealthBench上评估了各模型在k个样本下的最差表现(worst-of-n performance)。结果发现,o3模型在16个样本时的最差分数GPT-4o的两倍


图片


战人类医生

 

在真实对话的数据集测评中,AI有可能战胜人类医生吗?

 

OpenAI对此也非常好奇,找来了262名医生参与测试,比较 AI 模型性能与专家临床判断

 

OpenAI把参与测试的262位人类医生分为两组,并和AI回答进行比较。

 

1、第一组医生可以使用互联网进行回复,但不能使用AI工具

 

2、第二组医生能够使用OpenAI的模型,医生能够对生成的答案进行改编,以及编写新的答案

 

结果发现随着时间的推移,AI模型性能进化迅速,人类医生也甘拜下风。


图片


20249月,OpenAI测试了GPT-o1-previewGPT-4o

 

结果发现,AI辅助的医生答案>AI的参考回答>没有AI辅助的医生答案。


也就是说人类医生对进行编辑后,明显提升了AI的回答质量。

 

而到了20254月测试GPT-o3 和 GPT-4.1 情况有了巨大改变。

 

AI辅助的医生答案=AI的参考回答>>没有AI辅助的医生答案。

 

这表明AI不仅比人类医生强,还比使用相同AI工具的人类医生强,人类甚至限制了AI的回答!

 

OpenAIAGI野心

 

HealthBench基准数据集GitHub全面上传

 

除本体外,OpenAI还引入了HealthBench 的两种变体——HealthBench Consensus HealthBench Hard

 

HealthBench Consensus的回答经过绝大多数医生验证,几乎保证了答案的准确度。HealthBench Hard则优选其中 1,000 高难度问题即使是最好的模型在该标准中得分率也仅为32%,也是AI可以努力的重要方向。

 

可以说,HealthBench重新定义了AI在医疗领域的评估方式——转向了以大模型为基础的现实世界评估,这也是打造AGI的重要工具。

 

随着时间的推移,大型语言模型已经有了显著的改进,并且在编写基准测试的答案已经优于人类专家。

 

不止于此,当前表现最优的AI仍然有很大的改进空间。


而该评价体系的发布,有望帮助整个行业和学界打造出更好的医疗模型,改善人类健康。


The End—

推荐阅读