《“健康基准”：评估促进人类健康的大语言模型》

随着人工智能技术的飞速发展，大语言模型（LLM）在医疗健康领域的应用日益广泛，能够扩展健康信息获取渠道、支持临床医生提供高质量医疗服务，并帮助人们做出更明智的健康决。然而，如何有效评估这些模型，确保其在多样化、高风险场景中的性能和安全性，成为了一个亟待解决的问题。OpenAI推出的“健康基准”测试，为这一挑战提供了系统化的解决方案。

本文介绍了“健康基准”，一个用于评估大语言模型在医疗保健领域性能和安全性的开源基准测试。“健康基准” 旨在解决现有医疗保健评估的局限性，例如缺乏现实意义、缺乏专家验证以及缺乏改进空间等问题，从而为开发能够真正造福人类健康的AI模型提供一个更完善的标准。

“健康基准”的设计和特点： “健康基准”包含5000个真实的医疗对话，这些对话来自各种背景的用户（包括普通用户和医疗专业人员），涵盖了七个主题和五个维度，并由262位医生共同创建了48562个独特的评价标准。与以往的多项选择题或简答题基准测试不同，“健康基准”采用基于评分细则的开放式评估方法，能够更真实地反映现实世界中医疗专业人员和普通用户与大语言模型交互的动态特性。每个对话都配有一个由医生编写的特定评分细则，该细则包含多个具体的、可客观评估的标准，这些标准涵盖了应答的各个方面，例如准确性、完整性、沟通质量、上下文感知能力和指令遵循能力等。为了提高评价的可靠性，“健康基准”还包含34个经医生一致认可的共识标准，这些标准在衡量模型在特定情境下的关键行为方面具有更高的精度。此外，“健康基准”还包含一个“健康基准-哈德”子集，包含1000个对当前最先进模型来说极具挑战性的例子，用于设定未来模型改进的目标。

数据收集过程： “健康基准”的数据收集过程严格，并得到了来自60个国家、26个医学专业的262位医生的参与。这些医生经过严格筛选，以确保其专业知识和评价能力。对话数据主要通过定制的语言模型程序管道合成生成，但也包含了医生对大语言模型进行红队测试以及来自谷歌“健康搜索问答”的数据。评分细则的创建过程也由医生主导，确保了评价标准的专业性和可靠性。为了评估评分细则的可靠性，研究人员还收集了医生对模型应答的评价，并将其与模型评分器进行比较，结果表明模型评分器能够达到与专家评价相当的水平。

结果分析： 研究人员使用“健康基准”评估了一系列最先进的大语言模型，结果显示：

●模型性能的持续改进：近年来，大语言模型在“健康基准”上的表现稳步提升，尤其是在最近几个月，OpenAI的旗舰模型取得了显著进步。小型模型也取得了令人瞩目的进展，例如GPT-4.1 nano的性能超过了GPT-4o，且成本低了25倍。

●主题和维度的差异化表现：不同模型在不同主题和维度上的表现存在差异。例如，在紧急转诊和专业化沟通方面，模型的性能普遍较高；而在上下文感知、健康数据任务和全球健康方面，模型的性能相对较低。对各个维度的分析，例如准确性、完整性、沟通质量和上下文感知能力，也揭示了不同模型的优缺点。

●性能-成本权衡： 研究人员分析了模型性能与推理成本之间的关系，发现最近的模型在性能-成本方面取得了显著的改进，小型模型的性价比尤其突出。

●可靠性分析：研究人员通过“worst-at-k”指标评估了模型的可靠性，结果表明，最近的模型在可靠性方面有了显著提高，但仍有很大的改进空间。

●示例难度分布：“健康基准”中大部分示例的难度适中，既没有过于简单，也没有过于困难，这表明该基准测试具有较高的噪声上限和改进空间。

●应答长度与分数的关系：研究人员分析了应答长度与“健康基准”分数之间的关系，发现两者之间存在一定的正相关性，但相关性并不强，表明评价结果并非仅仅取决于应答长度。

●“健康基准-共识”和 “健康基准-哈德”的结果： 研究人员还对 “健康基准-共识”和“健康基准-哈德”子集进行了评估，结果进一步验证了模型性能的改进，并指出了未来模型改进的方向。

医生参与的基准测试： 研究人员还邀请医生在不使用AI辅助的情况下和使用AI模型辅助的情况下分别撰写了对“健康基准”示例的理想回复。结果显示，在使用2024年9月之前的模型作为参考的情况下，医生能够改进模型的回复；但在使用2025年4月之后的模型作为参考的情况下，医生则难以改进模型的回复，这表明模型的性能已经达到了相当高的水平。

结论： “健康基准”是一个有意义、可靠且具有改进空间的基准测试，它为研究人员开发安全有效的医疗AI模型提供了重要的参考。该基准测试的开源特性也促进了研究合作和领域发展，最终目标是确保AI的进步能够真正转化为人类健康的实质性改善。未来的工作将集中在改进数据收集过程、扩大样本量以及开发更细致的基于特定工作流程的评估方法上。

《“健康基准”：评估促进人类健康的大语言模型》

《多智能体框架在多变量生理时间序列解析中的应用》

《多智能体医学AI框架：利用微调的GPT、LLaMA与DeepSeek R1实现循证与去偏临床查询处理》

《AI聊天机器人集成提升儿科医院电子病历的可访问性》

《2026年医疗AI可见度报告》

《多模态人工智能在医学诊断中的应用》