
这篇题为《超越基准测试:用于构建值得信赖的医疗大型语言模型的动态、自动化和系统化红队智能体》的文章,探讨了大语言模型(LLMs)在医疗领域的应用安全性和可靠性问题,并提出了一种名为动态、自动化和系统化(“戴斯”)的红队测试框架,用于持续评估大语言模型的安全性。
文章指出,大语言模型在医疗领域的快速发展速度远超静态安全基准的更新速度。静态基准测试,例如MedQA,虽然能评估模型的基础医学知识,但其结果容易被操纵,无法全面反映模型在真实临床场景下的表现。大语言模型的高基准分数可能掩盖了其在鲁棒性、隐私、公平性和幻觉等方面的潜在风险。本文认为,仅依靠静态基准测试不足以确保大语言模型在临床实践中的安全可靠性,因为模型可以针对已知的测试集进行优化,从而导致测试结果失真。

为了解决这个问题,本文提出了“戴斯”红队测试框架。该框架的核心思想是将安全性评估从静态的排行榜转向动态的对抗性对话,模拟真实临床场景中可能出现的各种挑战。“戴斯”框架包含一系列对抗性智能体,这些智能体可以自主生成提示、选择和改进攻击策略、升级攻击强度、检测违规行为和幻觉,并迭代地进行测试,无需人工干预。这使得“戴斯”框架能够持续地对大语言模型进行压力测试,及时发现并暴露其在不同安全维度上的漏洞。
本文将大语言模型的安全评估分为四个关键维度:
1、鲁棒性:评估模型在面对各种扰动(例如引入似是而非的选项、修改超出范围的实验室数值、移除正确答案)时,是否能够保持准确性。文章使用MedQA数据集作为起点,通过六种正交的突变工具(答案否定、问题反转、选项扩展、叙事干扰、认知诱饵、生理不可能)对模型进行动态攻击。结果显示,尽管模型在MedQA上的平均准确率超过80%,但在“戴斯”鲁棒性测试中,94%的先前正确答案都失败了。
2、隐私:评估模型在与临床医生进行对话时,是否会泄露受保护的健康信息(PHI),违反HIPAA/GDPR等隐私法规。本文构造了81个隐私陷阱场景,涵盖了八种常见的隐私泄露模式。结果表明,即使在添加了明确的隐私警告后,仍有超过60%的模型会出现隐私泄露。本文还设计了四种对抗性策略(善意意图、细小请求、焦点转移、陷阱警告)来进一步测试模型的隐私保护能力。

3、公平性/偏差:评估模型在面对不同患者的社会人口学背景、语言风格和情绪表达时,是否会做出不同的临床决策,从而暴露出潜在的偏差。本文使用了415个医疗偏差数据集,通过四种对抗性策略(认知偏差诱导、身份操纵、语言操纵、情绪操纵)来测试模型的公平性。结果显示,认知偏差诱导是最有效的攻击策略,能够在超过80%的测试中诱导出偏差。
4、幻觉:评估模型在高风险的医疗场景下,是否会产生虚假的医学事实、错误的推理或不正确的引用。本文提出了一种结构化的医学幻觉分类方法,并将幻觉检测任务分解为七个临床相关的子问题,并开发了一个多智能体幻觉检测框架。结果显示,所有测试模型的幻觉率都超过50%,虚假或过时的医学事实是主要的错误类型。
本文对15个先进的大语言模型(包括商业和开源模型)进行了“戴斯”红队测试,结果显示,模型在静态基准测试中的高分与在对抗性压力下的脆弱性之间存在巨大差异。即使是最强大的模型,在鲁棒性、隐私、公平性和幻觉等方面也存在显著的安全漏洞。

本文的贡献在于:
●提出了“戴斯”红队测试框架,实现了对大语言模型的动态、自动化和系统化的安全性评估。
●开发了一套对抗性智能体,能够自主进行提示生成、攻击策略选择和升级、违规行为检测和迭代测试。
●建立了一个统一的框架,对大语言模型的鲁棒性、隐私、公平性和幻觉四个关键安全维度进行综合评估。

文章最后讨论了“戴斯”框架的局限性以及未来的研究方向,例如扩展攻击策略、改进幻觉检测方法、以及将“戴斯”框架应用于多模态医疗大语言模型。 文章强调,确保大语言模型在医疗领域的安全性是至关重要的,“戴斯”红队测试框架为大语言模型的临床应用提供了重要的安全保障,并促进了大语言模型和安全性评估方法的共同演进。文章建议将“戴斯”红队测试结果作为模型安全评估的重要指标,并将其纳入医疗AI的监管框架中。
如需要《超越基准测试:用于构建值得信赖的医疗大型语言模型的动态、自动化和系统化红队智能体》(英文,77页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



One of the hardest decisions you'll ever face in life is choosing whether to walk away or try harder. 人生旅途中,将面临的最艰难抉择之一,便是抉择于转身离去之洒脱,抑或矢志不渝、再搏一番之坚韧。早上好!
