
本文提出了“元公平”,一个利用人工智能辅助进行大语言模型公平性测试的自动化方法。该方法旨在解决现有大语言模型公平性测试方法依赖人工评估、固定模板、确定性启发式算法和精心策划的数据集等问题,这些问题导致测试成本高昂且难以推广。
“元公平”的核心思想有两个:首先,它采用变形测试来检测偏差。变形测试通过对输入提示进行可控修改(由变形关系定义),并检查模型输出的变化来发现偏差。其次,“元公平”利用大语言模型自身的强大能力,既用于测试用例的生成,也用于输出评估。大语言模型可以生成多样化的输入,并有效地对输出进行分类,从而实现高度自动化。
“元公平”由三个开源工具支持:MUSE负责生成测试用例(包括源测试用例和后续测试用例);GENIE负责在被测模型上执行这些测试用例;GUARD-ME负责分析输入和输出以识别潜在的偏差。这三个工具都支持多种部署方式,包括通过REST API进行访问,方便集成到现有的测试框架中。

研究人员进行了广泛的实验,涉及12个预训练的大语言模型、14个变形关系(其中一个来自之前的研究,作为基准)、5个偏差维度以及7900个自动生成的测试用例,总计36850次执行。实验结果表明,“元公平”能够有效地发现大语言模型中的偏差,平均精确度达到92%,并揭示了29%的执行存在偏差行为。所有被评估的模型,包括OpenAI o3-mini和Gemini 2.0 Flash Thinking,都表现出不同程度的偏差。此外,大语言模型作为评估器也表现出可靠性和一致性,其中性能最好的模型达到了高达0.79的F1分数。虽然非确定性会影响一致性,但这可以通过仔细设计变形关系来减轻。
“元公平”的主要贡献包括:
●“元公平”框架:一个整合了变形测试和AI辅助测试用例生成与评估的大语言模型公平性测试自动化方法。
●13个新的变形关系:这些变形关系利用各种类型的提示转换和输入-输出关系来检测偏差,涵盖了单一属性、双属性、排序列表、假设场景、专有名词、句子完成、反向一致性等多种情况。
●14个提示模板:用于根据预定义的变形关系生成测试用例,以及用于检查模型响应中是否存在偏差。
●三个开源工具: MUSE、GENIE和GUARD-ME,分别用于大语言模型辅助的测试用例生成、执行和评估。
●“元公平”的经验评估:在12个大语言模型和5个偏差维度上进行了评估,结果表明“元公平”在偏差检测方面具有较高的精确度和有效性。
●公开可用的复制包:包括源代码、实验数据和手工标注的偏差评估数据集。
研究人员还分析了不同大语言模型在偏差检测方面的有效性,结果表明,最先进的大语言模型能够有效地检测偏差,模型大小并非决定性因素。通过投票机制结合多个模型的判断结果,可以略微提高F1分数,但会降低稳定性。研究还探讨了大语言模型非确定性对变形测试结果的影响,发现较大的模型通常产生更一致的结果,而变形关系的设计也对结果的稳定性有显著影响。开放式问题或排序输出的变形关系更容易受到非确定性的影响,而基于封闭式问题的变形关系则更稳定。
通过对实验结果的深入分析,研究人员总结了几点经验教训:
●评估成对相关的测试用例比单独评估单个测试用例更有效。
●大语言模型能够实现偏差检测的自动化,但存在一定的局限性,需要仔细考虑。
●显式提及人口统计属性比隐式提及更有效。
●开放式问题通常更有效,但更难评估。
●非确定性的影响因不同的变形关系和模型而异。

总而言之,这项工作为AI辅助的大语言模型偏差检测奠定了基础,展示了其在实现前所未有的自动化水平方面的潜力。虽然仍存在一些问题需要解决,但结果表明,将变形测试与大语言模型驱动的测试生成和评估相结合,是实现大语言模型公平性测试自动化的一种很有前景的方法。未来的研究可以进一步改进变形关系的设计,提高大语言模型作为评估器的可靠性,并探索更广泛的偏差类型和应用场景。
如需要《元公平:AI辅助的大语言模型公平性测试方法》(英文,共46页),请在本微信公众号中赞赏(点喜欢或稀罕作者后按本公众号设定打赏)后,发来email地址索取。



If someone gets mad at you for creating a boundary, consider that a good sign that the boundary was necessary. 若有人因你设边界而嗔怒,此乃明证,这一边界本就必要。早上好!
