图片

《检测医疗人工智能中的数据集偏差:一个通用的、模态无关的审计框架》一文提出了一种新颖的数据集审计框架——通用属性效用与可检测性诱导偏差测试(简称G-审计”),旨在识别医疗人工智能中数据集的潜在偏差,解决因数据驱动的人工智能依赖关联学习而导致的偏差放大问题。研究通过对三种不同模态(图像、文本和表格数据)的医疗数据集进行分析,展示了该框架的广泛适用性和实用价值,为构建更安全、可靠的人工智能系统提供了重要工具。

 

随着人工智能在医疗领域的广泛应用,数据驱动方法依赖大规模数据集的趋势日益明显。然而,大规模数据收集面临多样性和质量的挑战,数据集偏差成为人工智能系统失效的主要原因之一。本文指出,医疗数据集需满足三个关键要求:1)准确代表目标人群;2)确保公平性并尽量减少偏差;3)反映现实世界的条件,避免学习捷径。但由于隐私、安全、成本等系统性约束,这些要求往往难以完全实现。例如,固定样本数据集可能无法充分代表某些人群,或平衡受保护子群体(如种族、年龄、性别)时,可能引入与临床站点或成像协议相关的意外偏差。此外,公平性和偏差的定义本身具有复杂性,数据集偏差可能以超出传统伦理或社会考量的形式呈现。

 

图片

数据集偏差可能导致人工智能模型学习并放大隐性偏差,表现为预测中的不公平性、捷径学习以及缺乏泛化能力和鲁棒性,进而造成患者群体间诊断和治疗的性能差异。现有算法审计方法多为事后分析,属于反应性策略,而本文强调在模型训练和评估前识别数据集偏差的重要性,提出了“G-审计”框架以实现前瞻性偏差检测。

 

G-审计”框架的核心思想是通过量化属性的效用可检测性来识别潜在的偏差来源。效用衡量的是属性与任务标签之间的关联强度,而可检测性则衡量的是从数据本身推断属性值的难易程度。高效用和高可检测性的属性组合表明该属性可能成为模型学习的捷径,从而增加了模型偏差的风险。

 

图片

本文利用信息论和因果推理的原理来量化属性的效用和可检测性。效用采用“互信息”来衡量,并对偶然性进行了调整。可检测性则通过训练一个智能体模型来预测属性值,并根据模型的预测准确性来衡量。为了控制任务标签对可检测性估计的影响,本文考虑了属性和标签之间因果关系的不同情况,分别采用不同的策略进行处理。在反因果场景(Y→X)下,通过对任务标签进行条件化处理来减少任务标签对属性预测的影响;而在因果场景(X→Y)下,则直接估计属性和数据的关联强度。

 

本文通过三个不同模态(图像、文本、表格)的案例研究来验证“G-审计”框架的有效性。

 

皮肤病变分类(图像数据):研究人员使用ISIC 2019数据集,分析了年龄、种族、性别、解剖位置、肤色以及图像元数据(高度、宽度、采集年份)等属性的效用和可检测性。结果表明,图像的尺寸和采集年份等元数据具有较高的效用和可检测性,可能成为模型学习的捷径。

 

电子病历中污名化语言的识别(文本数据):研究人员使用一个包含临床记录的电子病历数据集,分析了患者种族、性别和临床科室等属性对污名化语言识别的影响。结果表明,临床科室的属性比种族和性别具有更高的效用,这表明模型更容易利用临床科室信息来进行预测,而不是直接利用种族或性别信息。

 

图片

ICU患者死亡率预测(表格数据):研究人员使用MIMIC-III数据集,分析了患者人口统计学特征、生理指标、实验室检查结果以及医疗干预措施等属性对死亡率预测的影响。结果表明,“G-审计”框架能够有效地识别出一些容易被忽视的潜在偏差来源,例如缺失数据和特定的医疗干预措施。此外,研究还将“G-审计”的结果与“斯普利特”方法(一种基于模型表示的偏差检测方法)进行了比较,结果显示两者具有较高的相关性。

 

为了更好地解释效用和可检测性指标的含义,文章还提出了一种性能风险边界估计方法。该方法通过创建一个具有完全可检测性的合成属性,并改变其效用,来评估不同效用水平下模型性能下降的程度。这为理解和解释“G-审计”的结果提供了更直观的参考。

 

图片

文章最后指出,“G-审计”框架提供了一种通用的、定量的方法来检测和量化数据集偏差,有助于在模型训练和评估阶段尽早识别和减轻偏差风险,从而开发更安全、更可靠的医学人工智能系统。该框架的优势在于其通用性、可解释性和对多种数据模态的适用性,为构建更公平、更准确的医疗人工智能系统提供了重要的工具。未来研究可以进一步改进“G-审计”框架,例如自动检测标签和数据之间的因果关系,并提高其计算效率。