《“敏德”:多模态临床预测任务的基于模态的知识精馏框架》
Feb. 9, 2025
![图片]()
本文提出了一个名为“敏德”的框架,用于压缩多模态临床预测任务中的模型。该框架旨在解决多模态模型在医疗应用中面临的挑战,例如数据量小、模型规模大以及模态利用不均衡等问题。
问题背景:多模态融合利用来自不同模态(例如医学影像、临床时间序列数据等)的信息来学习更优的特征表示,从而提高预测性能。然而,医疗领域的多模态数据集通常比单模态数据集小得多,这会限制多模态模型的性能。此外,增加模态数量通常会导致多模态网络规模的增加,这在医疗应用中可能是不利的,例如在资源受限的设备上部署模型。简单的联合训练方法也可能导致模型过度依赖于某个模态,从而影响整体性能。
![图片]()
“敏德”框架:“敏德”框架采用了一种基于知识蒸馏的多模态模型压缩方法,将多个预训练的、不同大小的单模态深度神经网络的知识迁移到一个较小的多模态学生模型中。教师模型由单模态网络组成,允许学生模型从不同的表示中学习。与单头模型不同,“敏德”采用多头联合融合模型,能够在单模态样本的情况下利用单模态编码器,而无需进行缺失模态的插补或掩码。因此,“敏德”能够生成一个优化的多模态模型,增强多模态和单模态表示。它还可以用来平衡多模态学习过程中的训练。
![图片]()
1、模态特定监督信号的集成:“敏德”框架将模态特定的监督信号集成到联合融合架构中。这通过减少全局模型的影响来增强单模态编码器的表示,从而使每个单模态编码器能够更专注于自身模态的学习,最终提高多模态融合性能。
2、预训练单模态教师模型:“敏德”框架使用预训练的单模态教师模型来进行知识蒸馏,将多个较大单模态模型的知识压缩到学生模型中,从而增强学生模型中模态编码器学习到的表示。实验结果表明,这种方法在使用更紧凑的学生网络的同时,显著提高了融合性能。
3、模态权重超参数:“敏德”框架引入了模态权重超参数,用于调整知识蒸馏组件的权重,从而强调特定模态的学习。这增强了编码器表示和模态学习,提高了多模态和单模态预测性能,并有助于平衡多模态训练过程中的模态学习。
![图片]()
方法细节:“敏德”框架首先预训练多个单模态教师模型,然后将这些模型的知识蒸馏到一个较小的多模态学生模型中。损失函数包括监督学习损失和知识蒸馏损失,其中知识蒸馏损失使用预训练的单模态教师模型的输出作为软目标。为了平衡多模态学习,“敏德”框架引入了模态权重超参数,允许用户根据需要调整不同模态的学习权重。本文还详细描述了如何处理多标签分类任务,并修改了知识蒸馏损失函数以适应多标签场景。
![图片]()
实验结果:论文在两个临床预测任务(预测临床疾病和预测ICU住院48小时后的院内死亡率)上评估了“敏德”框架的性能,使用了来自MIMIC-CXR和MIMIC-IV数据集的胸部X光图像和临床时间序列数据。实验结果表明,与几种最先进的基线方法相比,“敏德”框架提高了较小多模态网络在所有五个任务中的性能,以及各种融合方法和多模态网络架构的性能。本文还评估了“敏德”框架在三个非医疗多模态多类基准数据集上的泛化能力。
![图片]()
结论:“敏德”框架提供了一种有效的多模态模型压缩方法,能够在提高预测性能的同时,减少模型规模。通过集成模态特定监督信号、预训练单模态教师模型和引入模态权重超参数,“敏德”框架能够更好地利用不同模态的信息,并平衡多模态学习过程中的训练。这对于医疗领域的多模态应用具有重要的意义,因为它能够在资源受限的环境下部署更小、更有效的模型,同时保持较高的预测精度。“敏德”框架的成功也表明了知识蒸馏技术在多模态学习中的巨大潜力。未来的研究可以探索“敏德”框架在更多临床预测任务和不同数据类型上的应用,并进一步优化其参数和架构。