Redian新闻
>
ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性

ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性

公众号新闻

©作者 | 杨泽群

单位 | 人大高瓴GeWu-Lab



论文题目:

Quantifying and Enhancing Multi-modal Robustness with Modality Preference

论文链接:

https://arxiv.org/abs/2402.06244


代码链接:

https://github.com/GeWu-Lab/Certifiable-Robust-Multi-modal-Training



概述

尽管多模态学习能够很好的整合来自不同源的信息,其仍然不可避免地容易受到各种扰动的影响。为了提高模型的鲁棒性,我们分析多模态学习中的影响鲁棒性的关键部分,包括单模态表示的边缘大小和模态间的可靠整合。通过理论分析,我们发现较大的单模态表示边缘和更可靠的模态整合对于提高鲁棒性至关重要。 

进一步地,我们探讨了多模态模型对特定模态的偏好如何限制了模型的鲁棒性,并可能导致对特定模态的攻击特别有效(如下图所示)。为了解决这一问题,我们提出了一种名为 Certifiable Robust Multi-modal Training (CRMT) 的训练过程。CRMT 通过减轻模态偏好的影响,并明确调整关键组成部分,从而可以可信地提高模型的鲁棒性。

此外,我们实验验证了 CRMT 方法在面对单模态和多模态攻击时的性能和鲁棒性的显著提升。此外,CRMT 方法还可以轻松扩展以增强其他鲁棒训练策略,显示了其可信度和灵活性。

▲ 图1 在 Kinetics Sounds 数据集上,不同多模态训练方法在不同半径下 ℓ_2-PGD 攻击下的准确性。结果表明,对于两个模态攻击效果差异明显,而对于特定模态 #a 的攻击效果更好(左图),而我们的方法(右图)可以显著缓解这一问题。


多模态鲁棒性定义与分析

学习框架

本文考虑了一个通用的 K 分类问题,其中输入样本 由两个模态组成,,并且有一个真实的标签 。为了整合这两种模态的信息,最常用的方法是联合学习 [1]


在这个范式中,每种模态数据首先通过一个模态特定的编码器 转换成一个表示向量。这些表示向量随后被 concatenate,并通过一个线性分类器进行分类,分类器由权重矩阵 和偏置 参数化,其中我们有:




其架构的具体形式如下图左所示:



▲ 图2. 左图为传统多模态联合学习框架,而右图为我们的框架,其将正交性引入每个单模态分类器中。

多模态鲁棒性评估

在实际应用中,模型可能会遇到各种扰动,例如数据攻击或模态缺失。为了评估模型在这些扰动下的鲁棒性,需要定义一个量化指标。本文使用了鲁棒性半径 的概念 [2],它表示将样本 从正确分类变为错误分类所需的最小扰动大小。具体来说,对于一个正确分类的样本 ,鲁棒半径 是最小的 范数扰动,使得经过扰动后的样本 被分类到与真实标签 最近的错误类别
其中,其条件 指点 落在多模态决策平面上。鲁棒半径可以反应模型对扰动的敏感程度,同时,一个高鲁棒性的模型应该具有较大的鲁棒性半径,意味着即使在面对扰动时也能保持稳定的性能。
多模态鲁棒性分析
在前文的发现中,我们观察到了两个模态的鲁棒性差异;在这里我们引入单模态间隔作为指标来区分不同模态。
间隔理论
给定单模态编码器 和分类器 ,真实标签 和其他标签 之间(特征空间上)的间隔定义为:

因此,考虑上述决策边界,其可以写成下式:

我们观察到该多模态决策边界可以描述为扰动样本的不同单模态间隔与因子 的结合,以及常数项 。我们通过描述间隔的 Lipschitz 常数,可以刻画出上面所说的鲁棒半径。

根据上文定义,可以得到关于多模态鲁棒半径的下界:


基于上面的界,我们可以推断多模态鲁棒性依赖于三个主要因素:单模态表示边缘 、整合系数 和偏置差 。我们发现鲁棒半径随单模态表示边缘 呈正比例关系;而整合系数 则需要同时考虑与单模态边缘和Lipschitz常数以提高鲁棒性;而当样本受到扰动时,偏置差项 只依赖于类别 而不是具体的样本,其保持不变(不考虑)。
因此,我们分析发现更大的单模态边缘更合理的模态整合是实现鲁棒性的两个关键。在接下来的部分中,我们将分析在模态偏好情况下,这两个关键组成部分如何变化,从而影响多模态模型的鲁棒性。

对于模态偏好的分析

模态偏好是广泛存在的现象 [3,4],在多模态学习中,模型非常容易偏好某一个模态,并被其主导。当模型在一个偏好的模态中学到足够可靠的信息时,它就难以从其他模态中学习更多信息,导致其他模态的单模态表示间隔变窄,限制了多模态模型的鲁棒性。

其次,模态偏好导致模型决策高度依赖特定模态,这意味着在模态整合时,偏好的模态会有更大的整合系数,可能放大单模态边缘在多模态决策中的变化。如果模型偏好的是一个易受攻击的模态,那么对这个偏好但易受攻击的模态的扰动会导致多模态边缘的变化更大,这在决策中会被进一步放大。

为了量化这种易受攻击性,文章定义了一个新的指标 ,当模型偏好易受攻击的模态时,这个指标会出现显著的不平衡。因此,多模态鲁棒性高度依赖于具有较大易受攻击性指标的模态。这表明,只需针对易受攻击的模态进行攻击就足以使模型失效。
此外,还提供了在单模态攻击情况下多模态鲁棒性的下界,表明不同单模态扰动的下界具有相同的分子,即易受攻击性指标 ,但分母不同。在偏好的模态上,该易受攻击性指标较大,这样会影响对该模态的扰动下界,使得对这种偏好模态的攻击更加有效,这也解释了之前讨论的观察结果。

方法介绍
直观而言,我们只需要增大单模态表征间隔和调整模态的整合系数就可以实现良好的鲁棒性。然而,在多模态学习中,这二者在模型中是耦合的,因此难以进行直接的调控。因此我们在分类器中引入了正交性 [5],从而可以将二者拆解开来,以便实现针对性的调整。
如图 2 右所示,我们令 为单位正交向量,其相互正交;并且引入权重 来引导模型关注更可信的模态。因此,单模态表示的学习和模态的整合可以解耦。在这里,第 类对应的分数可以表示为:

其同样能够再此基础上定义间隔,Lipschitz 常数并推导出鲁棒半径的下界。

在这基础上,我们采用两步的策略,对于影响鲁棒性的两个因素进行针对性的调节:

第一步,对于单模态的间隔进行针对性的调控和提升,其目标为:


第二步,调整模态的整合系数,其目标为最小化鲁棒半径的下界。


实验结果

我们在 Kinetics-Sounds,UCF101 和 VGGSound 三个数据集上进行了实验。在这里,我们选取了两种类型的对比方法:第一组方法解决由模态偏好引起的不平衡问题,包括梯度混合(GB)、即时梯度调制(OGM)和原型模态重平衡(PMR)。第二组方法专注于提高多模态鲁棒性,包括多模态对抗训练(MMAT)、多模态混合(Mixup)和最小相似性+指数记忆(MSEFM)。

我们的方法可以扩展到不同的训练策略,分别表示为与联合训练结合的可证明鲁棒多模态训练(CRMT-JT)、与对抗训练结合的 CRMT(CRMT-AT)和与混合训练结合的 CRMT(CRMT-Mix)。在多模态攻击方法方面,我们沿用了以往的工作,选择了 FGM 和 -PGD 作为两种攻击手段;而对于单模态攻击而言,我们还加入了模态缺失作为攻击方法。

实验结果如下面的图和表所示:

▲ 表1. 多模态对抗准确率的测试,显示出基于 CRMT 的方法可以提高性能和鲁棒性。

▲ 表2. 在 KS 数据集上针对不同单模态攻击方法的性能比较


▲ 表3. 将我们方法应用于基于Transformer的多模态融合方法的实验


▲ 图3. 我们方法在易受攻击指标上的改进,验证了我们方法缓解不同模态鲁棒性差异大的原因。


总结和思考

本文主要探究了多模态模型在不同模态攻击时其鲁棒性不同的现象,并且从模态偏好的角度来进行了解释,并发现单模态表征间隔和多模态整合系数是两个影响模型鲁棒性的重要因素。此外,我们还改进了多模态架构,并设计了算法以可信地提升了多模态模型的鲁棒性。

总的来说,本文在联合学习的框架下,对于多模态模型在不同单模态的鲁棒性不同的现象进行了发现和解决。然而,在更复杂的多模态融合架构基础上,如何能设计更强的,结合多模态特点的攻击以及实现更好的多模态鲁棒性,这仍然是一个开放性的问题。其中,在复杂架构下对单一模态进行针对性的评估和调控可能会是一个主要的难题。


参考文献

[1] Y. Huang, J. Lin, C. Zhou, H. Yang, and L. Huang, “Modality competition: What makes joint training of multi-modal network fail in deep learning?(provably),” in International Conference on Machine Learning. PMLR, 2022, pp. 9226–9259.

[2] Y. Tsuzuku, I. Sato, and M. Sugiyama, “Lipschitz-margin training: Scalable certification of perturbation invariance for deep neural networks,” Advances in neural information processing systems, vol. 31, 2018.

[3] I. Gat, I. Schwartz, and A. Schwing, “Perceptual score: What data modalities does your model perceive?” Advances in Neural Information Processing Systems, vol. 34, pp. 21 630–21 643, 2021.

[4] N. Wu, S. Jastrzebski, K. Cho, and K. J. Geras, “Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks,” in International Conference on Machine Learning. PMLR, 2022, pp. 24 043–24 055.

[5] L. Huang, X. Liu, B. Lang, A. Yu, Y. Wang, and B. Li, “Orthogonal weight normalization: Solution to optimization over multiple dependent stiefel manifolds in deep neural networks,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 32, no. 1, 2018.



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了Nature重磅发现:父亲的肠道菌群会影响下一代的健康,增加出生体重较轻、严重生长受限和过早死亡风险Apple多模态最新工作4M-21:搞定21种模态!刷新多个SOTA!意见区里的风暴※※※2024【花样女神节】活动合辑※※※2024,哪个包会是LV的断货王?爆火的多模态微信交流群成立!大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计多模态融合再度领跑ICLR 2024!这56种创新SOTA方案必看新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同5G-A首个标准冻结,补充和增强了哪些物联网的能力?北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生ICLR 2024 | AnomalyCLIP:零样本异常检测新范式CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作仅限专业人士: EB5抵押量化, 退出量化和抵押退出一体化学什么准备未来(三)新能源没能量影响下半年市场的三个因素我兒子今年(2024)進了MITICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!复旦发布层次性奖励学习框架,增强大模型人类偏好对齐2024年,玩具品类机会和增长点在哪里?笑談國之怪現況 51 兩會總理記者招待會春季观鹤:2024 科州该结婚则结婚,该生则生;不育不孕的烦恼;尹烨谈念头;浙里办相亲CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuserACL 2024 | 多模态大模型能揭示图像背后的深意吗?不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 SpotlightSIGIR 2024 | 共现关系还是细粒度偏好?ID和模态信息解耦的会话推荐零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐上海AI Lab开源首个可替代GPT-4V的多模态大模型有不烦车子的自动停启功能的吗?2024 BMW X5ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有谈少年轻狂
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。