©PaperWeekly 原创 · 作者 | 张庆阳方法动机
多模态融合是多模态学习领域的基础问题。近年来,多模态动态融合在复杂场景的感知任务上取得了瞩目的效果。如自动驾驶领域中装配多种传感器的无人车、智能医疗领域中的各种临床检测数据。但现实世界中往往存在大量的低质量多模态数据:噪声、缺失模态,不平衡的多模态数据。
传统的融合方法往往忽略了由于环境因素、潜在传感器故障而导致的质量不可靠问题。近年来,相关研究者认为引入动态融合机制是获得可靠多模态预测的一种可行的途径。例如在自动驾驶中,一些学者提出根据不同的光照条件动态调整 RGB 和近红外图像的融合方式以提高系统的鲁棒性。
然而,这些动态融合方法发挥作用的机理一直是悬而未决的开放性问题:为什么动态融合优于广泛应用的静态融合?符合什么条件的动态性是多模态融合的保障?
针对上述问题,被 ICML 2023 录用的工作给出了相关的理论分析和证明(Provable Dynamic Fusion),明确给出了多模态融合问题中实现有效动态性的前提条件,指明了不确定性估计和多模态融合任务之间的关联。基于上述理论分析所设计的“基于质量的动态多模态融合方法”(Quality-aware Multimodal Fusion)在多个数据集上取得了优异性能。http://arxiv.org/abs/2306.02050代码链接:
https://github.com/QingyangZhang/QMF
理论发现
对于具有 M 个输入模态的两分类问题, 定义 作为单。模态 的分类器。晚期融合方法的最终预测是通过对不同模态的预测进行加权计算:,其中 代表最终预测。与静态融合相比,动态多模态融合中的权重是动态生成的,会针对不同的样本而变化。下文中使用下标来区分它们,例如 是在静态融合下模态 的集成权重, 指的是动态融合的权重。具体而言, 是一个常数,并且 是输入样本 的一个函数。那么,二分类多模态分类器 的泛化误差定义为:其中 表示联合分布, 是 Logistic 损失函数。为了方便起见,在下面的分析中文章将单模态分类器的损失简记为 为 。文章首先对多模态融合模型的泛化能力进行了刻画,给出了第一个定理:直观地说,定理 1 证明了多模态分类器的泛化误差能够被所有单模态学习器的经验损失、模型复杂性和融合权重与单模态损失之间的协方差三项的加权平均所 bound 住。在刻画了泛化误差上界之后,本文的下一个目标是寻找使得动态多模态融合优于静态融合的条件,即:在何种条件下定理 1 所刻画的泛化误差上界会更小?定理 2 针对这一问题给出了答案。理论上,在相同的函数类上进行高效的优化会得到相同的经验损失。假设对于每一种模态 ,在动态和静态融合中使用的单模型分类器 具有相同的架构,则单模态分类器的内在复杂度和经验风险可以是不变的。依据定理 2,此时实现有效动态多模态融合的主要挑战是为每种模态学习一个合理的 ,同时满足等式(5)和(6)。
受理论分析结果的启发,本文还提出了一种新的动态多模态融合方法,称为质量感知多模态融合(Quality-aware Multimodal Fusion,QMF)。基于前文中描述的理论框架,QMF 与静态方法相比具有可证明的更优的泛化能力。在常用的公开数据集上所得到的实验结果能够为理论分析结果提供实验支撑。其中,QMF 在大规模多模态分类数据集 FOOD-101 上实现了 92.92%(SOTA)的分类精度。
首先,文章重点讨论了如何满足等式(6)。在不确定性机器学习领域,各种不确定性估计方法的共同动机是指示模型给出的预测是否可能出错。这一动机在本质上非常接近获得满足等式(6)的权重。文章用以下假设来表述这一主张:上述假设认为:高效的不确定性估计器估计出的不确定性和模态的损失会有较强的正相关性。这一假设符合不确定性估计任务的本质动机,为探索新的动态融合方法和证明动态融合优于传统的静态融合方法提供了机会。
不确定性感知的融合权重 是一个与相应的不确定性呈线性负相关的函数:其中 , 是针对模态的超参数。 是模态 的不确定性。论文中通过一个引理来说明:通过调整超参数 ,,就可以确保动态融合权重同时满足公式(5)。此时,定理 2 中的两个条件均已经被满足。一旦得到了融合权重,就可以根据以下规则在决策层进行不确定性感知的加权融合:QMF 有效的直观解释:不失一般性地,假设 是干净的,而模态 由于未知的环境因素或传感器故障包含噪声。这时, 是在干净的训练数据的分布上,但是 显著偏离它。因此,有 并且 ,对于文章提出的 QMF 来说,多模态决策将倾向于更多地依赖高质量的模态 而不是模态 。通过动态地确定每种模式的融合权重,QMF 可以减轻不可靠的模态的影响。而论文中基于能量得分(energy score)所设计的权重计算方式恰好能够满足上述条件。
实验结果
文章在 NYU Depth V2、SUN RGBD、FOOD-101、MVSA 等四个数据集上进行了验证。实验结果表明,QMF 在室内场景识别(RGB+Depth)与图像文本分类任务上均取得了比基准方法更优的性能和噪声鲁棒性(更多实验结果可见原文)。
作者还通过实验观察发现:动态融合方法的性能与不确定性估计有着密不可分的联系,强大的不确定性估计方法能够获得相关性更强的权重,进而提升模型的鲁棒性,这一点和理论分析结果也能够相互印证。总结
许多先进的多模态模型引入了动态融合策略,但这些模型缺乏对动态性的理论性分析。本文构建一种新的动态多模态融合策略,从而实现复杂真实场景下鲁棒高性能的多模态融合。潜在的应用场景包括:1)自动驾驶、多模态医学诊断等代价敏感任务;2)模态质量动态变化、容易受噪声或传感器故障影响的场景;3)多模态机器学习理论。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧