ICML 2023 | 可证明的动态多模态融合框架：一个简单而有用的理论

2023-06-29 05:06

©PaperWeekly 原创 · 作者 | 张庆阳

单位 | 天津大学智能与计算学部

研究方向 | 多模态机器学习

方法动机

多模态融合是多模态学习领域的基础问题。近年来，多模态动态融合在复杂场景的感知任务上取得了瞩目的效果。如自动驾驶领域中装配多种传感器的无人车、智能医疗领域中的各种临床检测数据。但现实世界中往往存在大量的低质量多模态数据：噪声、缺失模态，不平衡的多模态数据。

传统的融合方法往往忽略了由于环境因素、潜在传感器故障而导致的质量不可靠问题。近年来，相关研究者认为引入动态融合机制是获得可靠多模态预测的一种可行的途径。例如在自动驾驶中，一些学者提出根据不同的光照条件动态调整 RGB 和近红外图像的融合方式以提高系统的鲁棒性。

然而，这些动态融合方法发挥作用的机理一直是悬而未决的开放性问题：为什么动态融合优于广泛应用的静态融合？符合什么条件的动态性是多模态融合的保障？

针对上述问题，被 ICML 2023 录用的工作给出了相关的理论分析和证明（Provable Dynamic Fusion），明确给出了多模态融合问题中实现有效动态性的前提条件，指明了不确定性估计和多模态融合任务之间的关联。基于上述理论分析所设计的“基于质量的动态多模态融合方法”（Quality-aware Multimodal Fusion）在多个数据集上取得了优异性能。

论文链接：

http://arxiv.org/abs/2306.02050

代码链接：

https://github.com/QingyangZhang/QMF

理论发现

对于具有 M 个输入模态的两分类问题，定义作为单。模态的分类器。晚期融合方法的最终预测是通过对不同模态的预测进行加权计算：

，其中代表最终预测。

与静态融合相比，动态多模态融合中的权重是动态生成的，会针对不同的样本而变化。下文中使用下标来区分它们，例如是在静态融合下模态的集成权重，指的是动态融合的权重。具体而言，是一个常数，并且是输入样本的一个函数。那么，二分类多模态分类器的泛化误差定义为：

其中表示联合分布，是 Logistic 损失函数。为了方便起见，在下面的分析中文章将单模态分类器的损失简记为为。

文章首先对多模态融合模型的泛化能力进行了刻画，给出了第一个定理：

直观地说，定理 1 证明了多模态分类器的泛化误差能够被所有单模态学习器的经验损失、模型复杂性和融合权重与单模态损失之间的协方差三项的加权平均所 bound 住。在刻画了泛化误差上界之后，本文的下一个目标是寻找使得动态多模态融合优于静态融合的条件，即：在何种条件下定理 1 所刻画的泛化误差上界会更小？定理 2 针对这一问题给出了答案。

理论上，在相同的函数类上进行高效的优化会得到相同的经验损失。假设对于每一种模态，在动态和静态融合中使用的单模型分类器具有相同的架构，则单模态分类器的内在复杂度和经验风险可以是不变的。依据定理 2，此时实现有效动态多模态融合的主要挑战是为每种模态学习一个合理的，同时满足等式（5）和（6）。

算法实现

受理论分析结果的启发，本文还提出了一种新的动态多模态融合方法，称为质量感知多模态融合（Quality-aware Multimodal Fusion，QMF）。基于前文中描述的理论框架，QMF 与静态方法相比具有可证明的更优的泛化能力。在常用的公开数据集上所得到的实验结果能够为理论分析结果提供实验支撑。其中，QMF 在大规模多模态分类数据集 FOOD-101 上实现了 92.92%（SOTA）的分类精度。

首先，文章重点讨论了如何满足等式（6）。在不确定性机器学习领域，各种不确定性估计方法的共同动机是指示模型给出的预测是否可能出错。这一动机在本质上非常接近获得满足等式（6）的权重。文章用以下假设来表述这一主张：

上述假设认为：高效的不确定性估计器估计出的不确定性和模态的损失会有较强的正相关性。这一假设符合不确定性估计任务的本质动机，为探索新的动态融合方法和证明动态融合优于传统的静态融合方法提供了机会。

不确定性感知的融合权重是一个与相应的不确定性呈线性负相关的函数：

其中，是针对模态的超参数。是模态的不确定性。论文中通过一个引理来说明：通过调整超参数，，就可以确保动态融合权重同时满足公式（5）。此时，定理 2 中的两个条件均已经被满足。

一旦得到了融合权重，就可以根据以下规则在决策层进行不确定性感知的加权融合：

其中，表示单模态预测结果。

QMF 有效的直观解释：不失一般性地，假设是干净的，而模态由于未知的环境因素或传感器故障包含噪声。这时，是在干净的训练数据的分布上，但是显著偏离它。因此，有并且，对于文章提出的 QMF 来说，多模态决策将倾向于更多地依赖高质量的模态而不是模态。通过动态地确定每种模式的融合权重，QMF 可以减轻不可靠的模态的影响。而论文中基于能量得分（energy score）所设计的权重计算方式恰好能够满足上述条件。

实验结果

文章在 NYU Depth V2、SUN RGBD、FOOD-101、MVSA 等四个数据集上进行了验证。实验结果表明，QMF 在室内场景识别（RGB+Depth）与图像文本分类任务上均取得了比基准方法更优的性能和噪声鲁棒性（更多实验结果可见原文）。

作者还通过实验观察发现：动态融合方法的性能与不确定性估计有着密不可分的联系，强大的不确定性估计方法能够获得相关性更强的权重，进而提升模型的鲁棒性，这一点和理论分析结果也能够相互印证。

总结

许多先进的多模态模型引入了动态融合策略，但这些模型缺乏对动态性的理论性分析。本文构建一种新的动态多模态融合策略，从而实现复杂真实场景下鲁棒高性能的多模态融合。潜在的应用场景包括：1）自动驾驶、多模态医学诊断等代价敏感任务；2）模态质量动态变化、容易受噪声或传感器故障影响的场景；3）多模态机器学习理论。

更多阅读