Redian新闻
>
​ICML 2023 | 可证明的动态多模态融合框架:一个简单而有用的理论

​ICML 2023 | 可证明的动态多模态融合框架:一个简单而有用的理论

科技



©PaperWeekly 原创 · 作者 | 张庆阳
单位 | 天津大学智能与计算学部
研究方向 | 多模态机器学习



方法动机

多模态融合是多模态学习领域的基础问题。近年来,多模态动态融合在复杂场景的感知任务上取得了瞩目的效果。如自动驾驶领域中装配多种传感器的无人车、智能医疗领域中的各种临床检测数据。但现实世界中往往存在大量的低质量多模态数据:噪声、缺失模态,不平衡的多模态数据。

传统的融合方法往往忽略了由于环境因素、潜在传感器故障而导致的质量不可靠问题。近年来,相关研究者认为引入动态融合机制是获得可靠多模态预测的一种可行的途径。例如在自动驾驶中,一些学者提出根据不同的光照条件动态调整 RGB 和近红外图像的融合方式以提高系统的鲁棒性。

然而,这些动态融合方法发挥作用的机理一直是悬而未决的开放性问题:为什么动态融合优于广泛应用的静态融合?符合什么条件的动态性是多模态融合的保障?

针对上述问题,被 ICML 2023 录用的工作给出了相关的理论分析和证明(Provable Dynamic Fusion),明确给出了多模态融合问题中实现有效动态性的前提条件,指明了不确定性估计和多模态融合任务之间的关联基于上述理论分析所设计的“基于质量的动态多模态融合方法”(Quality-aware Multimodal Fusion)在多个数据集上取得了优异性能。
论文链接:
http://arxiv.org/abs/2306.02050

代码链接:

https://github.com/QingyangZhang/QMF




理论发现

对于具有 M 个输入模态的两分类问题, 定义 作为单。模态  的分类器。晚期融合方法的最终预测是通过对不同模态的预测进行加权计算:,其中  代表最终预测。
与静态融合相比,动态多模态融合中的权重是动态生成的,会针对不同的样本而变化。下文中使用下标来区分它们,例 在静态融合下模态 的集成权重, 的是动态融合的权重。具体而言,  一个常数,并且 输入样本 的一个函数。那么,二分类多模态分类器 的泛化误差定义为:
其中  表示联合分布, 是 Logistic 损失函数。为了方便起见,在下面的分析中文章将单模态分类器的损失简记为
文章首先对多模态融合模型的泛化能力进行了刻画,给出了第一个定理:
直观地说,定理 1 证明了多模态分类器的泛化误差能够被所有单模态学习器的经验损失、模型复杂性和融合权重与单模态损失之间的协方差三项的加权平均所 bound 住。在刻画了泛化误差上界之后,本文的下一个目标是寻找使得动态多模态融合优于静态融合的条件,即:在何种条件下定理 1 所刻画的泛化误差上界会更小?定理 2 针对这一问题给出了答案。
理论上,在相同的函数类上进行高效的优化会得到相同的经验损失。假设对于每一种模态 ,在动态和静态融合中使用的单模型分类器 具有相同的架构,则单模态分类器的内在复杂度和经验风险可以是不变的。依据定理 2,此时实现有效动态多模态融合的主要挑战是为每种模态学习一个合理的 ,同时满足等式(5)和(6)。



算法实现

受理论分析结果的启发,本文还提出了一种新的动态多模态融合方法,称为质量感知多模态融合(Quality-aware Multimodal Fusion,QMF)。基于前文中描述的理论框架,QMF 与静态方法相比具有可证明的更优的泛化能力。在常用的公开数据集上所得到的实验结果能够为理论分析结果提供实验支撑。其中,QMF 在大规模多模态分类数据集 FOOD-101 上实现了 92.92%(SOTA)的分类精度。

首先,文章重点讨论了如何满足等式(6)。在不确定性机器学习领域,各种不确定性估计方法的共同动机是指示模型给出的预测是否可能出错。这一动机在本质上非常接近获得满足等式(6)的权重。文章用以下假设来表述这一主张:

上述假设认为:高效的不确定性估计器估计出的不确定性和模态的损失会有较强的正相关性。这一假设符合不确定性估计任务的本质动机,为探索新的动态融合方法和证明动态融合优于传统的静态融合方法提供了机会。

不确定性感知的融合权重 是一个与相应的不确定性呈线性负相关的函数:
其中 是针对模态的超参数。 是模态 的不确定性。论文中通过一个引理来说明:通过调整超参数 ,就可以确保动态融合权重同时满足公式(5)。此时,定理 2 中的两个条件均已经被满足。
一旦得到了融合权重,就可以根据以下规则在决策层进行不确定性感知的加权融合:
其中, 表示单模态预测结果。
QMF 有效的直观解释:不失一般性地,假设 是干净的,而模态  由于未知的环境因素或传感器故障包含噪声。这时, 是在干净的训练数据的分布上,但是 显著偏离它。因此, 并且 对于文章提出的 QMF 来说,多模态决策将倾向于更多地依赖高质量的模态  而不是模态 。通过动态地确定每种模式的融合权重,QMF 可以减轻不可靠的模态的影响。而论文中基于能量得分(energy score)所设计的权重计算方式恰好能够满足上述条件。



实验结果

文章在 NYU Depth V2、SUN RGBD、FOOD-101、MVSA 等四个数据集上进行了验证。实验结果表明,QMF 在室内场景识别(RGB+Depth)与图像文本分类任务上均取得了比基准方法更优的性能和噪声鲁棒性(更多实验结果可见原文)。

作者还通过实验观察发现:动态融合方法的性能与不确定性估计有着密不可分的联系,强大的不确定性估计方法能够获得相关性更强的权重,进而提升模型的鲁棒性,这一点和理论分析结果也能够相互印证。




总结

许多先进的多模态模型引入了动态融合策略,但这些模型缺乏对动态性的理论性分析。本文构建一种新的动态多模态融合策略,从而实现复杂真实场景下鲁棒高性能的多模态融合。潜在的应用场景包括:1)自动驾驶、多模态医学诊断等代价敏感任务;2)模态质量动态变化、容易受噪声或传感器故障影响的场景;3)多模态机器学习理论。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML 2023|CMU大牛全面总结「多模态机器学习」六大挑战:36页长文+120页PPT,全干货!妻妾成群,不只在苏童笔下。。。。新品发布 | Unity-让成像简单而精彩!从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统中国人要打中国人一个简单的姿势就能轻松止鼾,让全家都睡个好觉超尴尬!一个简单的emoji却被外国同学理解偏了,差点“友尽”?青海省委书记:决不能让表态多调门高、行动少落实差、占位子不干事的干部舒服自在!中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT从感知到理解-融合语言模型的多模态大模型研究※※ 2023 唱坛5.4快闪【路过青春:闪亮青春 VS 狗血青春】合辑 + 母亲节活动【谁言寸草心】通知 ※※11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 20232023回国 申请手机号,银行账户,吃生煎(多图)多模态大语言模型综述来啦!一文带你理清多模态关键技术习近平:不断深化对党的理论创新的规律性认识 在新时代新征程上取得更为丰硕的理论创新成果有人讨论 中国西湖大学的 2023 暑假PROGRAM吗?​做一个没有职业标签的人:“你的工作和非工作状态融为一体了吗?”华硕灵耀 13 2023 超薄本深湖蓝配色上架:1cm 厚 / 1kg 重,6999 元起Met Gala 2023 红毯造型来啦!(更新到安妮海瑟薇、维拉·王、Gigi、刘思慕啦)达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力不要只追求模型收敛了,一个简单Trick让模型更稳定!绝对想不到更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」交往的至高境界:亲而有间,密而有疏为了纪念的回忆——王光美的特务问题和我父亲的冤案 任小彬 2023小说连载《东莞旧事》9.亦正亦邪的香港黑帮基于信息论的校准技术,CML让多模态机器学习更可靠智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手KDD 2023 | 因果启发的可解释框架:大模型解释的高效之路​ICML 2023 | Test Time Adaptation的理论理解与新的方法一个简单的代码拼写错误导致17个生产数据库被删!微软Azure DevOps宕机10小时始末炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!猫爷,我们家的老大可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出Mass shootings in the U.S. 1982腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态语音播报│推进理论的体系化、学理化——不断深化对党的理论创新的规律性认识④澳街头采访:这样一个简单的问题,竟难倒不少人……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。