Redian新闻
>
低质多模态数据融合,多家机构联合出了篇综述论文

低质多模态数据融合,多家机构联合出了篇综述论文

公众号新闻

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


多模态融合是多模态智能中的基础任务之一。

多模态融合的动机在于联合利用来自不同模态的有效信息提升下游任务的准确性和稳定性。传统的多模态融合方法往往依赖高质量数据,难以适应现实应用中的复杂低质的多模态数据。

由天津大学、中国人民大学、新加坡科技研究局、四川大学、西安电子科技大学以及哈尔滨工业大学(深圳)共同发布的低质多模态数据融合综述《Multimodal Fusion on Low-quality Data:A Comprehensive Survey》从统一视角介绍了多模态数据的融合挑战,并针对低质多模态数据的现有融合方式及该领域潜在的发展方向进行了梳理。


arXiv链接:
http://arxiv.org/abs/2404.18947
awesome-list链接:
https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning

传统多模态融合模型‍‍‍

人类通过融合多个模态的信息对世界进行感知。

即使某些模态的信号不可靠时,人类也具备处理这些低质量多模态数据信号并感知环境的能力。

尽管多模态学习已取得了长足的发展,多模态机器学习模型仍缺乏有效融合真实世界中低质量多模态数据的能力。实践经验中,传统多模态融合模型的性能在以下场景下会存在显著下降:

(1)噪声多模态数据:部分模态的某些特征受噪声扰动而丢失了原有的信息。真实世界中,未知的环境因素、传感器故障、信号在传输过程中的丢失都可能引入噪声的干扰,进而损害多模态融合模型的可靠性。

(2)缺失多模态数据:由于各种现实因素,实际收集到的多模态数据样本的某些模态可能存在缺失。例如在医学领域,病人的各项生理检查结果所构成的多模态数据可能存在严重的缺失现象,某些病人可能从未做过某一项检查。

(3)不平衡多模态数据:由于模态之间的异质编码属性和信息质量差异存在不一致的现象,进而导致模态间学习不平衡问题的出现。多模态融合过程中,模型可能过度依赖某些模态,而忽视其他模态所包含的潜在有效信息。

(4)动态低质的多模态数据:由于应用环境的复杂多变,不同样本、不同时空,模态质量具有动态变化特性。低质模态数据的出现往往难以提前预知,这为多模态融合带来了挑战。

为了充分刻画低质量多模态数据的性质及处理方法,该文章对目前的低质量多模态融合领域的机器学习方法进行了总结,系统回顾了该领域的发展过程,并进一步展望了需进一步研究的问题。 


图1. 低质量多模态数据分类示意图,黄色和蓝色代表两个模态,颜色越深代表质量越高

多模态融合中的去噪方法

问题定义:

噪声是导致多模态数据质量下降的最常见原因之一。

本文主要关注两类噪声:

(1)模态相关的多模态噪声。这类噪声可能是由于传感器误差(如医疗诊断中的仪器误差)、环境因素(如自动驾驶中的雨雾天气)等因素导致,噪声局限于某个特定的模态内部的某些特征层面上。

(2)语义级别的跨模态噪声。这类噪声是由模态之间高层语义的不对齐现象导致,相比于特征层的多模态噪声更难以处理。幸运的是,由于多模态数据模态之间的互补性和信息的冗余性,在多模态融合过程中,联合多个模态的信息进行去噪已被证明是行之有效的策略。

方法分类:

特征级别的多模态去噪方法高度依赖于实际任务中所涉及到的具体模态。

本文主要以多模态图像融合任务为例进行说明。在多模态图像融合中,主流的去噪方法包括加权融合及联合变分两大类。

加权融合方法考虑到特征噪声具有随机性而真实数据服从特定分布,进而通过加权求和的方式消除噪声的影响;

联合变分方法则是对传统单模态图像变分去噪的拓展,能够将去噪过程转化为优化问题的求解过程,并利用来自多个模态的互补性信息来提升去噪效果。语义级别的跨模态噪声由弱对齐或不对齐的多模态样本对导致。

例如,在联合RGB和热感图像的多模态目标检测任务中,由于传感器的差异,尽管同一个目标在两个模态中都有出现,但是其精准的位置和姿态在不同的模态中可能略有不同(弱对齐),为精准估计位置信息带来了挑战。

在社交媒体的内容理解任务中,一个样本(例如一条微博)的图像和文本模态所包含的语义信息可能相差甚远,甚至毫不相干(完全不对齐),这进一步为多模态融合带来更大的挑战。处理跨模态语义噪声的方式包括规则过滤、模型过滤、噪声鲁棒的模型正则化等方法。

未来展望:

尽管对数据噪声的处理早已在经典机器学习任务中得到了广泛的研究,但在多模态场景下,如何联合利用模态之间的互补性和一致性以弱化噪声的影响依然是一个亟待解决的研究问题。

此外,与传统的特征级别的去噪不同,如何在多模态大模型的预训练和推断过程中解决语义级别的噪声是有趣且极富挑战性的问题。

 

表1. 针对噪声的多模态融合方法分类

缺失多模态数据融合方法

问题定义:

真实场景下所收集的多模态数据往往是不完整的,由于存储设备损坏、数据传输过程的不可靠等各种因素,多模态数据时常不可避免的丢失掉部分模态的信息。

例如:在推荐系统中,用户的浏览记录和信用等级等构成了多模态的数据,然而,由于权限和隐私问题,往往无法完全收集到用户所有模态的信息来构建多模态学习系统。

在医疗诊断中,由于某些医院的设备有限、特定的检查成本较高,不同的病人的多模态诊断数据往往也是高度不完整的。

方法分类:

按照「是否需要显式的对缺失多模态数据进行补全」的分类原则,缺失多模态数据融合方法可分为:

(1)基于补全的多模态融合方法

基于补全的多模态融合方法包括模型无关的补全方法:例如直接通过对缺失模态填充0值或残余模态的均值的补全方法;

基于图或核的补全方法:这类方法不直接学习如何补全原始多模态数据,而是为每个模态构造图或核,进而学习样本对之间的相似度或关联度信息,进而对缺失数据进行补全;

直接在原始特征级别进行补全:部分方法利用生成模型,如生成对抗网络GAN及其变体直接补全缺失的特征。

(2)无需补全的多模态融合方法。

与基于补全的方法不同,无需补全的方法重点关注如何利用未缺失的模态所包含的有用信息融合出尽可能好的表征,这类方法往往对期望学习到的统一表征添加约束,使得此表征能够体现可观察到的模态数据的完整信息,以绕开补全过程进行多模态融合。

图2. 基于补全的缺失多模态数据融合方法分类

未来展望:

尽管目前国内外已提出了许多方法来解决聚类、分类等经典机器学习任务中的不完整多模态数据融合问题,但依然存在一些更深层次的挑战。

例如:关于缺失模态补全方案中的补全数据的质量评估通常被忽视。

此外,利用先验缺失数据位置信息屏蔽缺失模态的策略本身难以弥补模态缺失带来的信息鸿沟和信息不平衡问题。

表2. 针对缺失多模态数据的融合方法分类

平衡的多模态融合方法

问题定义:

在多模态学习中,通常用联合训练的方式整合不同模态数据以提高模型的整体性能和泛化表现。然而,这类广泛采用的、使用统一学习目标的联合训练范式忽略了不同模态数据的异质性

一方面,不同模态在数据来源及形式方面的异质性,使得它们在收敛速度等方面具有不同的特点,从而使所有模态难以同时得到很好的处理和学习,给多模态联合学习带来了困难;

另一方面,这种差异也反映在单模态数据的质量上。尽管所有模态都描述了相同的概念,但它们与目标事件或目标对象相关的信息量却各不相同。基于最大似然学习目标的深度神经网络具有贪婪学习的特点,导致多模态模型往往依赖于具有高判别信息的、较易学习的高质量模态,而对其他模态信息建模不足。

为了应对这些挑战并提高多模态模型的学习质量,平衡多模态学习的相关研究最近得到了广泛关注。

方法分类:

按照平衡角度的不同,可将相关方法分为基于特性差异的方法基于质量差异的方法

(1)广泛使用的多模态联合训练框架往往忽视了单模态数据固有的学习属性差异,这可能会对模型的性能产生负面影响。基于特性差异的方法是从每种模态在学习特性上的差异入手,在学习目标、优化、架构方面尝试解决这一问题。

(2)最近的研究进一步发现,多模态模型往往严重依赖于某些高质量信息模态,而忽略了其他模态,导致对所有模态学习不足。基于质量差异的方法从这一角度入手,从学习目标、优化方法、模型架构和数据增强的角度尝试解决这一问题并促进多模态模型对不同模态的均衡利用。

表3. 平衡多模态数据融合方法分类

未来展望:

平衡多模态学习方法主要针对多模态数据的异质性所导致的不同模态间学习特性或数据质量上的差异。这些方法从学习目标、优化方法、模型架构和数据增强等不同角度提出了解决方案。

平衡多模态学习当前是一个蓬勃发展的领域,有很多理论和应用方向还没有得到充分探索。例如,目前的方法主要局限于典型的多模态任务,其大多是判别性任务和少数生成性任务。

除此以外,多模态大模型也需要联合具有不同质量的模态数据,也存在这种客观上的不平衡问题,据此期望在多模态大模型场景中扩展现有研究或设计新的解决方案。

动态多模态融合方法

问题定义: 

动态多模态数据指的是模态的质量随输入样本、场景的不同而动态改变。例如自动驾驶场景中,系统通过RGB和红外传感器获取路面和目标信息,在光照较好的情况下,RGB摄像头由于能够捕捉目标的丰富纹理和色彩信息,可以更好地支持智能系统的决策;

然而在光照不足的夜间,红外传感器提供的感知信息则更为可靠。如何使得模型能够自动感知到不同模态质量的变化,从而进行精准和稳定的融合,是动态多模态融合方法的核心任务。
 

表4. 动态多模态融合方法分类

方法分类:

动态多模态融合方法可以大致分为三类: 

(1)启发式动态融合方法:

启发式动态融合方法依赖算法设计者对多模态模型应用场景的理解,一般通过针对性地引入动态融合机制来实现。

例如,在RGB/热感信号协同的多模态目标检测任务中,研究者启发式地设计了光照感知模块以动态评估输入图像的光照情况,并基于光照强度动态调节RGB和热感模态的融合权重进行环境适应。当亮度较高时,主要依赖RGB模态进行决策,反之则主要依赖热感模态进行决策。

(2)基于注意力机制的动态融合方法:

基于注意力机制的动态融合方法主要聚焦于表示层融合。注意力机制本身就具有动态特性,因此,可以自然地用于多模态动态融合任务。

Self-attention、Spatial attention、Channel attention以及Transformer等多种机制被广泛用于多模态融合模型的构建。这类方法在任务目标的驱动下自动地学习如何进行动态融合。基于注意力机制的融合,在缺乏显式或者启发式引导情况下也能够一定程度上适应动态低质量的多模态数据。

(3)不确定性感知的动态融合方法:

不确定性感知的动态融合方法往往具有更加清晰、可解释的融合机制。与基于注意力机制的复杂融合模式不同,不确定性感知的动态融合方法依靠对模态的不确定性估计(如证据、能量、熵等)来适应低质量多模态数据。

具体地,不确定性感知能够用于刻画输入数据各个模态的质量变化情况。当输入样本的某个模态质量变低时,模型基于该模态决策的不确定性随之变高,为后续融合机制设计提供明确指导。此外,相比于启发式和注意力机制,不确定性感知的动态融合方法可以提供良好的理论保证。

未来展望:

尽管在传统的多模态融合任务中,不确定性感知的动态融合方法的优越性已经从实验和理论上得到了证明,但是,在SOTA的多模态模型(不限于融合模型,如CLIP/BLIP等)中,动态性的思想还具有较大挖掘和应用潜力。

此外,具有理论保证的动态融合机制往往局限于决策层面,如何使得其在表征层发挥作用也值得思考和探索。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AIConCVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升关注|多家机构预测央行降息至3%!5年固定利率惊现4.54%!但更多人选择浮动...年少时的梦啊七绝二首(新韵)刚刚,澳洲八大联合出手!为了留学生!留学签证大幅下降,申请量剧减全球首个「油电平权」智驾方案:10万级入门标配高速NOA,高通Momenta联合出品金一南:中伊俄联合出手,昭示了什么重大信息!通用多模态人工智能:架构、挑战和机遇综述Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型Apple多模态最新工作4M-21:搞定21种模态!刷新多个SOTA!葡萄牙卡斯凯什(Cascais),小街小巷一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V侯毅、张勇联合出价20亿美元竞购盒马?盒马回应!8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquareCVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯20小时搞定一篇综述!中科院博士强推的SCI速写套路,3.72万人都在学~ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性看看完美婚姻是如何走向死亡的实时可编辑3D重建!鼠标拖拽就能控制,港大VAST浙大联合出品鲶鱼效应显著!Sora 发布满月,多模态领域成果丰硕 | 大模型一周大事多模态融合56个创新点汇总!中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响揭秘 AI 多模态融合的“智慧核心”:六校联合发布低质数据融合新篇章CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能1个小时出一篇综述?这个医学AI太强了..GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4《尘封档案》拾遗之057:申城反标案零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSRGLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生多模态融合再度领跑ICLR 2024!这56种创新SOTA方案必看
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。