Redian新闻
>
CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

公众号新闻


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


  • 论文链接:https://arxiv.org/abs/2403.12494
  • 代码链接:https://github.com/YangSun22/TC-MoA
  • 论文题目:Task-Customized Mixture of Adapters for General Image Fusion

 图 1 不同融合任务的源图像对融合结果的主导强度变化

研究背景与动机

图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上。这种方式通常被用于提取图片重要信息和提高视觉质量。

目前,一般的图像融合主要包括多模态、多曝光、多焦图像融合等。融合任务表现出不同的融合机制。多曝光图像融合(MEF)的重点是将具有多个曝光程度的图像序列转换成一个高质量的全曝光图像。每个源图像为融合的图像提供自己的光照和结构信息。可见红外图像融合(VIF)是一种多模态图像融合(MMF),旨在融合红外和可见模态的互补信息,产生鲁棒且信息丰富的融合图像。红外图像提供更多的强度信息,而可见图像提供更多的纹理和梯度信息。多聚焦图像融合(MFF)的目的是从一系列部分聚焦的图像中生成一个全聚焦的图像。多聚焦融合图像的每个清晰区域通常只需要学习一个源图像。因此,可以观察到,MEF 和 VIF 任务是多源相对平等的融合,而 MFF 是多源地位较为极端的任务,对图像的某一区域而言,往往表现出极化的选择。

随着深度学习技术的快速发展,近年来图像融合领域取得了很大的进展,而现有的方法大多只关注单一图像融合场景,通常为单一任务采用特定策略,如为某任务设计的复杂网络或任务特定的损失函数,导致无法直接应用在其他任务上。考虑到不同融合任务的本质相同,即整合来自多个源图像的重要信息,最近提出的一些方法,试图使用统一的模型处理多种融合任务,构建通用的图像融合。然而,这些方法要么有主导任务偏差,要么为了多任务共性而牺牲个性,导致次优的性能。这促使我们探索一个更兼容的融合范式,它可以自适应地动态地兼容不同的融合场景。

为了处理这一挑战,受到预训练基座模型强大的特征表示能力的启发,我们引入了基座模型作为一个冻结的编码器来提取多源图像的互补特征。与大多数现有方法不同的是,我们借鉴了混合专家(MoE)的思想,将每个专家作为一个高效的微调适配器,基于基座模型执行自适应视觉特征提示融合。任务特定的路由网络定制这些适配器的混合,为不同的源生成任务特定的融合提示,形成一种新的任务定制混合适配器(TC-MoA)架构。另外,我们设计了互信息正则化来约束融合提示,从而保证了对不同来源的互补性。值得注意的是,融合提示具有显著的任务偏差和模态主导强度差异。如图 1 所示,MFF 的提示比 VIF 和 MEF 的色差更大,说明特征选择在优势模态的强度偏差上具有更多的双极性。我们的模型有效地感知了单一模型中不同融合任务之间的融合强度偏差,因此与更广泛的融合任务相兼容。

大量的实验验证了我们在通用图像融合方面的优越性,包括多模态、多曝光和多焦点融合。更重要的是,我们的 TC-MoA 甚至对未知的融合任务显示出了创造性的可控性和泛化性,充分展示了我们在更广泛的融合场景中的潜力。

主要贡献

  • 我们提出了一个统一的通用图像融合模型,提供了一种新的任务定制混合适配器(TC-MoA)用于自适应多源图像融合(受益于动态聚合各自模式的有效信息)。
  • 我们为适配器提出了一种互信息正则化方法,这使得我们的模型能够更准确地识别不同源图像的主导强度。
  • 据我们所知,我们首次提出了一种基于 MoE 的灵活适配器。通过只添加 2.8% 的可学习参数,我们的模型可以处理许多融合任务。大量的实验证明了我们的竞争方法的优势,同时显示了显著的可控性和泛化性。

核心方法

如图 2 所示,给定一对源图像,网络整合来自不同源的互补信息,获得融合图像。我们将源图像输入 ViT 网络,并通过 patch 编码层获得源图像的 Token。ViT 由一个用于特征提取的编码器和一个用于图像重建的解码器组成,这两者都是由 Transformer 块组成的。

在编码器和解码器中,每个 Transformer 块插入一个 TC-MoA。网络通过这些 TC-MoA 逐步调制融合的结果。每个 TC-MoA 由一个特定于任务的路由器银行,一个任务共享适配器银行和一个提示融合层F组成。TC-MoA 包括两个主要阶段:提示生成和提示驱动的融合。为了便于表达,我们以 VIF 为例,假设输入来自 VIF 数据集,并使用G来表示

图 2  TC-MoA 的总体架构

提示生成。首先,获得后续处理的多源特征。将第 j 个 TC-MoA 之前的网络结构定义为,并提取提示生成特征定义为。我们将作为多源 Token 对的特征表示拼接起来。这允许来自不同来源的 Token 在后续的网络中交换信息。然而,直接计算高维的拼接特征会带来大量不必要的参数。因此,我们使用进行特征降维,得到处理后的多源特征,如下:


然后,根据 Φ 所属的任务,我们从路由器银行中选择一个任务特定的路由器来定制路由方案,即,每对源 Token 应该输入适配器银行中的哪个适配器。


最后,我们对适配器的输出进行加权求和,以获得融合提示。每个路由器都有任务偏好来定制合适的适配器混合,然后通过适配器混合生成提示,计算方法如下:


提示驱动的融合。任务定制的提示受到互信息正则化(MIR)的约束,这保证了对不同源的互补性。因此,提示可以作为对每个来源中重要信息的比例的估计。通过多源特征和提示的点乘,我们在去除冗余信息的同时保留了互补信息。然后,考虑到特征表示应该包含源相关的偏置(如可见或红外图像),我们为每个源引入输入无关的可学习参数,即源编码 s。特征在经过提示修饰和源偏置,我们得到细化的源特征,然后经过融合层 F 获得融合特征,过程如下:


最终,我们通过任务定制的提示获得了一个融合特征。为了鼓励模型逐步地提取重要信息,我们对输出到下一个 Transformer 块的特征定义如下(是一个超参数):


互信息正则。为了保证模型在丢弃多源特征冗余信息的同时,动态地保留互补信息,我们对提示符施加了正则化约束。假设特征表示呈线性变化,我们定义 MIR 如下:


实验效果

定性和定量实验。如图 3-5 和表 1-3 所示,在三个融合任务上的定性和定量对比表明我们的方法性能超越以往的通用融合方法。与特定任务的方法相比,我们的方法在所有任务上也达到了先进水平,甚至在部分任务(VIF)上达到了领先水平。证明了所提方法的优越性。

图 3 VIF 任务 LLVIP 数据集上的定性比较实验 

图 4 MEF 任务 MEFB 数据集上的定性比较实验 

图 5 MFF 任务数据集上的定性比较实验 

表 1 VIF 任务 LLVIP 数据集上的定量比较实验 

表 2 MEF 任务 LLVIP 数据集上的定量比较实验 

表 3 MFF 任务 LLVIP 数据集上的定量比较实验

图 6 域内任务的可控性和未知任务的泛化性

可控性和泛化性如图 6 所示,通过控制融合提示的超参数 α 和 β,我们可以分别控制模型对源图像互补信息的特征选择强度(区域级)和融合图像与某个源图像的相似度(图像级)。我们可以通过线性变换融合提示,最终实现生成定制的融合图像。对于已知的任务,如多曝光融合,我们可以得到定制化的最符合人类感知的融合结果。对于未知任务,我们可以调制出最合适的融合参数,将模型泛化到未知任务。






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
※※※※※※ 2024【新春对对碰】活动大合辑※※※※※※大三本科生在CVPR 2024上发表论文!还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力《东风第一枝 - 元夕》CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品2024 初春 二月繁花~我们就是黑手党,怎么着通用图大模型HiGPT:一己之力建模任何图结构关系!来自港大数据智能实验室&百度CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题宾州詹金斯植物园(Jenkins Arboretum),幽幽小景CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRMCVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构突发!Fed 今年(2024)不会降息。花街预测脚踝的灵活性CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别2024 Chinese New Year's Dinner精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR、AAAI、ICLR 2024优秀论文!马斯克:聪明的人要多生育【Poem Reading Tuesday】all the time I pray to Buddha by KobayashiCVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。