Redian新闻
>
CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法

CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

作者:奥本海默  |(已授权转载)编辑:CVer
https://zhuanlan.zhihu.com/p/617936182

论文:https://arxiv.org/abs/2211.14461

本文为大家带来CVPR 2023在图像融合领域的最新工作CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition,作者是西安交通大学的赵子祥博士 @沙坡村民工,大家也可以看作者的知乎主页哈。本文的整体架构和赵博士先前在IJCAI上发表的DIDFuse有继承关系,这次的亮点是1.结合CNN和当前火爆的Transformer;2.将特征解耦的思想引入了图像融合,将跨模态信息分解为共有信息和特有信息,类似于DRF等融合模型;3.两阶段训练法,第一阶段采用的输入和输出都是源图像的自监督方式,SD-Net、SFA-Fuse采用了这类思想;4.用高级视觉任务验证了融合效果。

下面是正文部分。

多模态图像融合目的是结合各个模态图像的特点,如有物理含义的高亮区域和纹理细节。为了能对跨模态进行有效建模,并分解得到期望的各模态共有特征和特有特征,本文提出了Correlation-Driven feature Decomposition Fusion (CDDFuse) 来进行多模态特征分解和图像融合。本文模型分为两阶段,第一阶段CDDFuse首先使用Restormer块来提取跨模态浅层特征,然后引入双分支Transformer-CNN特征提取器,其中 Lite Transformer (LT)块利用长程注意力处理低频全局特征, Invertible Neural Networks (INN) 块则用来提取高频局部特征。基于嵌入的语义信息,低频特征应该是相关的,而高频特征应该是不相关的。因此,提出了相关性驱动损失函数,让网络可以对特征进行更有效的分解。第二阶段,前述的LT和INN模块会输出融合图像。实验部分展示了ir-vis和医学影像融合两种任务,并且还验证了CDDFuse可以提升ir-vis对分割、检测等下游任务的效果提升。

目前已有的多模态图像融合模型很多采用自编码器结构,如下图a。

但是这种方式有三个缺陷:1.CNN的解释性较差,难以控制,对跨模态特征提取不够充分,如上图a前两种都是多模态输入共享编码器,因此难以提取到模态特有的特征,而第三种双分支结构则忽略了各个模态共有属性;2.上下文独立的CNN结构只能在相对小的感受野内提取到局部信息,很难捕获全局信息,因此目前还不清楚 CNN 的归纳偏差能否对所有模态的输入充分提取特征;3.网络的前向传播会造成高频信息丢失

本文探索了一种合理的范式来解决特征提取和融合上的问题。首先给提取到的特征添加相关性约束,提高特征提取的可控制性和可解释性,本文的假设是对于多模态图像融合,两个模态的输入特征在低频上是相关的,表示了所有模态的共有信息,在高频上是不相关的,表示了各个模态独有的信息。比如ir-vis融合,红外与可见光图的场景相同,在低频信息上包含统计上的共有信息,比如背景和大尺度环境特征,而高频部分的信息则是独立的,比如可见光模态纹理细节信息和红外模态的温度信息都是各自模态特有的。因此需要通过分别提高低频部分特征之间相关性、降低高频特征之间的相关性来促进跨模态特征提取。transformer目前在视觉任务上很成功,主要得益于它的自注意力机制和全局特征提取能力,但是往往很大的计算资源,因此本文提出让transformer结合CNN的局部上下文提取和计算高效性的优势。最后,为了解决丢失期望高频输入信息的问题,引入了Invertible Neural networks (INN)块,INN 是通过可逆性设计让输入和输出特征的相互生成来防止信息丢失,符合融合图像中保留高频特征的目标。

模型方法

模型整体结构如下图,整体分为四个模块:双分支编码器用于特征提取与分解、解码器用于训练阶段I的图像重建或者训练阶段II的图像融合、base/detail融合层用于融合不同频率的特征。

编码器:包含三部分:Restormer block - based share feature encoder (SFE)、Lite Transformer (LT) block - based base transformer encoder (BTE) 、 Invertible Neural networks (INN) block - based detail CNN encoder (DCE),其中BTE和DCE共同组成长短距离编码器。对于输入的三通道可见光图和单通道红外图,用S、B、D分别表示SFE、BTE、DCE三个模块。首先来看用来提取共有特征的SFE模块,它的目标是提取浅层特征,如下式。

在SFE中使用Restormer block的原因是利用维度间的自注意力机制提取全局特征,因此可以不增加算力的情况下提取跨模态浅层特征,这里采用的Restormer block结构来源于 Syed Waqas Zamir, Aditya Arora, Salman H. Khan, Munawar Hayat, Fahad Shahbaz Khan, and Ming-Hsuan Yang. Restormer: Efficient transformer for high-resolution image restoration. CoRR, abs/2111.09881, 2021.

BTE用来从共有特征中提取低频基特征,如下式。

为了能提取城距离dependency,使用具有空间自注意力的transformer,为了能平衡效果和运算效率,这里采用了LT block作为BTE的基础单元,可以在降低参数量的情况下保证效果。

DCE和BTE相反,用来提取高频细节信息,如下式。

考虑到边缘纹理信息在融合任务中也很重要,这里就希望DCE能尽量保留更多的细节。INN模块通过输入和输出能相互生成来确保输入信息被尽可能保留,因此可以在DCE中用于无损特征提取,具体实现时是用INN搭配affine coupling层,每个可逆层的变换如下。

上式过程和图2的b中过程是对应的,图中BRB的结构如图2中的d(来源于MobileNetV2),每个可逆层中的BRB都可以看做是无损信息映射。

融合层:用于将编码器提取到的特征进行融合。考虑到 base/detail 特征融合的归纳偏置应该和编码器的 base/detail 特征提取相同,使用LT和INN块来实现 base/detail 融合层,如下式。

解码器:解码器首先将分解的特征在通道维度拼接作为输入,然后在训练阶段I将源图作为输出,在训练结算II将融合图作为输出,如下式。

由于输入的特征是跨模态且多频段特征,因此让解码器结构和SFE保持一致,即将Restormer block作为基础单元。

两阶段训练:由于没有GT,采用和RFN-Nest相同的两阶段训练法。一阶段将ir-vis作为SFE的输入来提取浅层特征,然后BTE和DCE提取高低频特征,然后再把红外的base和detail特征拼接,可见光的base和detail特征拼接,送到解码器中,分别用来重建原始输入的红外图和可见光图。二阶段训练时的编码器部分相同,不同之处为提取到base和detail特征之后,可以看图2的c,需要将红外和可见光的base特征相加,detail特征也分别相加,然后分别送入base和detail融合层中,输出再在通道维度上拼接,经过解码器后就是融合图像F了。

损失函数:一阶段损失函数如下。

前两项是红外和可见光的重建损失,第三项是特征分解损失。一阶段损失整体是为了编码和解码过程中信息不会损失。

第一项红外重建损失形式如下。

第二项的可见光重建损失和上式形式是一样的,换成可见光图即可。

特征分解损失形式如下。

式中的CC是融合中常用的指标correlation coefficient。这一项损失就是前文中描述的让共有特征之间距离尽量近、特有特征之间距离尽量远,搭配相关系数可以测量特征之间距离了,因此将低频base特征作为分母,高频detail特征作为分子。该部分分解的效果如下图。

二阶段的损失函数形式如下。


实验部分

实验使用ir-vis融合来演示,选择了MSRS、Roadscene、TNO三个经典数据集。训练时将图片裁切为128×128的patch,训练120个epoch,其中第一阶段和第二阶段分别为40和80,batch设置为16。其他训练细节可以直接看原文。

方法之间的对比可以看下图。

消融实验有三部分。第一部分是分解损失,将base和detail损失由相除变为相减,另一个是直接去除分解损失。编码器中的LT和INN块也进行了消融实验,分别是将BTE中的LT换为INN、DCE中的INN换为LT、DCE中的INN换为CNN。最后一个是两阶段训练的实验,也就是直接采用一阶段训练法,用第二阶段的融合图像作为约束训练网络,可以看到效果差了很多。

下游高级视觉任务的对比,展示了检测和分割两种任务上的效果。首先是检测,这里采用了M3FD数据集,将YOLOv5作为检测器,训练400个epoch,指标选为[email protected],结果如下表。

分割任务使用MSRS数据集,使用DeeplabV3+作为分割模型,评价指标选择IoU,结果如下表。

另一组多模态图像融合实验是针对医学影像进行的,选取了Harvard Medical website中286个图像对,包含MRI-CT、MRI-PET、MRI-SPECT三种图像对数据,对比结果如下图。

点击进入—>【计算机视觉】微信技术交流群


最新CVPP 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
RWKV:在Transformer时代重振RNNICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架2023,还能靠Transformer轻松发论文么?比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeyCVPR 2023 | 即插即用!BRA:新注意力,BiFormer:一种视觉新主干清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合SRCNN、DRCN、FSRCNN、ESPCN、SRGAN、RED…你都掌握了吗?一文总结超分辨率分析必备经典模型(一)CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练国际要闻简报,轻松了解天下事(03ICLR 2023 | DIFFormer: 扩散过程启发的Transformer在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器新年好意头 【福州芋泥】清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型军旅故事原创系列(35)险中“仙人跳”转:2023 回国探亲(5)2023 春 祝姐妹们周末快乐!骗子都没有好下场transformer高效训练方法一览CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型Eruope 20232022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一招聘 | 百度大搜-GNN/Transformer/图网络+问答+搜索-实习生/社招-北京ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑强化学习中的Transformer发展到哪一步了?清北联合发布TransformRL综述CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!RWKV论文燃爆!将RNN崛起进行到底!可扩百亿级参数,与Transformer表现相当!PackedBert:如何用打包的方式加速Transformer的自然语言处理任务CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏文革中毛泽东为什么不杀邓小平赢利EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(二)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。