顶刊TIP 2023!CFP:即插即用的多尺度融合模块,助力检测分割任务有效涨点!
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
转载自:CVHub
转载自:CVHub
Title: Centralized Feature Pyramid for Object Detection
Paper: https://arxiv.org/pdf/2210.02093.pdf
Code: https://github.com/QY1994-0919/CFPNet
导读
特征金字塔网络现代识别系统中的一种基础网络结构,可有效地用于检测不同尺度的物体。SSD
是最早使用特征金字塔结构表示多尺度特征信息的方法之一,FPN
则依赖于自下而上的特征金字塔结构,通过建立自上而下的路径和横向连接从多尺度高级语义特征图中获取特征信息。在此基础上,PANet
提出了一种额外的自下而上路径,使高级特征图也可以从低级特征图中获得足够的细节信息。M2Det
通过构建多阶段特征金字塔来提取多阶段和多尺度的特征,实现了跨层级和跨层特征融合。
本文提出了一种名为中心化特征金字塔 Centralized Feature Pyramid (CFP)
的物体检测方法,本文方法基于全局显式的中心特征调节。与现有的方法不同,本文方法不仅关注不同层之间的特征交互,还考虑了同一层内的特征调节,该调节在密集预测任务中被证明是有益的。
大量的实验结果表明,CFP
可以在最先进的 YOLOv5
和 YOLOX
目标检测基线上实现一致的性能提升。
创作背景
传统的目标检测方法主要是基于卷积神经网络 (CNN
) 的骨干网络,并且采用两阶段或单阶段的框架进行检测。然而,由于物体尺寸的不确定性,单一特征尺度不能满足高精度识别性能的要求,因此一些在网络中使用特征金字塔的方法被提出并实现了令人满意的结果。
特征交互是目标检测中非常重要的一部分,它能够使图像特征获得更广泛、更丰富的表达,从而使目标检测模型学习到像素/物体之间的有利共现特征。许多方法在特征交互方面进行了尝试,如使用 FPN
进行自顶向下的特征交互机制,使用 NAS-FPN
学习特征金字塔的网络结构等。
然而,以上方法都基于 CNN
骨干网络,受限于其有限的感受野,只能定位到最具有区分性的物体区域,因此最近提出了基于视觉变换器 (Vision Transformer
) 的目标检测方法。这些方法将输入图像分成不同的图像补丁 (Patch
),并使用多头注意力机制来实现补丁之间的特征交互,从而获得全局的长程依赖关系。然而,这些方法的显著缺点是它们的计算复杂度很高,并且易于忽略一些重要的角落区域。
为了解决这个问题,研究人员提出了一种新的思路,即通过分析浅层特征的作用,来考虑是否需要在所有层上使用 Transformer
编码器。研究表明,浅层特征主要包含一些普遍的物体特征模式,如纹理、颜色和方向,这些模式通常不是全局的,而深层特征则反映物体的特定信息,通常需要全局信息。因此,研究者提出,不必在所有层上都使用 Transformer
编码器,可以通过适当的方式在部分层上使用 Transformer
编码器,从而提高目标检测的性能。
本文提出了一种基于全局显式集中调节方案的目标检测算法:中心化特征金字塔 Centralized Feature Pyramid (CFP)
。首先,本文提出了一种空间显式的视觉中心方案,其中轻量级的 MLP
用于捕捉全局长距离依赖关系,而并行可学习的视觉中心机制则用于捕捉输入图像的局部角落区域。然后,在自上而下的方式中,本文提出了一种全局集中调节常用的特征金字塔,其中来自最深层的显式视觉中心信息用于调节前端浅层特征。与现有的特征金字塔相比,CFP
不仅能够捕捉全局长距离依赖关系,还能高效地获得全面而具有区分性的特征表示。
本文方法在 MS-COCO
数据集上进行了大量实验,结果验证了 CFP
在现有的目标检测基线 (如 YOLOv5
和 YOLOX
) 上具有一致的性能提升。
论文的贡献总结如下:
提出了一种空间显式视觉中心方案,包括用于捕获全局长程依赖关系的轻量级
MLP
和用于汇集局部关键区域的可学习视觉中心。在常用的特征金字塔中提出了一种全局集中调节方案。
CFP
在强大的目标检测基线上取得了一致的性能提升。
方法
中心化特征金字塔
CFP
能够全局明确地进行中心化层内特征调节,从而实现更全面、差异化的特征表示。
CFP
由输入图像、CNN
骨干网络、显式视觉中心 (EVC
)、全局中心化调节 (GCR
) 和用于目标检测的解耦头网络组成。
EVC
和 GCR
都是在提取的特征金字塔上实现的。首先,将输入图像输入骨干网络以提取五级特征金字塔 ,其中每层特征 的空间尺寸分别为输入图像的 1/2、1/4、1/8、1/16 和 1/32。然后,使用轻量级的 MLP 架构来捕捉 的全局长距离依赖性,并使用可学习的视觉中心机制来聚合输入图像的本地角区域。同时,使用 GCR
来使得特征金字塔的浅层特征能够同时从最深层的特征的视觉中心化信息中受益。最后,将这些特征聚合到解耦头网络中进行分类和回归。
显式视觉中心
显式视觉中心 (EVC
) 由两个并行的块组成,其中一个轻量级的 MLP
用于捕获顶层特征 的全局长程依赖(即全局信息),同时为了保留局部角落区域(即局部信息),我们提出了一种可学习的视觉中心机制,作用于 上,以聚合层内的局部区域特征。这两个块的结果特征映射沿着通道维度连接在一起,作为 EVC
的输出传递到下游的识别模型中:
在实现过程中,为了进行特征平滑,我们使用了一个 Stem
的块,而不是直接在原始特征图上实现。Stem
块包括一个输出通道大小为 256
的 7x7
卷积,紧随其后的是一个批归一化层 (BN
) 和一个激活函数层。
MLP
本文提出的轻量级 MLP 由两个残差模块组成:基于深度可分离卷积的模块和基于通道MLP的模块。其中,MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath
操作以提高特征泛化和鲁棒性。
深度可分离卷积模块的输入是经过组归一化处理的特征图 ,深度可分离卷积可以提高特征表达能力同时减少计算成本:
通道MLP模块的输入是深度可分离卷积模块的输出,经过组归一化后再进行通道 MLP
操作:
与空间 MLP
相比,通道 MLP
不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。最后,两个模块都实现了通道缩放、DropPath
和残差连接操作。
LVC
LVC
是一个具有内在字典的编码器,由一个固有的码本和一组可学习的视觉中心比例因子组成。
LVC
的处理过程包括两个主要步骤:
使用一组卷积层对输入特征进行编码,并使用
CBR
块进行进一步处理;将编码后的特征通过一组可学习的比例因子与固有码本相结合。
然后,使用一个完全连接层和一个 1×1
卷积层来预测突出的关键类特征。最后,将来自 Stem
块 的输入特征和比例因子系数的局部角区域特征进行通道乘法和通道加法。
全局集中特征规范
全局集中特征规范 Global Centralized Regulation (GCR)
用于在整个特征金字塔上实现跨层特征规范化。
为了提高跨层特征规范化的计算效率,首先在特征金字塔的顶层 ()上实现空间显式视觉中心 (EVC
),然后使用得到的包含空间显式视觉中心的特征 来同时调整所有前面的浅层特征(如 )。在实现中,将深层特征上采样到与低层特征相同的空间尺度,然后沿通道维度进行拼接,将拼接后的特征通过 1×1
卷积降采样到 256
个通道。这样,就能够在特征金字塔的每一层上显式地增加全局表示的空间权重,从而实现全面而有区分度的特征表示。
实验
EVC
方案提升效果最好,YOLOv5-L
和YOLOX-L
的mAP
分别提高了1.4%
。
轻量级
MLP
结构不仅速度更快,而且在长程依赖捕捉方面表现更好,其mAP
指标比YOLOX-L
模型提高了1.3%
。
与
Transformer
方法相比,MLP
不仅具有高精度,而且占用的内存更少。
白色框表示遮挡、光照影响或物体尺寸过小等因素导致的漏检;红色框表示由于上下文语义关系不足而导致的检测错误;黄色框表示物体分类错误。第一行展示了
YOLOX-L
在“斑马”处由于距离因素未能完全检测到物体,而EVC YOLOX-L
部分检测到了该物体,证明了EVC
在某些密集检测任务中对小物体检测非常有效。第二行展示了YOLOX-L
未能完全检测到柜子里的“杯子”,而EVC YOLOX-L
通过使用MLP
结构来捕捉物体特征的长距离依赖性,缓解了这个问题。最后一行展示了CFP YOLOX-L
在复杂场景下表现更好,使用GCR
来调整特征并解决分类问题。
总结
本文介绍了一种基于全局显式集中特征规范的对象检测方法 CFP
。该方法首先提出了一种空间显式视觉中心方案,其中使用轻量级 MLP
来捕捉全局长程依赖,并使用并行可学习的视觉中心来捕捉输入图像的局部角区域。基于所提出的 EVC
,该文进一步提出了一种自上而下的特征金字塔的全局集中特征规范方法。与现有方法相比,CFP
不仅具有捕捉全局长程依赖的能力,还可以高效地获得全方位的、具有判别力的特征表示。实验结果表明,CFP
在 MS-COCO
数据集上具有优异的表现。
本文提出的方法是一种通用方法,不仅可以提取层内特征的全局长程依赖,还可以尽可能地保留局部角区域信息,这对于密集预测任务非常重要。因此,作者在未来将进一步开发先进的层内特征规范方法,以进一步提高特征表示能力。
最新CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者