Redian新闻
>
顶刊TIP 2023!CFP:即插即用的多尺度融合模块,助力检测分割任务有效涨点!

顶刊TIP 2023!CFP:即插即用的多尺度融合模块,助力检测分割任务有效涨点!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群



转载自:CVHub

Title: Centralized Feature Pyramid for Object Detection
Paper: https://arxiv.org/pdf/2210.02093.pdf
Code: https://github.com/QY1994-0919/CFPNet

导读

特征金字塔网络现代识别系统中的一种基础网络结构,可有效地用于检测不同尺度的物体。SSD 是最早使用特征金字塔结构表示多尺度特征信息的方法之一,FPN 则依赖于自下而上的特征金字塔结构,通过建立自上而下的路径和横向连接从多尺度高级语义特征图中获取特征信息。在此基础上,PANet 提出了一种额外的自下而上路径,使高级特征图也可以从低级特征图中获得足够的细节信息。M2Det 通过构建多阶段特征金字塔来提取多阶段和多尺度的特征,实现了跨层级和跨层特征融合。

本文提出了一种名为中心化特征金字塔 Centralized Feature Pyramid (CFP) 的物体检测方法,本文方法基于全局显式的中心特征调节。与现有的方法不同,本文方法不仅关注不同层之间的特征交互,还考虑了同一层内的特征调节,该调节在密集预测任务中被证明是有益的。

大量的实验结果表明,CFP 可以在最先进的 YOLOv5YOLOX 目标检测基线上实现一致的性能提升。

创作背景

图1. 多种方法的图像特征可视化

传统的目标检测方法主要是基于卷积神经网络 (CNN) 的骨干网络,并且采用两阶段或单阶段的框架进行检测。然而,由于物体尺寸的不确定性,单一特征尺度不能满足高精度识别性能的要求,因此一些在网络中使用特征金字塔的方法被提出并实现了令人满意的结果。

特征交互是目标检测中非常重要的一部分,它能够使图像特征获得更广泛、更丰富的表达,从而使目标检测模型学习到像素/物体之间的有利共现特征。许多方法在特征交互方面进行了尝试,如使用 FPN 进行自顶向下的特征交互机制,使用 NAS-FPN 学习特征金字塔的网络结构等。

然而,以上方法都基于 CNN 骨干网络,受限于其有限的感受野,只能定位到最具有区分性的物体区域,因此最近提出了基于视觉变换器 (Vision Transformer) 的目标检测方法。这些方法将输入图像分成不同的图像补丁 (Patch),并使用多头注意力机制来实现补丁之间的特征交互,从而获得全局的长程依赖关系。然而,这些方法的显著缺点是它们的计算复杂度很高,并且易于忽略一些重要的角落区域。

为了解决这个问题,研究人员提出了一种新的思路,即通过分析浅层特征的作用,来考虑是否需要在所有层上使用 Transformer 编码器。研究表明,浅层特征主要包含一些普遍的物体特征模式,如纹理、颜色和方向,这些模式通常不是全局的,而深层特征则反映物体的特定信息,通常需要全局信息。因此,研究者提出,不必在所有层上都使用 Transformer 编码器,可以通过适当的方式在部分层上使用 Transformer 编码器,从而提高目标检测的性能。

本文提出了一种基于全局显式集中调节方案的目标检测算法:中心化特征金字塔 Centralized Feature Pyramid (CFP)。首先,本文提出了一种空间显式的视觉中心方案,其中轻量级的 MLP 用于捕捉全局长距离依赖关系,而并行可学习的视觉中心机制则用于捕捉输入图像的局部角落区域。然后,在自上而下的方式中,本文提出了一种全局集中调节常用的特征金字塔,其中来自最深层的显式视觉中心信息用于调节前端浅层特征。与现有的特征金字塔相比,CFP 不仅能够捕捉全局长距离依赖关系,还能高效地获得全面而具有区分性的特征表示。

本文方法在 MS-COCO 数据集上进行了大量实验,结果验证了 CFP 在现有的目标检测基线 (如 YOLOv5YOLOX) 上具有一致的性能提升。

论文的贡献总结如下:

  • 提出了一种空间显式视觉中心方案,包括用于捕获全局长程依赖关系的轻量级 MLP 和用于汇集局部关键区域的可学习视觉中心。

  • 在常用的特征金字塔中提出了一种全局集中调节方案。

  • CFP 在强大的目标检测基线上取得了一致的性能提升。

方法

中心化特征金字塔

图2. CFP 网络架构

CFP 能够全局明确地进行中心化层内特征调节,从而实现更全面、差异化的特征表示。

CFP 由输入图像、CNN 骨干网络、显式视觉中心 (EVC)、全局中心化调节 (GCR) 和用于目标检测的解耦头网络组成。

EVCGCR 都是在提取的特征金字塔上实现的。首先,将输入图像输入骨干网络以提取五级特征金字塔 ,其中每层特征 的空间尺寸分别为输入图像的 1/2、1/4、1/8、1/16 和 1/32。然后,使用轻量级的 MLP 架构来捕捉 的全局长距离依赖性,并使用可学习的视觉中心机制来聚合输入图像的本地角区域。同时,使用 GCR 来使得特征金字塔的浅层特征能够同时从最深层的特征的视觉中心化信息中受益。最后,将这些特征聚合到解耦头网络中进行分类和回归。

显式视觉中心

图3. 显式视觉中心

显式视觉中心 (EVC) 由两个并行的块组成,其中一个轻量级的 MLP 用于捕获顶层特征 的全局长程依赖(即全局信息),同时为了保留局部角落区域(即局部信息),我们提出了一种可学习的视觉中心机制,作用于 上,以聚合层内的局部区域特征。这两个块的结果特征映射沿着通道维度连接在一起,作为 EVC 的输出传递到下游的识别模型中:

在实现过程中,为了进行特征平滑,我们使用了一个 Stem 的块,而不是直接在原始特征图上实现。Stem 块包括一个输出通道大小为 2567x7 卷积,紧随其后的是一个批归一化层 (BN) 和一个激活函数层

MLP

本文提出的轻量级 MLP 由两个残差模块组成:基于深度可分离卷积的模块和基于通道MLP的模块。其中,MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。

深度可分离卷积模块的输入是经过组归一化处理的特征图 ,深度可分离卷积可以提高特征表达能力同时减少计算成本:

通道MLP模块的输入是深度可分离卷积模块的输出,经过组归一化后再进行通道 MLP 操作:

空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。最后,两个模块都实现了通道缩放、DropPath 和残差连接操作。

LVC

LVC 是一个具有内在字典的编码器,由一个固有的码本和一组可学习的视觉中心比例因子组成。

LVC 的处理过程包括两个主要步骤:

  1. 使用一组卷积层对输入特征进行编码,并使用 CBR 块进行进一步处理;

  2. 将编码后的特征通过一组可学习的比例因子与固有码本相结合。

然后,使用一个完全连接层和一个 1×1 卷积层来预测突出的关键类特征。最后,将来自 Stem 的输入特征和比例因子系数的局部角区域特征进行通道乘法通道加法

全局集中特征规范

全局集中特征规范 Global Centralized Regulation (GCR) 用于在整个特征金字塔上实现跨层特征规范化。

为了提高跨层特征规范化的计算效率,首先在特征金字塔的顶层 ()上实现空间显式视觉中心 (EVC),然后使用得到的包含空间显式视觉中心的特征 来同时调整所有前面的浅层特征(如 )。在实现中,将深层特征上采样到与低层特征相同的空间尺度,然后沿通道维度进行拼接,将拼接后的特征通过 1×1 卷积降采样到 256 个通道。这样,就能够在特征金字塔的每一层上显式地增加全局表示的空间权重,从而实现全面而有区分度的特征表示。

实验

EVC 方案提升效果最好,YOLOv5-LYOLOX-LmAP 分别提高了 1.4%

轻量级 MLP 结构不仅速度更快,而且在长程依赖捕捉方面表现更好,其 mAP 指标比 YOLOX-L 模型提高了 1.3%

Transformer 方法相比,MLP 不仅具有高精度,而且占用的内存更少。

白色框表示遮挡、光照影响或物体尺寸过小等因素导致的漏检;红色框表示由于上下文语义关系不足而导致的检测错误;黄色框表示物体分类错误。第一行展示了 YOLOX-L 在“斑马”处由于距离因素未能完全检测到物体,而 EVC YOLOX-L 部分检测到了该物体,证明了 EVC 在某些密集检测任务中对小物体检测非常有效。第二行展示了 YOLOX-L 未能完全检测到柜子里的“杯子”,而 EVC YOLOX-L 通过使用 MLP 结构来捕捉物体特征的长距离依赖性,缓解了这个问题。最后一行展示了 CFP YOLOX-L 在复杂场景下表现更好,使用 GCR 来调整特征并解决分类问题。

总结

本文介绍了一种基于全局显式集中特征规范的对象检测方法 CFP。该方法首先提出了一种空间显式视觉中心方案,其中使用轻量级 MLP 来捕捉全局长程依赖,并使用并行可学习的视觉中心来捕捉输入图像的局部角区域。基于所提出的 EVC,该文进一步提出了一种自上而下的特征金字塔的全局集中特征规范方法。与现有方法相比,CFP 不仅具有捕捉全局长程依赖的能力,还可以高效地获得全方位的、具有判别力的特征表示。实验结果表明,CFPMS-COCO 数据集上具有优异的表现。

本文提出的方法是一种通用方法,不仅可以提取层内特征的全局长程依赖,还可以尽可能地保留局部角区域信息,这对于密集预测任务非常重要。因此,作者在未来将进一步开发先进的层内特征规范方法,以进一步提高特征表示能力。

点击进入—>【Transformer】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品法案已通过!今日起,纽约低收入者可享受免费视力检查、配眼镜!地方动态丨共话发展 共促振兴——遂潼川渝毗邻地区深度融合专题调研活动成功举办※※ 2023.4.4即插即用!Apple新作FastViT: 又快又强的视觉Transformer,端侧部署无压力!CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法中国电子信息产业发展研究院发布《区域数字经济和实体经济深度融合发展生态报告(2023)》高球发烧友,绿色依存症CVPR 2023 | 即插即用!BRA:新注意力,BiFormer:一种视觉新主干ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法终于有一套书,可以深度融合编程和数学,全方位提升孩子思维高度了今日出征!神舟十六号任务有四大看点国际要闻简报,轻松了解天下事(03《雪花落在军装上》&合唱《美丽心情》中国日报连续两年获评中国报业深度融合发展创新案例第一财经入选第三届中国报业深度融合发展创新案例ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务那个世界很陌生 那个世界很精彩秋冬春隨寫CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型男人看胸中诚信托助力四川港投成功发行ABCP,服务“一带一路”,助力“四川经济高地建设”Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星请带走,一整套即插即用的OKR使用手册国际要闻简报,轻松了解天下事(03最后20份!CFA一二三级公式表,助你拿下定量题目!人工智能与实体经济深度融合的“暗战”已经开始划词即可询问 AI:Edge 将深度融合 New BingAgustín Hernández:中美洲建筑背景下的未来主义巨构“巨型”的ESP8266模块,快来围观。2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一医养深度融合之路如何走?这家企业要以互联网医院及认知障碍早期筛查为突破口通过Unit Scaling进行简单的FP16和FP8训练亿航智能CFO刘剑:“业财融合”是一个CFO要身体力行的事|CFO访谈国际要闻简报,轻松了解天下事(03CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割发射任务圆满成功!神十六本次任务有哪些?CVPR 2023 | 何恺明团队开源FLIP:MAE助力CLIP更快更高精度!纽约百万低收入者 将享免费视力检查、配眼镜CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRES
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。