Redian新闻
>
NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA

NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

作者:王云鹤(源:知乎,已授权)| 编辑:CVer公众号

https://zhuanlan.zhihu.com/p/657742732

在CVer微信公众号后台回复:Gold,可以下载本论文pdf、代码

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism
论文:https://arxiv.org/abs/2309.11331
代码(MindSpore版本):
https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO
代码(PyTorch版本
https://github.com/huaweinoah/Efficient-Computing/Detection/Gold-YOLO


引言

YOLO系列模型面世至今已有8年,由于其优异的性能,已成为目标检测领域的标杆。在系列模型经过十多个不同版本的改进发展逐渐稳定完善的今天,研究人员更多关注于单个计算模块内结构的精细调整,或是head部分和训练方法上的改进。但这并不意味着现有模式已是最优解。

当前YOLO系列模型通常采用类FPN方法进行信息融合,而这一结构在融合跨层信息时存在信息损失的问题。针对这一问题,我们提出了全新的信息聚集-分发(Gather-and-Distribute Mechanism)GD机制,通过在全局视野上对不同层级的特征进行统一的聚集融合并分发注入到不同层级中,构建更加充分高效的信息交互融合机制,并基于GD机制构建了Gold-YOLO。在COCO数据集中,我们的Gold-YOLO超越了现有的YOLO系列,实现了精度-速度曲线上的SOTA。

精度和速度曲线(TensorRT7)

精度和速度曲线(TensorRT8)

传统YOLO的问题

在检测模型中,通常先经过backbone提取得到一系列不同层级的特征,FPN利用了backbone的这一特点,构建了相应的融合结构:不层级的特征包含着不同大小物体的位置信息,虽然这些特征包含的信息不同,但这些特征在相互融合后能够互相弥补彼此缺失的信息,增强每一层级信息的丰富程度,提升网络性能。

原始的FPN结构由于其层层递进的信息融合模式,使得相邻层的信息能够充分融合,但也导致了跨层信息融合存在问题:当跨层的信息进行交互融合时,由于没有直连的交互通路,只能依靠中间层充当“中介”进行融合,导致了一定的信息损失。之前的许多工作中都关注到了这一问题,而解决方案通常是通过添加shortcut增加更多的路径,以增强信息流动。

然而传统的FPN结构即便改进后,由于网络中路径过多,且交互方式不直接,基于FPN思想的信息融合结构仍然存在跨层信息交互困难和信息损失的问题。

Gold-YOLO:全新的信息融合交互机制


Gold-YOLO架构

因此我们提出了一种全新的信息交互融合机制:信息聚集-分发机制(Gather-and-Distribute Mechanism)。该机制通过在全局上融合不同层次的特征得到全局信息,并将全局信息注入到不同层级的特征中,实现了高效的信息交互和融合。在不显著增加延迟的情况下GD机制显著增强了Neck部分的信息融合能力,提高了模型对不同大小物体的检测能力。

GD机制通过三个模块实现:信息对齐模块(FAM)、信息融合模块(IFM)和信息注入模块(Inject)。

  • 信息对齐模块负责收集并对齐不同层级不同大小的特征

  • 信息融合模块通过使用卷积或Transformer算子对对齐后的的特征进行融合,得到全局信息

  • 信息注入模块将全局信息注入到不同层级中

在Gold-YOLO中,针对模型需要检测不同大小的物体的需要,并权衡精度和速度,我们构建了两个GD分支对信息进行融合:低层级信息聚集-分发分支(Low-GD)和高层级信息聚集-分发分支(High-GD),分别基于卷积和transformer提取和融合特征信息。

此外,为了促进局部信息的流动,我们借鉴现有工作,构建了一个轻量级的邻接层融合模块,该模块在局部尺度上结合了邻近层的特征,进一步提升了模型性能。我们还引入并验证了预训练方法对YOLO模型的有效性,通过在ImageNet 1K上使用MAE方法对主干进行预训练,显著提高了模型的收敛速度和精度。

实验结果

我们在COCO数据集上测试了模型的精度,并使用Tesla T4+TensorRT 7测试了模型的速度,结果显示我们的Gold-YOLO在精度-速度曲线上取得了当前的SOTA结果。

同时我们针对Gold-YOLO中不同分支和结构对模型精度和速度的影响,进行了相应的消融实验。

为了验证GD机制在不同模型和任务中的鲁棒性,我们还进行了以下实验

实例分割任务

将Mask R-CNN中的Neck部分替换为GD,并在COCO instance 数据集上进行训练和测试

语义分割任务

将PointRend 中的Neck部分替换为GD,并在Cityscapes 数据集上进行训练和测试

不同的目标检测模型

将 EfficientDet 中的Neck部分替换为GD,并在COCO数据集上进行训练和测试

在CVer微信公众号后台回复:Gold,可以下载本论文pdf、代码

点击进入—>【目标检测和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
目标检测新赛事!"达观杯"智能文档版面分析大赛来了!丰厚奖金+面试优先录用!30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型《魅羽活佛》第341章 没有猪味国庆黄金周的"黄金",英文是 gold 还是 golden?百万奖金池!目标检测、分割、测距、融合、规划、控制等新赛事全面启动!2023中国智能网联汽车算法挑战赛(CIAC 2023)来了YOLO再升级!华为诺亚提出Gold-YOLO,聚集-分发机制打造新SOTANeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型Ex-Soldier Sleeps in Cave for 22 Years to Protect Song TreasuresICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器UTMB 越野NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法ICCV 2023 | 华为诺亚提出全新目标检测器Focus-DETR一日登三峰 2023.07.29108万奖金!目标检测、图像分类等赛事!2023长三角(芜湖)人工智能视觉算法大赛全面启动!遥感顶刊TGRS 2023!MUS-CDB:遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTAICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测妖婆子横行霸屏,人类该是到尽头了​NeurIPS 2023 | RayDF:实时渲染!基于射线的三维重建新方法ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架微博(27)—血案,要引以为戒NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusionNeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络ICCV 2023 | 将MAE预训练好的Encoder-Decoder整体迁移到目标检测中NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成新泽西州大洋城海滩(Ocean City),逍遥自在病毒羔羊第十三章生死困惑NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测超148万奖金!目标检测、分割新赛事!2023 无锡国际人工智能算法大赛全面启动!Texas Sunshine 2023NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路NeurIPS 2023 | LIBERO:机器人持续学习基准环境【热夏生活随笔】 Texas Sunshine 2023这国航机上杂志看着无语😓!2023.7这应该还是最新一期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。