Redian新闻
>
YOLO再升级!华为诺亚提出Gold-YOLO,聚集-分发机制打造新SOTA

YOLO再升级!华为诺亚提出Gold-YOLO,聚集-分发机制打造新SOTA

公众号新闻

©作者 | Traly



论文题目:

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism

论文地址:

https://arxiv.org/abs/2309.11331

PyTorch代码:

https://github.com/huawei-noah/Efficient-Computing/tree/master/Detection/Gold-YOLO

MindSpore代码:

https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO


我们针对传统类 FPN 结构中存在的跨层信息损失的问题,提出了全新的信息聚集-分发(Gather-and-Distribute Mechanism)GD 机制,通过在全局视野上对不同层级的特征进行统一的聚集融合并分发注入到不同层级中,构建更加充分高效的信息交互融合机制,并基于 GD 机制构建了 Gold-YOLO。在 COCO 数据集中,我们的 Gold-YOLO 超越了现有的 YOLO 系列,实现了精度-速度曲线上的 SOTA。




传统YOLO的问题


在检测模型中,通常先经过 backbone 提取得到一系列不同层级的特征,FPN 利用了 backbone 的这一特点,构建了相应的融合结构:不层级的特征包含着不同大小物体的位置信息,虽然这些特征包含的信息不同,但这些特征在相互融合后能够互相弥补彼此缺失的信息,增强每一层级信息的丰富程度,提升网络性能。

原始的 FPN 结构由于其层层递进的信息融合模式,使得相邻层的信息能够充分融合,但也导致了跨层信息融合存在问题:当跨层的信息进行交互融合时,由于没有直连的交互通路,只能依靠中间层充当“中介”进行融合,导致了一定的信息损失。之前的许多工作中都关注到了这一问题,而解决方案通常是通过添加 shortcut 增加更多的路径,以增强信息流动。

然而传统的 FPN 结构即便改进后,由于网络中路径过多,且交互方式不直接,基于 FPN 思想的信息融合结构仍然存在跨层信息交互困难和信息损失的问题。



Gold-YOLO:全新的信息融合交互机制

因此我们提出了一种全新的信息交互融合机制:信息聚集-分发机制(Gather-and-Distribute Mechanism)。该机制通过在全局上融合不同层次的特征得到全局信息,并将全局信息注入到不同层级的特征中,实现了高效的信息交互和融合。在不显著增加延迟的情况下 GD 机制显著增强了 Neck 部分的信息融合能力,提高了模型对不同大小物体的检测能力。

GD 机制通过三个模块实现:信息对齐模块(FAM)、信息融合模块(IFM)和信息注入模块(Inject)。

  • 信息对齐模块负责收集并对齐不同层级不同大小的特征
  • 信息融合模块通过使用卷积或 Transformer 算子对对齐后的的特征进行融合,得到全局信息
  • 信息注入模块将全局信息注入到不同层级中

在 Gold-YOLO 中,针对模型需要检测不同大小的物体的需要,并权衡精度和速度,我们构建了两个 GD 分支对信息进行融合:低层级信息聚集-分发分支(Low-GD)和高层级信息聚集-分发分支(High-GD),分别基于卷积和 transformer 提取和融合特征信息。

此外,为了促进局部信息的流动,我们借鉴现有工作,构建了一个轻量级的邻接层融合模块,该模块在局部尺度上结合了邻近层的特征,进一步提升了模型性能。我们还引入并验证了预训练方法对 YOLO 模型的有效性,通过在 ImageNet 1K 上使用 MAE 方法对主干进行预训练,显著提高了模型的收敛速度和精度。



验结果


我们在 COCO 数据集上测试了模型的精度,并使用 Tesla T4+TensorRT 7 测试了模型的速度,结果显示我们的 Gold-YOLO 在精度-速度曲线上取得了当前的 SOTA 结果。
同时我们针对 Gold-YOLO 中不同分支和结构对模型精度和速度的影响,进行了相应的消融实验。
为了验证 GD 机制在不同模型和任务中的鲁棒性,我们还进行了以下实验

  • 实例分割任务

将 Mask R-CNN 中的 Neck 部分替换为 GD,并在 COCO instance 数据集上进行训练和测试

  • 语义分割任务

将 PointRend 中的 Neck 部分替换为 GD,并在 Cityscapes 数据集上进行训练和测试

  • 不同的目标检测模型

将 EfficientDet 中的 Neck 部分替换为 GD,并在 COCO 数据集上进行训练和测试。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
双11特惠|冠军挚爱跑鞋再升级!轻如云、弹如弓,跑得更快!更爽!每周硅闻 | 突发!亚马逊CEO再警告员工;NVIDIA“狂飙”继续上演;Google推出AI芯片!赠品升级!华为Watch GT 4智能手表 328.99元!送99元无线耳机!绍伊古的话有多少水分冠军挚爱跑鞋再升级!轻如云、弹如弓,跑得更快!更爽!补课教培重罚再升级!这份报告揭露了“残酷”真相小米宣布战略升级:围绕澎湃 OS 打造「人车家全生态;三季度华为手机销量增长 37%;腾讯大模型再升级 | 极客早知道留学生被骗20万英镑,遇假警察骗术再升级!英国大学开设魔术学位!伦敦耗资8亿建球型剧场!深圳内推 | 华为诺亚方舟语音语义实验室招聘大语言模型研究实习生国庆黄金周的"黄金",英文是 gold 还是 golden?华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型冲突再升级!宾大校长“主动”辞职创最短任期纪录,哈佛、MIT校长同身陷“下课”风波是为何?婚姻是她们唯一的救赎路2023香港施政报告发布:人才争夺战再升级!吃“有毒”数据,大模型反而更听话了!来自港科大&华为诺亚方舟实验室野火失控再升级!本省进入紧急状态!政府发布旅行禁令+限水饮水通告!功能再升级!国家中小学智慧教育平台新功能使用教程来了华为诺亚方舟实验室招聘应届硕士生不是吧,连它老款都被你们抢走3000台,这升级再升级的新款怕是又要杀疯了!妄想症房客被抓走,我还被告了恭喜摩根大通财富管理CEO再次登顶"金融界最有影响力女性"榜深度好文|恭喜摩根大通财富管理CEO再次登顶"金融界最有影响力女性"榜NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成邮轮上免费,付费的吃喝(多图)NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA神卡一再升级!良心了运动员挚爱跑鞋再升级!轻如云、弹如弓,跑得更快!更爽!跑者都爱穿!“跑鞋之王”亚瑟士再升级!9色可选,男女同款~【多买多送】肉源再升级!吃一次就无限回购的爆汁烤肠,全家放心吃,没有科技与狠活~NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA超速监视技术再升级!湾区这3个城市会被自动开罚单深圳金融支持科技创新,再升级!周五谈资 | 薛之谦化身老师的BGM,798打造新展“Hello! Master”,B站致敬“河蚌青年”红色日记 2.11-15
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。