YOLO再升级！华为诺亚提出Gold-YOLO，聚集-分发机制打造新SOTA

公众号新闻

2023-10-16 05:10

©作者 | Traly

论文题目：

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism

论文地址：

https://arxiv.org/abs/2309.11331

PyTorch代码：

https://github.com/huawei-noah/Efficient-Computing/tree/master/Detection/Gold-YOLO

MindSpore代码：

https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO

我们针对传统类 FPN 结构中存在的跨层信息损失的问题，提出了全新的信息聚集-分发（Gather-and-Distribute Mechanism）GD 机制，通过在全局视野上对不同层级的特征进行统一的聚集融合并分发注入到不同层级中，构建更加充分高效的信息交互融合机制，并基于 GD 机制构建了 Gold-YOLO。在 COCO 数据集中，我们的 Gold-YOLO 超越了现有的 YOLO 系列，实现了精度-速度曲线上的 SOTA。

传统YOLO的问题

在检测模型中，通常先经过 backbone 提取得到一系列不同层级的特征，FPN 利用了 backbone 的这一特点，构建了相应的融合结构：不层级的特征包含着不同大小物体的位置信息，虽然这些特征包含的信息不同，但这些特征在相互融合后能够互相弥补彼此缺失的信息，增强每一层级信息的丰富程度，提升网络性能。

原始的 FPN 结构由于其层层递进的信息融合模式，使得相邻层的信息能够充分融合，但也导致了跨层信息融合存在问题：当跨层的信息进行交互融合时，由于没有直连的交互通路，只能依靠中间层充当“中介”进行融合，导致了一定的信息损失。之前的许多工作中都关注到了这一问题，而解决方案通常是通过添加 shortcut 增加更多的路径，以增强信息流动。

然而传统的 FPN 结构即便改进后，由于网络中路径过多，且交互方式不直接，基于 FPN 思想的信息融合结构仍然存在跨层信息交互困难和信息损失的问题。

Gold-YOLO：全新的信息融合交互机制

因此我们提出了一种全新的信息交互融合机制：信息聚集-分发机制（Gather-and-Distribute Mechanism）。该机制通过在全局上融合不同层次的特征得到全局信息，并将全局信息注入到不同层级的特征中，实现了高效的信息交互和融合。在不显著增加延迟的情况下 GD 机制显著增强了 Neck 部分的信息融合能力，提高了模型对不同大小物体的检测能力。

GD 机制通过三个模块实现：信息对齐模块（FAM）、信息融合模块（IFM）和信息注入模块（Inject）。

信息对齐模块负责收集并对齐不同层级不同大小的特征
信息融合模块通过使用卷积或 Transformer 算子对对齐后的的特征进行融合，得到全局信息
信息注入模块将全局信息注入到不同层级中

在 Gold-YOLO 中，针对模型需要检测不同大小的物体的需要，并权衡精度和速度，我们构建了两个 GD 分支对信息进行融合：低层级信息聚集-分发分支（Low-GD）和高层级信息聚集-分发分支（High-GD），分别基于卷积和 transformer 提取和融合特征信息。

此外，为了促进局部信息的流动，我们借鉴现有工作，构建了一个轻量级的邻接层融合模块，该模块在局部尺度上结合了邻近层的特征，进一步提升了模型性能。我们还引入并验证了预训练方法对 YOLO 模型的有效性，通过在 ImageNet 1K 上使用 MAE 方法对主干进行预训练，显著提高了模型的收敛速度和精度。