ICCV 2023 | 将MAE预训练好的Encoder-Decoder整体迁移到目标检测中

公众号新闻

2023-08-24 04:08

©作者 | Feng Liu

单位 | 中国科学院大学

宣传一下和小松师兄合作的工作 imTED，被 ICCV 2023 接收了。

论文题目：

Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection

论文链接：

https://arxiv.org/abs/2205.09613

代码链接：

https://github.com/LiewFeng/imTED

太长不看，一句话总结就是，将 MAE 预训练好的 Encoder-Decoder 整体迁移到目标检测中，比只迁移 Encoder 的方案性能↑，泛化性↑。

Motivation

在做目标检测等下游任务的时候，往往是把在 ImageNet 上预训练的 Backbone 迁移过去，对于检测头来说，都是随机初始化的，这是因为在 ImageNet 是进行预训练的时候，不管是基于 Supervised Learning 还是 Self-supervised Learning 中的 Contrastive Learning 的方式，最后的head都是一个简单的 fc 或 MLP，没法直接迁移过去。

最近大火的基于 Masked Image Modeling 的预训练方式，在训练 Backbone（Encoder）的同时，还会有一个 Decoder，这就为获得一个经过预训练的检测头提供了一个基础。如图 1 所示。

MIM 的 Decoder 具有很强重构能力，将预训练好的 Encoder 和 Decoder 整体迁移到目标检测器中，能不能对定位性能有所提升呢？为了验证这个想法，我们在 ImageNet 是进行了一个单目标检测实验，实验性能如表 1 所示，

使用预训练的 Enocder-Decoder，比只使用预训练的 Encoder，可以提高 1.4mAP，0.9CoLoc 和 Acc，其中 CoLoc 是定位精度，Acc 是分类精度，为了排除Decoder引入的计算量对实验的影响，我们增加了一个对照实验，预训练的 Encoder + 随机初始化的 Decoder，也能提升性能，但提升幅度远小于预训练的 Encoder-Decoder，尤其是在 CoLoc 指标。实锤了，经过预训练的 Decoder 是个好东西，直接丢掉就可惜了。用起来！

Method

1. 整体迁移

Motivetion 中的实验验证了 Decoder 对检测任务是有帮助的，要如何把预训练的 Encoder-Decoder 整体迁移到目标检测器中呢？简单将检测头替换为经过预训练的 Decoder 是否可行？如图 2（a）所示：

这个简单粗暴的迁移方案会带来一个尴尬的局面，那就是在经过预训练的 Encoder 和 Decoder 之间有一个随机初始化的 FPN，经过随机初始化的 FPN 处理的特征分布跟 Encoder 输出的特征分布肯定是不一样的，这样预训练的 Decoder 的功能就要大打折扣了。为了构建一个跟预训练时一致的特征流，我们取 Encoder 的最后一层的特征输入到 Decoder 中，如图 2（b）所示，这样才能将预训练的 Decoder 的威力充分发挥出来。

2. 多尺度特征调制

图 2（b）中方案虽然构建了一个跟预训练相同的特征流，但是丢掉了多尺度特征，而多尺度特征对于目标检测来说又十分重要，为了弥补这一缺陷，我们提出了一个多尺度调制器，如图 2（c）所示。具体来说，就是在 RoI Align 的时候，我们分两组进行，一组对 Encoder 最后一层的特征进行，另一组对 FPN 输出的多尺度特征进行，然后以 learnable 的方式将这两个特征组合后送入到 Decoder 中，如式 1 所示。