Redian新闻
>
ICCV 2023 | 将MAE预训练好的Encoder-Decoder整体迁移到目标检测中

ICCV 2023 | 将MAE预训练好的Encoder-Decoder整体迁移到目标检测中

公众号新闻

©作者 | Feng Liu

单位 | 中国科学院大学



宣传一下和小松师兄合作的工作 imTED,被 ICCV 2023 接收了。

论文题目:

Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection

论文链接:

https://arxiv.org/abs/2205.09613

代码链接:

https://github.com/LiewFeng/imTED


太长不看,一句话总结就是,将 MAE 预训练好的 Encoder-Decoder 整体迁移到目标检测中,比只迁移 Encoder 的方案性能↑,泛化性↑。



Motivation


在做目标检测等下游任务的时候,往往是把在 ImageNet 上预训练的 Backbone 迁移过去,对于检测头来说,都是随机初始化的,这是因为在 ImageNet 是进行预训练的时候,不管是基于 Supervised Learning 还是 Self-supervised Learning 中的 Contrastive Learning 的方式,最后的head都是一个简单的 fc 或 MLP,没法直接迁移过去。

最近大火的基于 Masked Image Modeling 的预训练方式,在训练 Backbone(Encoder)的同时,还会有一个 Decoder,这就为获得一个经过预训练的检测头提供了一个基础。如图 1 所示。

▲ 图1 部分迁移和整体迁移

MIM 的 Decoder 具有很强重构能力,将预训练好的 Encoder 和 Decoder 整体迁移到目标检测器中,能不能对定位性能有所提升呢?为了验证这个想法,我们在 ImageNet 是进行了一个单目标检测实验,实验性能如表 1 所示,

▲ 表1 单目标检测

使用预训练的 Enocder-Decoder,比只使用预训练的 Encoder,可以提高 1.4mAP,0.9CoLoc 和 Acc,其中 CoLoc 是定位精度,Acc 是分类精度,为了排除Decoder引入的计算量对实验的影响,我们增加了一个对照实验,预训练的 Encoder + 随机初始化的 Decoder,也能提升性能,但提升幅度远小于预训练的 Encoder-Decoder,尤其是在 CoLoc 指标。实锤了,经过预训练的 Decoder 是个好东西,直接丢掉就可惜了。用起来!



Method


1. 整体迁移

Motivetion 中的实验验证了 Decoder 对检测任务是有帮助的,要如何把预训练的 Encoder-Decoder 整体迁移到目标检测器中呢?简单将检测头替换为经过预训练的 Decoder 是否可行?如图 2(a)所示:

▲ 图2 迁移方案

这个简单粗暴的迁移方案会带来一个尴尬的局面,那就是在经过预训练的 Encoder 和 Decoder 之间有一个随机初始化的 FPN,经过随机初始化的 FPN 处理的特征分布跟 Encoder 输出的特征分布肯定是不一样的,这样预训练的 Decoder 的功能就要大打折扣了。为了构建一个跟预训练时一致的特征流,我们取 Encoder 的最后一层的特征输入到 Decoder 中,如图 2(b)所示,这样才能将预训练的 Decoder 的威力充分发挥出来。


2. 多尺度特征调制

图 2(b)中方案虽然构建了一个跟预训练相同的特征流,但是丢掉了多尺度特征,而多尺度特征对于目标检测来说又十分重要,为了弥补这一缺陷,我们提出了一个多尺度调制器,如图 2(c)所示。具体来说,就是在 RoI Align 的时候,我们分两组进行,一组对 Encoder 最后一层的特征进行,另一组对 FPN 输出的多尺度特征进行,然后以 learnable 的方式将这两个特征组合后送入到 Decoder 中,如式 1 所示。
▲ 式1 多尺度调制

为了保持跟预训练时一致的特征流,我们将 初始化为 0,然后在模型的更新中按需从 FPN 提取多尺度特征。



Experiment


1. 跟SOTA对比
▲ 表2 跟SOTA性能对比

如表 2 所示,我们训练 36 epoch 的 imTED+ViT-B 比训练 100epoch的 ViTDet+ViT-B 高 1.7 box AP。


2. Ablation


▲ 表3 Ablation

将原来的检测头简单替换为预训练的 Decoder,仅能提升 0.1AP(42.4 v.s. 42.5),而整体迁移和多尺度特征调制分别可以提升 0.7AP(42.5 v.s. 43.2)和 0.8AP(43.2 v.s. 44.0)。


3. 泛化性

▲ 表4 小样本目标检测

为了验证 imTED 的泛化性,我们在小样本目标检测这个任务进行了实验,10 shot 和 30 shot 分别比 baseline 高 6.7AP 和 8AP,比 SOTA 的性能也高很多。

论文中还有 Low shot,遮挡目标检测等实验,详情移步论文啦。




Conclusion


我们的工作探索了将预训练的 Encoder-Decoder 整体迁移到目标检测器的方案,并验证了性能上优越性,希望可以给大家带来一些思考和启发,比如在设计预训练的任务时可以同时考虑对下游任务友好的设计(结构设计,loss 设计等)。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTA与其听瓦格纳,不如读司马迁史记【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!重磅!总部企业将上市主体迁入的,奖励300万元...合肥出台“总部经济10条”2023 夏 北海道吃喝之旅遥感顶刊TGRS 2023!MUS-CDB:遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样百万奖金池!目标检测、分割、测距、融合、规划、控制等新赛事全面启动!2023中国智能网联汽车算法挑战赛(CIAC 2023)来了ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTA《故乡情歌》&《是你》ICCV 2023 | 华为诺亚提出全新目标检测器Focus-DETRES 不香吗,为啥被大厂摒弃而迁移到ClickHouse?从Snowflake迁移到Databricks,成本下降50%?Snowflake被迫解释目标检测新赛事!"达观杯"智能文档版面分析大赛来了!丰厚奖金+面试优先录用!【仲夏风轻】2023 加拿大森林大火纪实微软希望将Windows完全迁移到云端南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA郭台铭的100条思考:除非太阳不再升起,否则不能不达到目标NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型2023 加拿大森林大火纪实ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!武汉市地震监测中心遭境外网络攻击,“黑手”疑来自美国?外交部回应!为何地震监测中心会遭网络攻击?第三章 旧文明的社会组织 (3)2023 春季欧洲游 3. 法国的卢瓦尔河谷和诺曼底南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测Costco 买的玫瑰花,美成这样ICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!语言、机器人破壁,MIT等用GPT-4自动生成模拟任务,并迁移到真实世界ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测新泽西州大洋城海滩(Ocean City),吊桥英姿中国唯一的海上民族:京族,为何从越南迁移到广西生活?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。