Redian新闻
>
自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling

自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling

科技




论文标题:

Exploring Target Representations for Masked Autoencoders

论文地址:

https://arxiv.org/abs/2209.03917


字节跳动和厦门大学提出基于掩码知识蒸馏的视觉自监督框架 dBOT,在 ImageNet 微调分类上仅使用 ImageNet-1k 作为预训练数据获得 89.0% 的预测精度,斩获自监督预训练榜首:
https://paperswithcode.com/sota/self-supervised-image-classification-on-1






MIM需要什么样的预测目标?

基于 Masked Image Modeling(MIM)的视觉预训练范式近来吸引了大量关注,具体来讲,MIM 首先随机 mask 输入图像的一部分,然后利用神经网络来预测被 mask 的部分。如何对被 mask 的部分进行表示一直以来是研究人员关注的热点,并没有一个定论,比如在 BEiT [2] 中利用 DALL-E [3] 的中间表示作为预测目标,在 MAE [4] 中直接预测原始像素,MaskFeat [5] 预测 HOG 特征。

本文首先基于掩码蒸馏框架,探究不同模型的输出结果作为预测目标对图像微调分类、目标检测、语义分割性能的影响。在多阶段的掩码知识蒸馏框架(Masked Knowledge Distillation, MKD)下,所有实验的性能均趋于一致,性能方差随着阶段而减小。


通过对实验结果的观察,可以得到如下的结论:

1. 不同预测目标得到的模型性能趋于相同;

2. 通过 MKD 可以有效提升不同预测目标(teacher)的性能;

3. 一个随机初始化的模型经过多轮训练之后表现出的性能出奇好。

除了使用数值量化指标外,文章还使用两种可视化工具,来分析不同模型权重和输出的性质。使用不同网络做教师经过掩码知识蒸馏后,模型的权重和输出表现出了相似的性质。

可以得出:在多阶段掩码蒸馏下,目标表征的选择不重要。





dBOT方法提出

dBOT的多阶段训练框架可以表示为:



dBOT 将 MIM 训练分为不同阶段,在每个阶段中采用上个阶段的模型作为 MIM 的预测目标,在第一阶段采用一个随机初始化的模型作为预测目标。相比于之前的方法:

1. dBOT 使用预训练网络作为预测目标,不需要额外一个阶段的预训练。

2. dBOT 使用随机网络的多阶段策略,既保证了在每一个阶段提供稳定的视觉特征,又通过阶段间 teacher 网络的更新,保证了更强的视觉特征。

3. dBOT 一开始使用一个随机初始化的网络做 teacher,极大降低了设计上的 inductive bias。




结果和分析

在微调分类上,dBOT 使用 ViT-H 达到了 89.0% 的精度,超越 MAE 1.2%。获得了在 ImageNet-1K 上的 SOTA 性能。



在目标检测、实例分割、语义分割等密集预测任务上,相同设置下 dBOT 的性能超越了之前的视觉预训练方法。相比于 MAE 有 2~3 个点的提升。这个提升是非常显著的。



除此之外,文章还使用更强的教师网络【结构上/数据上】来探究 dBOT 的上限和泛化性。

1. 首先选取比 student 参数量更大的 teacher 来进行掩码蒸馏,在三个任务上均获得了显著的提升:



2. 其次选取在更大数据集训练的网络来作为 teacher 进行掩码蒸馏:



相比于使用参数量更大的网络作为 teacher,使用数据容量更大的网络作为teacher的效果更加显著。


参考文献

[1] Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, and Rongrong Ji. Exploring Target Representations for Masked Autoencoders. arXiv preprint arXiv:2209.03917.

[2] Hangbo Bao, Li Dong, and Furu Wei. BEiT: BERT pre- training of image transformers. In ICLR, 2022.

[3] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In ICML, 2021.

[4] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dolla ́r, and Ross Girshick. Masked autoencoders are scalable vision learners. In CVPR, 2022.

[5] Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, and Christoph Feichtenhofer. Masked feature predic- tion for self-supervised visual pre-training. In CVPR, 2022.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
直播课预告:多模态预训练大模型OmModel及视觉应用开发“出轨”的燕子与同性恋蝙蝠——重新审视与性行为有关的理论苹果需要重新审视中国市场EMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型倒计时1天!字节跳动2023校招即将关闭!附笔面大礼包如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型一财圈·商业1起聊:重新审视外企光环2022.07.27 当你步入迷途,道路会自行显现字节跳动基础架构团队参会报告:一文看懂VLDB'22技术趋势及精选论文爆!字节跳动、安永2023秋招补录来袭:留学生速投!我怀疑“美国经济衰落”这一论断美股暴涨了,纳指500点直接上冲!又说对了一次。。。最高加速9倍!字节跳动开源8比特混合精度Transformer引擎稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准硅谷新地标!字节跳动官宣美国总部SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型CoRL 2022 | 清华&天津大学提出SurroundDepth:自监督环视深度估计网络EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型字节跳动PICO Mixed Reality组实习生招聘3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!VLC 21年,重新审视低延迟直播Huge and Efficient! 一文了解大规模预训练模型高效训练技术多模态预训练模型指北——LayoutLM到底谁在抹黑中国?是时候重新审视了!ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法我们都低估美国了!俄乌冲突,我们必须重新审视中美实力差距!自建 MongoDB 实战 | MongoDB 文档查询特斯拉拒绝小鹏前员工应聘,CEO曾发文互怼;SK海力士、三星、英特尔获美国对华技术出口限制豁免;字节跳动多家公司更名|雷峰早报字节AI Lab提出的新多语言多模态预训练方法刷榜!已开源ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUEUni-Mol:分子3D表示学习框架和预训练模型项目原作解读一缕曙光能不能照亮一个中期反弹?心脏测试
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。