Redian新闻
>
ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册

ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册

公众号新闻


本文介绍一下最近被 ICML 2023 接收的文章:A Closer Look at Self-Supervised Lightweight Vision Transformers.

论文标题:
A Closer Look at Self-Supervised Lightweight Vision Transformers

论文链接:

https://arxiv.org/abs/2205.14443

代码链接:

https://github.com/wangsr126/mae-lite

导读:最近“预训练大模型”这个概念异常火爆,大家都期待可以通过增加模型尺寸以达到“涌现”的效果。视觉领域也出现了大量的预训练方法和预训练模型,且取得了非常不错的效果。然而,视觉任务又有其独特性,隐私性、实时性等一系列应用场景的限制使得边缘端实际部署的模型多是轻量模型,而这些轻量模型应该怎样预训练却鲜少被研究。

文即针对这一问题,重点关注轻量级 ViT 的预训练,通过大量的实验与分析为轻量级ViT的预训练提供一个“实践手册”。众多预训练方法中哪种可以在轻量级模型上表现得更好?不同下游任务中这些方法的优劣对比又会有何种不同?各种轻量级预训练模型又是为什么会表现出上述的实验现象?有没有办法获得在各种下游任务中通用的“全能”预训练模型?这些问题都会在本文中一一被解答。

太长不看版:本文首先将论文中的众多实验性结论总结如下,后面会对其进行详细介绍: 

  • 对于轻量级 ViT(例如 5.7M 的 ViT-Tiny),当下游任务的数据比较充足时,基于 Masked-Image-Modeling(MIM)的自监督预训练方法 [1][2] 表现最好,优于基于Contrastive Learning(CL)的方法 [3][4],甚至比基于 ImageNet-21k 的全监督预训练模型表现得更好; 

  • 原始的 ViT 结构在轻量模型这个赛道中仍旧具有巨大潜力,而合适的预训练手段就是释放其潜力的一把钥匙,例如:采用合适的基于 MAE(Masked AutoEncoder [1])的预训练并在 ImageNet 上进行微调后,仅包含 5.7M 参数的原始的 ViT-Tiny 就可以取得 79.0% 的 top1 accuracy,超过了一众轻量级 ConvNets 和近两年各种精心设计的 ViT 变种网络; 

  • 基于 MAE 的预训练轻量级 ViT 并不是万能的,它也有一些缺陷,例如:当下游任务的数据规模比较小时,它的迁移效果就很差,明显弱于全监督的预训练模型,也比基于 CL 的预训练模型差; 

  • 出现上述现象的原因可能是:基于 MIM 的预训练模型浅层(靠近输入端的若干层)学的非常好,而高层(靠近输出端的若干层)却出现了明显的表征退化;而基于 CL 的预训练模型虽然高层能学到还不错的语义特征,但却无法学习到可能对下游任务更有帮助的一些归纳偏置(inductive bias); 

  • 通过知识蒸馏,可以借助一个更大规模的基于 MAE 的预训练模型(例如MAE-Base)去帮助轻量级 ViT 的预训练,仅采用基于 attention map 的蒸馏就可以显著改善其在小规模下游任务上的糟糕表现。

接下来会对论文的内容进行具体介绍。



哪种预训练方法表现最好?


文章基于 ViT-Tiny(5.7M)这个采用原始 ViT 结构的轻量级模型,首先采用各种预训练方法得到若干预训练模型(各种方法均针对轻量级模型进行了训练配置调优),测试了它们在 ImageNet-1k 上的微调性能。


▲ 各种预训练方法在ImageNet上的对比


表中可以看出:对于轻量级 ViT,其同样可以像大模型一样,显著受益于各种预训练方法。其中,基于 MIM 的自监督预训练方法(例如 MAE,SimMIM)表现出优于 CL 的自监督预训练方法(例如 MoCo-v3,DINO)的效果,甚至优于基于更大规模的 ImageNet-21k(IN21K)的全监督预训练;而其中 MAE 的预训练成本最低,且精度最高。


于是,我们便好奇,在合适的预训练手段加持下,ViT-Tiny 这个结构足够原始且简单的模型的性能上限究竟有多高?




预训练加持下的轻量级ViT的性能上限有多高?


我们对 ViT-Tiny 采用 MAE 进行预训练,然后在 ImageNet 上进行微调,其与其他一众轻量级模型的对比如下:


▲ 采用合适的预训练后ViT-Tiny与SOTA轻量级网络的性能对比

表中可见,即使是在足够强的 fine-tuning 的 recipe 下,MAE 的预训练依旧可以带来显著的性能增益(77.8→79.0),且基于 MAE 预训练的模型只微调了 300 epochs 就已超过了从头训练 1000 epochs 的模型(78.5 vs. 77.8)。而与表中的众多 ConvNets 和 ViT 的变种网络相比,ViT-Tiny 依旧表现出非常有竞争力的性能,且具有较高的 throughput。


这说明:一个“普通”的网络结构与 SOTA 的性能之间,差的可能只是一个合适的训练方案,这为轻量级模型的研究提供了一条除人工设计复杂网络结构之外的道路。 


除此之外,表中还包括一些采用了全监督、自监督预训练的卷积网络,但是可以看出:预训练对于 ViT 的增益更大(例如:ConvNeXt V2-F 采用基于 MIM 的预训练只能提升 0.5,而 ViT-Tiny 却可以提升 1.2),这个可以理解为:ViT 结构具有更少的人为设计的特性,而预训练可以以数据/任务驱动的模式对其进行补足,因此其增益更大,且表现出比通过人为设计引入inductive bias的网络更强的潜力。


换句话说:基于 naive 的网络结构,通过合适的预训练与数据驱动,使得它变成下游任务需要的模样,可能比人为设计模型应该是什么样子具有更高的性能上限。





预训练方案有哪些缺陷?


首先,我们发现,对于轻量级 ViT 来说,增加预训练数据的规模无法使得其取得更好的迁移性能:


▲ 预训练数据对下游性能的影响

甚至 MAE 对于预训练数据表现出惊人的鲁棒性:只用 1% 的预训练数据依旧可以取得与使用 100%ImageNet-1k(IN1K)相近的性能,且对于预训练数据的类别分布也不太敏感。


其次,我们发现,这些轻量级自监督预训练模型似乎没办法很好的迁移到数据规模较小的下游任务上:

▲ 预训练模型在下游任务中的迁移性能

其中,在各种下游分类任务上,基于 MIM 的预训练模型表现明显弱于全监督预训练模型,而基于 CL 的预训练模型同样如此但差距较小;而在 COCO 检测任务上,基于 CL 的 DINO 预训练模型则表现出更好的迁移性能;这与在  ImageNet 上观察到的现象并不一致。

这说明,不同预训练模型在不同规模的下游数据集上可能表现出不一致的特性,可能需要根据下游数据集的特性选择合适的预训练方案。例如:当下游数据集规模较小且数据集类别分布与预训练数据较为一致时,全监督预训练方案可能更为合适;而当下游数据足够充足时,基于 MIM 的预训练方案可能效果更好。

接下来,我们尝试引入一些模型分析手段,对这些预训练模型进行分析,以期理解出现上述实验现象的原因。




预训练模型逐层表征分析


我们首先以基于 IN1K 全监督训练 ViT 模型(DeiT-Tiny)作为参考模型,研究各种预训练模型(基于 MAE 的 MAE-Tiny,基于 SimMIM 的 SimMIM-Tiny,基于 MoCo v3 的 MoCov3-Tiny 与基于 DINO 的 DINO-Tiny)与其之间的逐层表征相似度 [5]。

▲ 预训练模型逐层表征分析

我们发现:
  • 同类预训练模型具有相似的逐层表征结构,例如:基于 MIM 的 MAE-Tiny 和 SimMIM-Tiny 的相似度 heatmap 比较像,而基于 CL 的 MoCov3-Tiny 和 DINO-Tiny 较为相似;
  • 基于 MIM 的预训练模型高层出现了表征退化,即其高层表现出与 DeiT-Tiny 浅层较高的相似度;
  • 基于 CL 的预训练模型与 DeiT-Tiny具有较好的逐层对齐关系。


据此我们推测,可能正是这些模型高层的差异导致了上述实验现象。为验证这个猜想,我们进行了如下实验:仅保留预训练模型的若干浅层,测试其在各种规模的下游任务上的迁移性能,已测试预训练模型各层对于迁移性能的贡献度。

▲ 仅保留若干层的预训练模型的迁移性能评估


图中可以看出:

  • 仅保留 MAE-Tiny 的前 4 层即可在 ImageNet 上取得良好的迁移性能,这说明,对于数据充足的下游任务,预训练模型的浅层可能更加重要,而高层的质量则影响较小

  • 随着数据规模减小,MoCov3-Tiny 的高层对于性能的增益越来越大,这也是其在这些数据集上性能超过 MAE 的关键,这说明,对于数据规模较小的下游任务,预训练模型的高层也很重要。


以上分析也说明,想办法改进 MAE-Tiny 的高层表征质量,或许可以提高其在小规模下游任务中的迁移性能。




预训练模型逐层注意力分析


接下来,我们分析预训练模型逐层的 attention map,对于 ViT 来说,它可以反映模型在自注意力机制中信息融合的偏好特性。具体来说,我们选择重点分析 attention distance 与 attention entropy,前者可以反映每个 token 是较多关注到近处(local)的区域还是远处的区域(即 global),后者可以反映每个 token 的关注点是集中到少数几个 token 上(concentrated)还是广泛地关注到众多 token 上(broad)。


我们以箱线图的形式,可视化了预训练模型逐层 attention distance 与 entropy 的分布。


▲ 预训练模型attention分析

我们首先对比了是否采用 MAE-Tiny 作为预训练在 ImageNet-1k 上微调(训练)后的模型(MAE-Tiny-FT vs. DeiT-Tiny),发现采用 MAE-Tiny 作为预训练可以使得模型的 attention 更加 local 与 concentrated,这些可能被作为 inductive bias 被预训练引入到了模型中,使得其在 ImageNet 上取得了更好的性能表现。 


而对比 MoCov3-Tiny 与 MAE-Tiny 可以发现,虽然两者相较于随机初始化均可一定程度上引入 local inductive bias,但 MoCov3-Tiny 从浅层到高层仍旧较为 global 且 broad。这种特性可能使得以其为初始化的模型在下游微调时倾向于“走捷径”,直接关注到全局信息而忽视局部细节信息。这对于较为简单的下游任务来说可能是足够的,但却未必适宜难度较高的需要细粒度识别的分类任务(例如 ImageNet)。 


最后,文章验证了采用一种简单的知识蒸馏手段,即可显著改善基于MAE的轻量级预训练的质量,并显著改善其下游迁移性能。




蒸馏方法与实验效果

▲ 预训练蒸馏流程图

具体来说,基于 MAE 的框架,引入一个同样采用 MAE 预训练的较大规模的网络(例如 MAE-Base),并基于教师网络与学生网络的 attention map 之间的相似度构建蒸馏损失:


其中 分别表示教师和学生网络的 attention map, 表示均方误差损失, 是一个 adapter,用来对齐师生 attention map的head 数,随着学生网络一起学习。实验发现,仅在师、生网络的最高层的 attention map 应用上述蒸馏损失即可取得良好的效果。这一蒸馏过程可显著改善基于 MAE 的轻量级预训练模型的高层表征质量,弥补此预训练方法无法学习到高质量高层表征的缺陷,进而可显著提高其在多种下游任务中的迁移性能。


▲ 知识蒸馏可显著改善预训练模型




总结


文章聚焦在轻量级 ViT 的预训练上,相当于为相关方向的研究提供了一个 benchmark,相关的代码与模型也都会开源,方便后续大家在这一方向上继续探索。文章的研究也打破了之前人们对于 ViT 在轻量级赛道上没有竞争优势的惯有印象,只要采用合适的预训练手段,轻量级 ViT 也会表现出足够的竞争力


同时,文章也相当于为后续轻量级模型结构设计的相关研究提出了一个新的且足够高的 bar,“你的优势未必是因为你足够好,可能只不过是因为你曾经看不上的竞争对手还没有充分发力”。文章首次将知识蒸馏引入基于 MIM 的轻量级 ViT的预训练中,并以极简的形式取得了显著的性能提升。


文章在解决了一些问题的同时也带来了更多的问题,例如:有没有办法可以让轻量级 ViT 吃下更多的预训练数据带来更多的增益?有没有办法高效融合基于 CL 和 MIM 的预训练方法,使得其兼具两者的优势?有没有办法不借助知识蒸馏来提升基于 MIM 的预训练模型的高层表征质量?这些问题可能都值得未来去进一步探索。


参考文献

[1] Masked Autoencoders Are Scalable Vision Learners. https://arxiv.org/abs/2111.06377 

[2] SimMIM: A Simple Framework for Masked Image Modeling. https://arxiv.org/abs/2111.09886 

[3] An Empirical Study of Training Self-Supervised Vision Transformers. https://arxiv.org/abs/2104.02057 

[4] Emerging Properties in Self-Supervised Vision Transformers. https://arxiv.org/abs/2104.14294 

[5] Algorithms for Learning Kernels Based on Centered Alignment. https://arxiv.org/abs/1203.0550


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
即插即用!Apple新作FastViT: 又快又强的视觉Transformer,端侧部署无压力!国际要闻简报,轻松了解天下事(03PackedBert:如何用打包的方式加速Transformer的自然语言处理任务一张罕见的结婚照CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章国际要闻简报,轻松了解天下事(03CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤transformer高效训练方法一览国际要闻简报,轻松了解天下事(03星标破10万!Auto-GPT之后,Transformer越新里程碑ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架transformer的细节到底是怎么样的?Transformer 连环18问!5分钟端侧部署视觉大模型!专为Transformer优化的AI芯片来了大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖《雪山姑娘》&《一个人两个人》Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述后GPT书:从GPT-3开始,续写Transformer庞大家族系谱Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效token千年古木照常开 三大神樱万客来2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一大模型的好伙伴,浅析推理加速引擎FasterTransformer所谓“百年未有之大变局”是习近平自己深思熟虑后的判断吗?科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”ICLR 2023 | DIFFormer: 扩散过程启发的Transformer20+篇里程碑式论文,带你从「Transformer的前世」速通到ChatGPT炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens"AI框架"与"AI中台"在大模型训练实践中如何发挥作用?| Q推荐5033 血壮山河之武汉会战 鏖战幕府山 2在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建看看Stanford’s 2023 surgical team的组成,有些出乎意料
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。