无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章
©PaperWeekly 原创 · 作者 | 岳廷
研究方向 | 计算机视觉
引言
问题:Vision Transformer 已取得长足进步,token mixer,其优秀的建模能力已在各种视觉任务中被广泛证明,典型的 token mixer 为自注意力机制,推理耗时长,计算代价大。直接去除会导致模型结构先验不完整,从而带来显著的准确性下降。本文探索如何去掉 token mixer,并以 poolformer 为基准,探索在保证精度的同时,直接去掉 token mixer 模块!
解决方案:
1. 基于重参数化思想,研究没有 token mixer 的模型架构。
2. 通过改进的学习范式以突破简单无 token mixer 骨干的限制,并总结实验经验为 5 条优化策略!
主要思想
3.1 token mixer 耗时分析
五大改进思路
不使用 ground-truth label进行进行直接监督,直接使用纯 soft label 进行监督更有效。 重参数化仿射变换+原始蒸馏替换 token mixer,无法保持原有 token mixer 性能。 使用分块知识蒸馏(即 module imitation),可提升仿射变换操作建模能力。 大感受野老师模型有利于改进感受野有限的学生模型。 将老师模型(除 token mixer 外)的预训练权重加载到学生模型可改善收敛性和性能。
思路1:直接对无token mixer学生模型进行软蒸馏更有效。
大多数 KD 方法是为带有 token mixer 的模型设计。DeiT 中的一些实验结果表明,使用硬标签而不是软标签作为监督目标,可以显着改善 transformer 性能。但无 token mixer 结构没有 patch 聚合模块,其蒸馏方式应该不同。
为证明这点,表 2 比较了四种不同设置的模型性能。默认的教师是 GFNet-H-B [31](5400 万参数)。使用真实标签进行硬蒸馏将准确性从 72.31% 提高到73.51%。这表明带有 token mixer 的教师对没有 token mixer 的学生具有积极影响。但如果只软蒸馏而不使用真实标签的组合表现最好,将网络性能提高到 74.05%。
思路2:直接使用重参数化仿射变换+一般蒸馏,无法避免性能下降。
采用结构重参数化的仿射变换+一般知识蒸馏方法,性能一样会下降,表 2 表 3 证明了这一点。
重参数化的仿射变换,具体而言,直接使用仿射变换操作替换 token mixer,仿射变换操作在训练时作为一个单独的层,在推理时融合到 layer norm 中。
表 2 直接使用 identity 层替换 token mixer,并使用各种训练方案进行训练,包括使用原始 label,hard label 以及 soft label 进行各种组合进行训练 。作为对比表 3 使用仿射变换层替换 token mixer,同样使用原始 label,hard label 以及 soft label 进行各种组合进行训练。从表 2 表 3 结果可以看到,区别不大,这说明,直接使用仿射变换+一般知识蒸馏,无法发挥仿射变换的性能,也无法实现替换 token mixer 的目的。
思路3:进行 block-wise 知识蒸馏,即模拟模块技巧(module imitation),有助于利用仿射算子的建模能力。更具体的,文章预训练了一个 PoolFormer-S12 网络作为蒸馏教师网络,并在学生网络中只使用简单的仿射变换来模拟 token mixer。如图三所示:
其中第一项为前面提到的 soft 蒸馏,第二项为图 3 中对 transformer 模块的输出层进行蒸馏,第三项为对 transformer 模块的中间层进行监督,最后一项同样为对输出层进行监督,只不过使用关系矩阵(relation metrices)进行监督。
思路4:具有大感受野的教师有利于提高有限感受野的学生能力
思路5:加载老师模型的预先训练权重(除了 token mixer)到学生模型中,可改进收敛和性能。
由于文章的目标仅是去除 token mixer,其余部分的参数仍保留且在以往过程中没有得到足够重视。文章观察到,初始化 RIFormer(除了仿射操作)的参数时使用对应的老师网络参数,性能得以从 75.13% 改善至 75.36%。这促使文章找到最终训练 RIFormer 的范式。
实验结果
5.2 主要结果
表 6 展示了 RIFormer 在 ImageNet 分类上的结果。文章主要关注吞吐量指标,因为首要考量是满足边缘设备的延迟要求。如预期所示,比其他类型的骨干拥有明显的速度优势,因为 RIFormer 其构建块不包含任何 token mixer。
令人惊奇的是,使用文章的训练方法,RIFormer 成功地去除了所有 token mixer 而不影响性能。例如,RIFormer-M36 可以在分辨率为 224224 的条件下每秒处理 1185 张图像以上,top-1 准确率达到 82.6%。与此相比,最新基线 PoolFormer-M36 [46] 带有 Pooling token mixer,每秒可以处理 1009 张相同尺寸的图像但更差的 82.1% 的准确率。
消融实验
总结来说,本文方法带来了显著加速,达到或超过其他类型的加速策略。但是,文章的方法需要一个合适的训练范式和模组模仿技巧来弥补由于去除 token mixer 而造成的性能损失。
总结与局限性
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者