Redian新闻
>
CVPR 2023 | DisWOT:给老师找个好学生?KD和NAS的高效组合

CVPR 2023 | DisWOT:给老师找个好学生?KD和NAS的高效组合

科技

©Paperweekly 原创 · 作者 | An.
单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩





动机&背景

知识蒸馏(Knowledge Distillation, KD)可以用大模型指导小模型学习,但大小模型之间的容量差距阻碍了知识的传递,过去的研究集中在训练范式(早停[1])和架构调整(助教[2])等,他们要么性能提升有限,要么训练成本过高。本文从无需训练的神经网络架构搜索(NAS)的角度出发,为教师寻找最佳的学生架构,从而缓解模型容量差距无需训练的 NAS 也被称为 Zero-cost proxy,这一表述会在后文出现。
论文标题:
DisWOT: Student Architecture Search for Distillation WithOut Training

论文链接:

https://arxiv.org/pdf/2303.15678.pdf

代码链接:

https://github.com/lilujunai/DisWOT-CVPR2023



方法:DisWOT

DisWOT 的目标是在给定的教师模型和约束条件下,通过无需训练的 NAS 方法找到最适合教师的学生模型,在此学生模型上,用 KD 范式以更高效地传递知识,提升学生模型的性能

2.1 搜索最优学生网络

无需训练的 NAS 的三大关键要素是度量指标」、「搜索空间」和「搜索策略,图 1 是该环节的示意图,图1(a)反映了本文的两大度量指标,图1(b)反映了本文所选择的搜索空间和搜索策略,我们将在这一小节对具体细节依次进行介绍。

▲ 图1. 基于 DisWOT 的 NAS 示意图

语义相似度度量 [3] 的结论启发,KD 范式中教师网络往往具有更大的感受野和更丰富的语义特征,语义信息上的差距会阻碍知识的有效传递。反过来讲,最优的学生模型应该与教师的语义信息差距尽可能小与此同时,[4] 的研究结论表明随机初始化的模型也具备一定的语义定位能力,因此本文采用 Gram-CAM [5] 生成的定位热图来反映度量语义信息。

设教师和学生模型全局平均池化(GAP)层之前的特征图分别为 和 ,,其中第 个通道的空间图可以表示为 ,Grad-CAM 的具体计算公式为:
其中 是模型最后一个全连接层的权重。最终的语义相似度度量 可定义为教师和学生的累积 Grad-CAM 图的相互关系,即:

关系相似度度量类似 RKD [6] 的思想,输入样本之间的关系对于知识蒸馏也很重要,最优学生模型应该与教师的关系相似度尽可能大小批量样本的相关矩阵公式如下:
其中, 的变形。基于式(3),关系相似度度量可定义为:
搜索空间参考过往的基于 ResNet 的工作,本文选择了三种不同的搜索空间 。待搜索参数包括块重复次数、连接关系、通道数和内核大小等。不同的搜索空间有着不同的空间大小。
无需训练的进化搜索适应度可定义为 ,具体算法见图 2。

该搜索算法先初始化一组满足约束条件的学生模型架构作为初始种群,并计算他们对应的适应度,再后续的每轮迭代中,算法先从种群中随机挑选部分网络,从中选出适应度前 top-k 的网络,再从这 k 个网络中随机选出 1 个网络作为父网络,进行变异,变异后的网络如果符合约束条件,则加入种群,并计算适应度,每次有新模型加入种群后都将从种群中移除一个适应度最小的模型架构。

在多轮迭代中,整个种群的平均适应度不断增加,最终选择适应度最大的模型架构作为后续 KD 时的学生模型。

▲ 图2. 基于 DisWOT 的进化搜索算法伪代码
2.2 高阶知识蒸馏
为了证明搜索得到的学生模型架构的优越性,本文最初采用了原始的蒸馏损失(例如 KL 散度)。但不难想象,NAS 阶段的度量指标(语义相似度和关系相似度)也可以作为 KD 阶段知识转移的优化目标,这将进一步提升学生模型的蒸馏性能,即:




实验

1. 图像分类 - CIFAR100如表 1 所示,DisWOT 在不同 KD 方法上都取得了超过其他 Zero-cost proxy 方法的性能表现,这说明了本文所提出的基于 DisWOT 的搜索方法的有效性。

▲ 表1. 在 1M 参数量约束下,不同 KD 方法和不同 Zero-cost proxies 方法的性能对比
2. 图像分类 - ImageNet如表 2 所示,DisWOT 在不同教师和不同蒸馏策略下都取得了超过对照组的性能表现。

▲ 表2. ImageNet 下不同教师变体不同蒸馏方法的性能对比

3. NAS-Bench-201如表 3 所示,DisWOT 以最低的训练成本实现了近乎 SOTA 的性能表现。尤其是在 CIFAR-10 数据集上,比需要训练的 NAS 方法提速了 180×。

▲ 表3. 不同 NAS 方法在 CIFAR-10/CIFAR-100/ImageNet-16-120 数据集上的精度和训练成本对比(表中部分时间数据应该有误)

4. 消融实验 - 度量指标表 4 说明本文提出的语义相似度优于 FitNets,关系相似度优于 RKD,且两者存在互补性,共同作用能获得更好的相关性结果。

▲ 表4. S0 搜索空间不同度量指标的 Spearman 相关性

5. 其他作者还针对“初始化方式对方法的影响”“不同教师对方法的影响”“DisWOT 与最终 KD 的性能相关性”等进行了实验分析,细节可见原文。


总结

本文为“缓解教师和学生模型差距”提供了一种新的解决方案——利用 NAS 寻找更适合教师传递知识的学生模型架构;
本文证明了在 ResNet 网络中,随机初始化的师生网络之间的特征语义和样本关系的相似性与最终蒸馏性能具有良好的相关性这种知识蕴藏在结构而非权重中。
局限性

该方法基于两点假设大小模型的感受野不对齐”“随机初始化模型已能很好地定位物体,具备语义信息,但这两点假设都是建立在 CNN 网络结构上的,Transformer 结构是否满足这种假设还需验证;

只在图像分类任务上进行评估,下游任务的扩展性有待验证。


参考文献

[1] Jang Hyun Cho and Bharath Hariharan. On the efficacy of knowledge distillation. In ICCV, 2019.
[2] Seyed Iman Mirzadeh, Mehrdad Farajtabar, Ang Li, Nir Levine, Akihiro Matsukawa, and Hassan Ghasemzadeh. Improved knowledge distillation via teacher assistant. In AAAI, 2020.
[3] Sihao Lin, Hongwei Xie, Bing Wang, Kaicheng Yu, Xiaojun Chang, Xiaodan Liang, and Gang Wang. Knowledge distillation via the target-aware transformer. In CVPR, 2022.
[4] Yun-Hao Cao and Jianxin Wu. A random cnn sees objects: One inductive bias of cnn and its applications. In AAAI, 2022.
[5] Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. Learning deep features for discriminative localization. In CVPR, 2016.
[6] Wonpyo Park, Dongju Kim, Yan Lu, and Minsu Cho. Relational knowledge distillation. In CVPR, 2019.




更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
叫板Intel、AMD和Nvidia的最通用CPU,延期了!但是……炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023 | 大模型流行之下,SN-Net给出一份独特的答卷Eruope 2023CVPR 2023 Workshop | 马普所、麻省理工等举办生成模型研讨会CVPR 2023 | 精准、通用、轻量!EqMotion:等变轨迹预测与不变关系推断模型CVPR 2023 | 北大提出DynamicDet:目标检测器的通用动态架构CVPR 2023 | 即插即用!SQR:对于训练DETR-family目标检测的探索和思考杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023CVPR 2023 | MobileOne:移动端仅需1ms的高性能主干!超越MobileViT!【教育】好学生心态?12岁女孩遗书曝光:好学生心态正在压垮...最毁孩子的就是各种补习班!国际要闻简报,轻松了解天下事(03录用2360篇、接收率25.78%,CVPR 2023接收结果公布CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!回国之旅,不沾小便宜CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效CVPR 2023 | EMA-VFI: 基于帧间注意力提取运动和外观信息的高效视频插帧炒气球滾阴沟间谍卫星路过炸吗CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合2023亚城企业家俱乐部新春聚会CVPR2023 | 微软提出高效率大规模图文检索模型CVPR 2023 接收结果出炉!再创历史新高!录用2360篇!(附10篇最新论文)CVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent DiffusionCVPR 2023 | GAN的反击!朱俊彦新作GigaGAN,出图速度秒杀Stable DiffusionCVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeyCVPR 2023 Workshop | 华为自研IPT-V2斩获NTIRE挑战赛图像去噪Track冠军CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”转:2023 回国探亲(5)今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会CVPR 2023 | GAN的反击!朱俊彦新作GigaGAN,出图速度秒杀Stable Diffusion!2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一Agustín Hernández:中美洲建筑背景下的未来主义巨构CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion2023 春 祝姐妹们周末快乐!重返佛罗伦萨:寻猎松露
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。