Redian新闻
>
​NeurIPS 2022 | DIST: 少学点反而更好!商汤开源松弛知识蒸馏方法

​NeurIPS 2022 | DIST: 少学点反而更好!商汤开源松弛知识蒸馏方法

科技

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩



论文标题: 
Knowledge Distillation from A Stronger Teacher

论文链接:

https://arxiv.org/pdf/2205.10536.pdf

代码链接:

https://github.com/hunto/DIST_KD




引言
深度神经网络在计算机视觉领域取得了显著成功,在追求更好性能的道路上,现有的深度学习模型通常变得更深更宽。然而,由于计算和内存资源的限制,这些模型难以实际应用部署。因此,针对深度学习模型的压缩方法得到了广泛的研究,知识蒸馏(Knowledge Distillation, KD)就是其中非常重要的一类方法。
知识蒸馏是指在训练期间从更大模型(教师)中提取知识来提高小模型(学生)性能的方法,其本质在于如何将知识从教师传递给学生。最直观有效的方法是通过 Kullback-Leibler(KL)散度 [1] 来匹配师生的概率预测得分,其他常见的知识蒸馏方法还包括特征蒸馏 [2] 和关系蒸馏 [3]
随着模型规模和模型性能的不断增加,实验发现,性能更好的模型作为教师,往往并不能带来学生蒸馏性能的提升,甚至比从头开始训练的表现更糟糕。这一现象可被概况为“更强的模型不一定是好教师”。过往的研究主要集中在解决模型规模显著不同时的知识蒸馏问题,常见的解决方案是引入中等规模的模型作为中间过渡,缓解教师和学生在模型大小上的巨大差异。
然而,模型大小的增加只是更强大教师的一种范式,现有的方法缺乏对更先进的训练策略对知识蒸馏影响的深入分析。本文旨在探究和提出一个足够通用的方案来解决“更强的模型不一定是好教师”的问题,既包括更大的模型规模,也包括更强的训练策略。
作者认为将知识从教师传递到学生时,我们真正关心的是教师的概率预测的相对顺序,而不需要准确地模仿其绝对值。本文提出了一种利用皮尔逊(Pearson)相关系数 [4] 替换 KL 散度的知识蒸馏方法。除了学习概率预测的类间关系(inter-class relations),作者还提出可以学习不同实例相对于每个类的类内关系(intra-class relations)。该方法被称为 DIST(Knowledge Distillation from A Stronger Teacher)。

如图 1 所示,不同于过往的方法,学生只是被适当地引导以提取那些真正有用的关系。DIST 的训练成本和原始 KD 几乎一致,在多个任务和数据集上取得了 SOTA 的效果。


▲ 图1. DIST 和现有 KD 方法的不同




重新审视KD的概率匹配

2.1 原始KD介绍

原始 KD [1] 利用最小化教师和学生概率预测得分的差异,将知识从预先训练好的教师模型传递到学生模型。具体公式如下:

过往研究表明与 ground-truth 一同训练有利于提高学生性能,整体训练损失由原始分类损失 和蒸馏损失 组成:

2.2 更强教师带来的灾难性分歧

通过系统地研究设计和训练深度神经网络的流行策略,作者发现——如图 2 所示,当教师和学生采用更先进的训练策略时,教师的性能会更好,但它和学生之间的差异也会变得相当大。从图中可以看出,当采用更先进的训练策略时(B2),与 ResNet-50 相比,ResNet-18 的输出并未有太大变化。


▲ 图 2. 不同训练策略下教师和学生的预测差异(KL 散度)
由此可以推测,当教师过于强大时,利用 KL 散度准确模仿教师的概率预测得分可能十分具有挑战性,这可能是原始 KD 的失败的原因 。同时,蒸馏损失和分类损失的不一致也会更严重,这将导致对学生训练的干扰。因此,作者认为可以采用一种更松弛的方式匹配教师和学生的概率预测。


方法:DIST

3.1 对关系的松弛匹配
概率预测得分表示教师对所有类别的置信度(或偏好)。根据上文的实验现象和推测,我们真正关心的是教师预测的相对关系,而不是绝对值。因此,我们可以选择一种 的度量 ,在精确匹配 的基础上引入 的额外映射 ,即:
因此, 并不一定要求 完全相同。 是保序映射时,我们就可以保证 具有相同的预测排序,而不影响预测向量的语义信息和推断结果。
一种常见的保序映射为正线性变换,即:

这种匹配方式具有尺度和平移不变性,可以满足对关系的松弛匹配。为了满足式(5)的性质,作者采用了广泛使用的皮尔逊距离作为度量,即:
通过这种方式,原始 KD 的精确匹配得到松弛,取而代之的是最大线性相关,以保留教师和学生每个实例在概率预测的关系,即类间关系(inter-class),具体损失函数可表示为:

3.2 类内关系的补充

除了类间关系,每个类在多个实例的概率预测的相对关系也蕴含着丰富的知识。该知识反映了教师对不同实例在同一类的相似度判断。例如,标签为“猫”“狗”和“飞机”的三张图像,在“猫”类上的预测得分分别是 。因为飞机是无生命的, 的相对关系蕴含着语义相似度的信息,这种类内关系值得传递。其具体损失函数可表示为:
整体的训练损失函数 可由分类损失、类间 KD 损失和类内 KD 损失组成,即:




实验

1. 图像分类:如表 1 所示,DIST 方法明显优于过往的 KD 方法,在相同和不同模型结构间都取得了最好的分类性能。



▲ 表1. ImageNet 上不同蒸馏方法的对比


2. 目标检测:如表 2 所示,通过简单地替换损失函数,DIST 就显著优于原始 KD。此外,在 DIST 基础上加上最简单的 FPN 特征均方误差最小化,就能取得超越目标检测中最先进的 KD 方法。这充分说明了 DIST 在下游任务中的有效性。

▲ 表2. COCO 验证集上不同 KD 方法对比


3. 语义分割:如表 3 所示,DIST 在语义分割任务上明显优于现有的知识蒸馏方法,这也证明了本文所提出的方法在关系建模上的有效性。


▲ 表3. Cityscapes 数据集上不同 KD 方法的对比


4. 从更大的教师模型中蒸馏:如表 4 所示,当教师模型变大时,DIST 相较于 KD 能为学生带来更多的性能收益。

▲ 表4. DIST 和 KD 在不同模型大小教师下的蒸馏表现对比

5. 从更先进的训练策略中蒸馏:表 5 的结果表明,当采用更先进的训练策略时,DIST 相较于 KD 能为学生带来更多的性能收益。


▲ 表5. DIST 和 KD 在不同训练策略下的蒸馏表现对比

6. 消融实验:表 6 的结果表明,类间关系和类内关系都优于原始 KD,它们结合能进一步提高性能。


▲ 表6. 类间和类内关系的消融实验


参考文献

[1] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 1, 3, 5, 6, 7, 8, 14
[2] B. Heo, J. Kim, S. Yun, H. Park, N. Kwak, and J. Y. Choi. A comprehensive overhaul of feature distillation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1921–1930, 2019. 1, 6
[3] Y. Tian, D. Krishnan, and P. Isola. Contrastive representation distillation. In International Conference on Learning Representations, 2019. 1, 6, 8, 14
[4] K. Pearson. Vii. mathematical contributions to the theory of evolution.—iii. regression, heredity, and panmixia. Philosophical Transactions of the Royal Society of London. Series A, containing papers of a mathematical or physical character, (187):253–318, 1896. 2


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
娄岩一周诗词五首NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息​NeurIPS 2022 | 外包训练:无需终端上传源数据,无需联邦学习,也能得到好模型?最后告别!明天,Ardern将正式离开国会!新工作也已揭晓!她接到过惊人数量的恐吓,NZ总理劝告:善待她,新西兰因她而更好!CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法全民催眠曲2022 USNEWS发布美国薪酬最高行业TOP25【回顾与展望】 2022,非洲收宮之旅,阿尔及利亚,埃塞俄比亚,突尼斯NeurIPS 2022 | 基于结构聚类的异质图自监督学习懒得吹头?专家警告:湿头发上床“后果超恶” 电费反而更贵邓小平向中央保证《永不翻案》捡便宜却用不到!存钱达人曝3样商品“特价买反而更亏”…【回顾与展望】2022 后疫情时代的旅游,2023 回家​NeurIPS 2022 | 最优脑压缩,训练后剪枝又一力作!NeurIPS 2022 | 用离散对抗训练提高视觉模型的鲁棒性和泛化能力今天随意浏览了一下CMU 2019为什么看着舞台上的女团幂,反而更让人怀念当年的灵气郭襄了?64进阶66,女王般霸气无人敌岁末文学城,竖起一道哭墙!NeurIPS 2022 | 训练速度100倍提升!基于PyTorch实现的可微逻辑门网络开源NeurIPS 2022 | 基于激活值稀疏化的内存高效迁移学习ECCV 2022 | MixSKD: 用于图像识别的Mixup自蒸馏方法为什么「不听话」的孩子,反而更自律?去年中国大陆多少学生申请美国本科?CA公布2021-22中国大陆学生本科申请数据报告!刚刚!商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此2022 湾区公立/私立高中 UCB 录取率排名NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑NeurIPS 2022 | 利用多光照信息的单视角NeRF算法,可恢复场景几何与材质信息大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022为什么「不听话」的孩子,反而更自律NeurIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑NeurIPS 2022 | UCLA推出科学问答新基准,大语言模型迎来多模态新挑战!NeurIPS 2022 | 如何度量知识蒸馏中不同数据增强方法的好坏?一种统计学视角​NeurIPS 2022 | 知识蒸馏造成了样本不均衡问题?扎克伯格反思裁员:人少了,事情反而更快香港通关3个月,为何广东港澳子弟学校反而更火爆了?西电 NeurIPS 2022 | 基于结构聚类的异质图自监督学习NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合​NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。