Redian新闻
>
ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签

ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信交流群

作者:美索不达米亚平原 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/644157944

本文介绍我们ICCV 2023关于知识蒸馏的工作: From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels, 文章包括了对logit蒸馏损失计算方法的改进,并基于改进后的公式提出了定制的软标签,用于实现自蒸馏。现在代码已经开源,欢迎大家使用~(转载请注明出处)

文章链接:arxiv.org/abs/2303.13005

代码链接:github.com/yzd-v/cls_KD

一、简介

原生蒸馏使用教师的logits作为软标签,与学生的输出计算蒸馏损失。自蒸馏则试图在缺乏教师模型的条件下,通过设计的额外分支或者特殊的分布来获得软标签,再与学生的输出计算蒸馏损失。二者的差异在于获得软标签的方式不同。

这篇文章旨在,1)改进计算蒸馏损失的方法,使得学生能更好地使用软标签。2)提出一种通用的高效简单的方法获得更好的软标签,用于提升自蒸馏的性能和通用性。针对这两个目标,我们分别提出了Normalized KD(NKD)和Universal Self-Knowledge Distillation (USKD)。

二、方法与细节

1)NKD

用 V 表示label的值,分类任务采用交叉熵作为模型训练的原损失:

原生的蒸馏损失表示为:

2)USKD

根据NKD的公式,我们从target和non-target两个角度来人工设计软标签,以实现自蒸馏。首先针对target部分,教师输出的 Tt 在训练中是稳定的,并且反映了图片的分类难度。而在自蒸馏中,我们能使用的只有学生输出的 St,它在训练前期的值很小,并且不同样本间值的差异较小,此外随着模型的训练, St变化很大。为了使得其向 Tt 接近,我们首先对其进行平方,以扩大样本间的值差异,接着我们提出了一种平滑方法来控制其在不同训练阶段的相对稳定,并获得soft target label,用于计算NKD的第一部分target损失:

针对第二部分soft non-target labels,其组成可以分为不同类别的顺序分布以及值的分布。首先针对顺序,我们提出对CNN模型的第三个stage输出或者ViT模型的中间层token进行分类,用一个小的权重对这个分类进行弱的监督,得到weak logit Wi,再将 Wi 和 Si 归一化后相加,得到的顺序作为最终non-target label的顺序 Ri :

对于值的分布,我们采用了Zipf's LS 的做法,并利用 Ri 进行排序,获得soft non-target labels,用于计算NKD的第二部分non-target损失:

三、实验

我们首先在CIFAR-100和ImageNet上对NKD进行了验证,学生更好地利用了老师的软标签soft labels,获得了更好的表现。

对于自蒸馏,我们也在CIFAR-100和ImageNet上对USKD进行了验证,并测试了自蒸馏所需要的额外训练时间,模型在很少的时间消耗下便获得了可观的提升。

我们的NKD和USKD同时适用于CNN模型与ViT模型,因此我们还在更多模型上进行了验证。

四、代码部分

我们已将代码开源:

https://github.com/yzd-v/cls_KD

开源代码基于MMClassification,我们也在其中放了对应的模型,并且实现了一些其他文章,比如DKD,MGD,SRRL,WSLD,ViTKD,欢迎大家试用。

此外,我们对MMClassification的0.x大版本与1.x大版本进行了蒸馏环境的适配,供大家交流学习。

点击进入—>【计算机视觉】微信交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测ICCV 2023 | 通用数据增强技术!适用于任意数据模态的随机量化“批量维权”芦荟胶:韩国一化妆品公司起诉四千余家中国小店人为什么会衰老 (2023为什么会有商品标签?如何做好商品标签呢?ICCV 2023 | PVT++:通用的端对端预测性跟踪框架歌剧“波希米亚人”观后感王辰:医学卫生健康事业的意义与定位是什么?从鲜制软牛肉干切入,「八只牛」半年内连续完成种子轮、天使轮融资|36氪首发《黄浦江》 —— 第6章 玉人垂泪(2)CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架荷兰岭农场(Holland Ridge Farms, NJ),万紫千红游莱茵河,岸边城堡俄乌战况24首个感知决策一体化自动驾驶通用大模型!商汤联合团队获CVPR 2023最佳论文绿研院日报 | 刘庆峰:通用人工智能的意义比互联网诞生还要大ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架ICCV 2023 | 通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测Tour de l’ile de Montréal 2023对话中关村科金张杰:通用大模型落地企服赛道,领域适配是门槛今天买到T消失与新生:大学专业洗牌背后的五大趋势中国工业互联网研究院:通用人工智能大模型工业领域知识问答性能评估如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!导演张律:我相信迷失与游荡的人,笃定的人我不相信华为轮值董事长胡厚崑:通用人工智能正在开创下一个黄金十年对话丨周伯文:通用大模型如何突破垂直行业场景?ICCV 2023 | 通用数据增强技术,随机量化适用于任意数据模态测评适用于 Linux 中 Wayland 的最佳屏幕录制软件 | Linux 中国​ACL 2023 | 为学生模型的学习水平量身定制指导,促进知识蒸馏的效果华映资本章高男:通用大模型活下来的不超过3家,下个千亿级机会在游戏业CVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViT印象笔记唐毅:通用大模型不会一统天下,用户需要不同的「机器大脑」ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别每年至少有5.2万人因产品缺陷受伤死亡!对澳洲经济造成$50亿损失,ACCC促人们留意召回提醒劳柯|我的一天 (05/20/23,星期六)wow! Tom Hanks Presidential Harvard Speech Motivational Inspirat上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。