Redian新闻
>
NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法

NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【知识蒸馏和Transformer】交流群

作者:王云鹤(源:知乎,已授权)| 编辑:CVer

https://zhuanlan.zhihu.com/p/664303681

在CVer微信公众号后台回复:OFAKD,可以下载本论文pdf、代码,学起来!
论文:https://arxiv.org/abs/2310.19444
代码1:github.com/Hao840/OFAKD
代码2:
https://gitee.com/mindspore/models/tree/master/research/cv/

自知识蒸馏方法在2014年被首次提出以来,其开始广泛被应用于模型压缩领域。在更强大教师模型辅助监督信息的帮助下,学生模型往往能够实现比直接训练更高的精度。然而,现有的知识蒸馏相关研究只考虑了同架构模型的蒸馏方法,而忽略了教师模型与学生模型异构的情形。例如,最先进的MLP模型在ImageNet上仅能达到83%的精度,无法获取精度更高的同架构教师模型以使用知识蒸馏方法进一步提高MLP模型的精度。因此,对异构模型知识蒸馏的研究具有实际应用意义。

本文的研究者们分析了针对异构模型(CNN,ViT,MLP)特征的差异性,指出特征中模型架构相关的信息会阻碍知识蒸馏的过程。基于此观察,研究者们提出了名为OFAKD异构模型知识蒸馏方法:该方法将特征映射到架构无关的统一空间进行异构模型蒸馏,并使用一种能够自适应增强目标类别信息的损失函数。在CIFAR-100和ImageNet数据集上,该方法实现了对现有同架构知识蒸馏方法的超越。

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用发论文强推!

异构模型间的特征差异

图1 异构模型学习到的特征对比

相比于仅使用logits的蒸馏方法,同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在异构模型的情况下,由于不同架构模型对特征的不同学习偏好,它们的中间层特征往往具有较大的差异,直接将针对同架构模型涉及的蒸馏方法迁移到异构模型会导致性能下降。

通用的异构模型蒸馏方法

图2 异构模型的知识蒸馏方法

为了在异构模型蒸馏过程中利用中间层特征,需要排除特征中模型架构相关信息的干扰,仅保留任务相关信息。基于此,研究者们提出通过将学生模型的中间层特征映射到logits空间,实现对模型架构相关信息的过滤。此外通过在原始基于KL散度的蒸馏损失函数中引入一项额外的调节系数,修正后的损失函数能够实现对目标类别信息的自适应增强,进一步减缓异构模型蒸馏时无关信息的干扰。

图3 原始蒸馏损失与改进后蒸馏损失的对比

实验结果

图4 在ImageNet上的异构模型蒸馏结果

上表展示了在ImageNet上的异构蒸馏结果。在所有架构的六种可能异构组合中,本文OFAKD方法都得到了超越现有方法结果。

图5 不同值对结果的影响

上表在ImageNet上比较了不同的值设置对结果的影响。可以看出,通过选取合适的值设置,改进后的蒸馏损失函数能得到超越原始蒸馏损失函数的结果。

图6 在ImageNet上的同构模型蒸馏结果

本文在ImageNet上与传统同构模型蒸馏方法进行了对比。在常见的ResNet34和ResNet18同构教师学生模型组合上,OFAKD也具有与现有SOTA方法相当的表现。

图7 MLP学生模型的蒸馏结果

最后,本文比较了文首提到的MLP作为学生模型时的蒸馏结果。通过选用ViT架构的BEiT v2-base作为教师模型,仅中等尺寸的CycleMLP-B3就刷新了MLP模型在ImageNet上的最佳结果。

结论

本文研究了异构模型之间的知识蒸馏方法,通过将学生模型中间层特征映射到logits空间来拟合教师模型最终输出,并使用在原始知识蒸馏损失函数基础上改进而来的自适应目标信息增强损失,提出的OFAKD方法在多种数据集和教师学生模型组合上实现了对现有方法的超越,扩展了知识蒸馏的应用范围。

在CVer微信公众号后台回复:OFAKD,可以下载本论文pdf、代码,学起来!

点击进入—>【知识蒸馏和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

知识蒸馏和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-知识蒸馏或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如知识蒸馏或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
吃“有毒”数据,大模型反而更听话了!来自港科大&华为诺亚方舟实验室NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架深圳内推 | 华为诺亚方舟语音语义实验室招聘大语言模型研究实习生开心周报(十三)NeurIPS 2023 | 多模态基础大模型的高效微调NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型华为诺亚方舟实验室招聘应届硕士生NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调CVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViT大模型知识蒸馏概述NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRNeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!2023/08最新民调,台湾人对于独立还是统一是怎么看的?NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效外孙女杠杠的要回了自己的空手训练棒,外孙一句话暖了妈妈焦虑的心,等等浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?JMT 2023.08.21NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成Bill Gates didn\'t lose his enthusiasm on new innovations even aNeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusionYOLO再升级!华为诺亚提出Gold-YOLO,聚集-分发机制打造新SOTANeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTA灌酒迷奸计中计2(小小说)NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法JMT 2023.08.20NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络US News 2023「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023巴黎凯旋门
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。