NeurIPS 2023 | 任意模型都能蒸馏！华为诺亚提出异构模型的知识蒸馏方法

公众号新闻

2023-10-31 20:10

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【知识蒸馏和Transformer】交流群

作者：王云鹤（源：知乎，已授权）| 编辑：CVer

https://zhuanlan.zhihu.com/p/664303681

在CVer微信公众号后台回复：OFAKD，可以下载本论文pdf、代码，学起来！

论文：https://arxiv.org/abs/2310.19444

代码1：github.com/Hao840/OFAKD

代码2：

https://gitee.com/mindspore/models/tree/master/research/cv/

自知识蒸馏方法在2014年被首次提出以来，其开始广泛被应用于模型压缩领域。在更强大教师模型辅助监督信息的帮助下，学生模型往往能够实现比直接训练更高的精度。然而，现有的知识蒸馏相关研究只考虑了同架构模型的蒸馏方法，而忽略了教师模型与学生模型异构的情形。例如，最先进的MLP模型在ImageNet上仅能达到83%的精度，无法获取精度更高的同架构教师模型以使用知识蒸馏方法进一步提高MLP模型的精度。因此，对异构模型知识蒸馏的研究具有实际应用意义。

本文的研究者们分析了针对异构模型（CNN，ViT，MLP）特征的差异性，指出特征中模型架构相关的信息会阻碍知识蒸馏的过程。基于此观察，研究者们提出了名为OFAKD异构模型知识蒸馏方法：该方法将特征映射到架构无关的统一空间进行异构模型蒸馏，并使用一种能够自适应增强目标类别信息的损失函数。在CIFAR-100和ImageNet数据集上，该方法实现了对现有同架构知识蒸馏方法的超越。

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文强推！

异构模型间的特征差异

相比于仅使用logits的蒸馏方法，同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在异构模型的情况下，由于不同架构模型对特征的不同学习偏好，它们的中间层特征往往具有较大的差异，直接将针对同架构模型涉及的蒸馏方法迁移到异构模型会导致性能下降。

通用的异构模型蒸馏方法

为了在异构模型蒸馏过程中利用中间层特征，需要排除特征中模型架构相关信息的干扰，仅保留任务相关信息。基于此，研究者们提出通过将学生模型的中间层特征映射到logits空间，实现对模型架构相关信息的过滤。此外通过在原始基于KL散度的蒸馏损失函数中引入一项额外的调节系数，修正后的损失函数能够实现对目标类别信息的自适应增强，进一步减缓异构模型蒸馏时无关信息的干扰。

实验结果

上表展示了在ImageNet上的异构蒸馏结果。在所有架构的六种可能异构组合中，本文OFAKD方法都得到了超越现有方法结果。

上表在ImageNet上比较了不同的值设置对结果的影响。可以看出，通过选取合适的值设置，改进后的蒸馏损失函数能得到超越原始蒸馏损失函数的结果。

本文在ImageNet上与传统同构模型蒸馏方法进行了对比。在常见的ResNet34和ResNet18同构教师学生模型组合上，OFAKD也具有与现有SOTA方法相当的表现。

最后，本文比较了文首提到的MLP作为学生模型时的蒸馏结果。通过选用ViT架构的BEiT v2-base作为教师模型，仅中等尺寸的CycleMLP-B3就刷新了MLP模型在ImageNet上的最佳结果。

结论

本文研究了异构模型之间的知识蒸馏方法，通过将学生模型中间层特征映射到logits空间来拟合教师模型最终输出，并使用在原始知识蒸馏损失函数基础上改进而来的自适应目标信息增强损失，提出的OFAKD方法在多种数据集和教师学生模型组合上实现了对现有方法的超越，扩展了知识蒸馏的应用范围。

在CVer微信公众号后台回复：OFAKD，可以下载本论文pdf、代码，学起来！

点击进入—>【知识蒸馏和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

知识蒸馏和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-知识蒸馏或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如知识蒸馏或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

NeurIPS 2023 | 任意模型都能蒸馏！华为诺亚提出异构模型的知识蒸馏方法

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【知识蒸馏和Transformer】交流群

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文强推！

AI/CV重磅干货，第一时间送达
点击进入—>【知识蒸馏和Transformer】交流群