Redian新闻
>
TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

公众号新闻

©作者 | 杨传广

单位 | 中科院计算所

研究方向 | 计算器视觉、模型压缩


本次文章介绍我们于 TPAMI-2023 发表的一项用于视觉识别的相互对比学习在线知识蒸馏(Online Knowledge Distillation via Mutual Contrastive Learning for Visual Recognition)工作,该工作是我们发表在 AAAI-2022 论文 Mutual contrastive learning for visual representation learning [1] 的扩展版本,论文讲解链接为:
https://zhuanlan.zhihu.com/p/574701719

摘要:无需教师的在线知识蒸馏联合地训练多个学生模型并且相互地蒸馏知识。虽然现有的在线知识蒸馏方法获得了很好的性能,但是这些方法通常关注类别概率作为核心知识类型,忽略了有价值的特征表达信息。

本文展示了一个相互对比学习(Mutual Contrastive Learning,MCL)框架用于在线知识蒸馏。MCL 的核心思想是在一个网络群体中利用在线的方式进行对比分布的交互和迁移。MCL 可以聚合跨网络的嵌入向量信息,同时最大化两个网络互信息的下界。这种做法可以使得每一个网络可以从其他网络中学习到额外的对比知识,从而有利于学习到更好的特征表达,提升视觉识别任务的性能。

相比于会议版本,期刊版本将 MCL 扩展到中间特征层并且使用元优化来训练自适应的层匹配机制。除了最后一层,MCL 也在中间层进行特征对比学习,因此新方法命名为 Layer-wise MCL(L-MCL)。在图像分类和其他视觉识别任务上展示了 L-MCL 相比于先进在线知识蒸馏方法获得了一致的提升。此优势表明了 L-MCL 引导网络产生了更好的特征表达。

论文地址:

https://arxiv.org/pdf/2207.11518.pdf

代码地址:

https://github.com/winycg/L-MCL




引言


传统的离线知识蒸馏需要预训练的教师模型对学生模型进行监督。在线知识蒸馏在无需教师的情况下同时联合训练两个以上的学生模型。深度相互学习(Deep Mutual Learning,DML)[2] 表明了模型群体可以从相互学习类别概率分布(图像分类任务最后的输出预测)中获益。每一个模型在同伴教授的模式下相比传统的单独训练效果更好。

现有的在线知识蒸馏方法通常仅仅关注结果驱动的蒸馏,但是忽略了在线蒸馏特征方面的应用。虽然先前的 AFD [3] 尝试通过在线的方式在多个网络间对齐中间特征图,Zhang 等人 [2] 指出这种做法会减少群体多样性,降低相互学习能力。为了学习更有意义的特征嵌入,我们认为一个更好的方式是从视觉表征学习角度的对比学习。

▲ 图1. 相互对比学习基本思想示意图

图中, 分别表示两个不同的网络, 是推理来自网络 和输入样本 产生的特征向量。虚线和箭头代表要逼近或者远离的方向。从图中可以看出,MCL 包含了朴素对比学习(Vanilla Contrastive Learning,VCL)和交互式对比学习(Interactive Contrastive Learning,ICL)。

相比于传统的 VCL,提出的 ICL 从两个不同网络间建模对比相似度分布。本文证明 ICL 的误差函数等价于最大化两个网络互信息的下界,这可以被理解为一个网络可以学习到另外网络额外的知识。

MCL 主要是发表于 AAAI-2022 的方法,期刊版本将 MCL 从卷积网络的最后一层扩展到多个模型的中间特征层,命名为 Layer-wise MCL。此外,传统的中间特征层蒸馏使用手工的匹配,本文则提出一个自适应的层匹配机制,然后通过元优化来训练该机制。



方法


2.1. 相互对比学习MCL(AAAI-2022)

▲ 图2. 相互对比学习整体示意图


2.1.1 传统对比学习(Vanilla Contrastive Learning,VCL)

为了便于描述,本方法将 anchor 样本向量表示为 , 正样本向量表示为 个负样本向量表达为  表示向量产生自网络 。这里,特征向量通过 标准化进行预处理。使用基于 InfoNCE 的交叉熵作为对比误差:
对于总共 个网络来说,所有的对比误差表示为:

2.1.2 交互式对比学习(Interactive Contrastive Learning,ICL)

VCL 不能建模跨网络的关系来进行联合学习,因为对比分布来自于网络自身的嵌入空间。ICL 的 anchor 样本与对比样本产生自不同的网络,但在误差形式上依旧与传统的对比学习误差相同:

对于总共 个网络来说,所有的对比误差表示为:
理论分析:

相比于误差 ,最小化 等价于最大化网络 互信息 的下界:

直觉上,当来自 的 anchor 特征向量已知时,互信息 衡量了来自 对比特征向量的不确定性,这可以理解为每一个网络可以从其他网络中学习到对比知识,从而更有利于表征学习。


2.1.3 基于在线相互迁移的软对比学习

收到深度相互学习(Deep Mutual Learning,DML)[1] 的启发,本方法利用 KL 散度来对齐网络间的对比分布,根据本文提出的两种对比学习方法 VCL 和 ICL 来进行对比分布的双向迁移:


2.1.3.1 Soft VCL:

对于产生 的分布 来说,其监督信号是其他网络 产生的分布 利用 KL 散度使得 与其他分布接近:

2.1.3.2 Soft ICL

给定两个网络 ,可以得到两个ICL对应的对比分布 ,使用 KL 散度的形式使得两个分布尽可能接近。对于 个网络来说,每两个网络进行对比分布的迁移:

2.1.4 MCL的整体误差

为了尽可能利用联合学习的优势,本方法将所有的对比误差项作为一个整体的误差训练 个网络:

2.2 逐层的相互对比学习(Layer-wise MCL)

▲ 图3. 一对一匹配和加权的多对多匹配示意图

2.2.1 基础框架

给定网络群体 每一个网络具有 个阶段,原始的 MCL 在最后的特征嵌入 进行学习。Layer-wise MCL(L-MCL)进一步扩展相互对比学习到中间特征层和最后特征层,并且采用跨层的方式。
下一个章节,本文展示如何利用元网络 来优化匹配权重


2.2.2 训练元网络

2.2.2.1 交叉熵任务误差

使用交叉熵误差训练 个网络:
将基础的任务误差和 L-MCL 误差相加作为总误差来进行特征层面的在线蒸馏误差:

2.2.2.2 元优化

受到元学习的启发,本文采用交替优化的方式来训练学生网络和元网络:

(1)更新 次最小化

(2)更新 来一次最小化

(3)衡量 并且更新 来最小化它。


2.2.2.3 元网络 结构
元网络包含了两个线性转换 来对输入的特征向量 进行转换。转换之后,特征向量通过 正则化 来进行标准化。受到自注意力机制的启发,本文利用点乘得到匹配特征的相似性,从而衡量匹配层的相关性,然后引入 sigmoid 激活函数 来将输出值缩放到 作为层匹配权重 。整体的过程被规则化为:




实验


在 ImageNet 上的实验结果如下所示,表 1 和表 2 分别展示了两个同构和异构网络利用相互对比学习的实验结果。

▲ 表1. 两个同构网络利用相互对比学习的实验结果
▲ 表2. 两个异构网络利用相互对比学习的实验结果

实验结果表明本文提出的 L-MCL 相比于 baseline 以及先前流行的在线知识蒸馏方法都获得了显著的性能提升,表明在多个网络之间使用特征层面的对比学习蒸馏相比概率分布效果更好。在下游的目标检测和实例分割实验上表明了该方法相比先前的蒸馏方法引导网络学习到了更好的视觉表征,从而提升了视觉识别效果。

▲ 表3. 通过在线蒸馏的预训练网络迁移到下游的目标检测和与实例分割的实验



参考文献

[1] Yang C, An Z, Cai L, et al. Mutual contrastive learning for visual representation learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2022, 36(3): 3045-3053.
[2] Zhang Y, Xiang T, Hospedales T M, et al. Deep mutual learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4320-4328.
[3] Chung I, Park S U, Kim J, et al. Feature-map-level online adversarial knowledge distillation[C]//International Conference on Machine Learning. PMLR, 2020: 2006-2015.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
古诗词随想(二)Texas Sunshine 2023UTMB 越野让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法Because I'm Stupid - Kim Huyn Joong糕妈:快开学了!总结年糕三升四的暑假,这件事比学习更重要扔掉okhttp、httpClient,来试试这款轻量级 HTTP 客户端框架,吹爆!南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别港大张老师:深度学习在现代选股策略中的应用研究|收获一作论文与导师推荐信!直播预告 | SemEval 2023最佳论文:针对命名实体识别的统一检索增强方法一日登三峰 2023.07.29火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!上身就是高级感,真香!CVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViT7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023恢复室中的相关呼吸问题之初步识别和处理最好的相处模式:相互麻烦,彼此感恩 |社长日签AAAI 2023 | 基于可学习图增强的邻居监督图对比学习ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签降压药物与CKD常用药物的相互作用知多少MDSC与NK细胞之间的相互作用中国科学院团队首篇LLM模型压缩综述:细聊剪枝、知识蒸馏、量化技术第3年那1年内每100辆车有多少毛病火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!3折抢!真香上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」胜利大会师 – 除了玩就是吃呗之非米其林们 (上)大模型知识蒸馏概述南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有三登雪山 Mt. Shasta 2023.07.08【男性视觉——我的相亲之路​】我是一名中年离异男,离婚三年多,刚刚再婚林文采:影响孩子一生的“亲子关系"远比学习成绩重要​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架精忠保国本周三七点半;继续在线医学英语学习,英国老师Sean Brady在线讲授微软亚研提出TinyMIM,用知识蒸馏改进小型ViT被离婚之后斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速活动邀请 | 网络研讨会:彭博自动图表形态识别(ATPR)技术分享
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。