Redian新闻
>
COLING 2022 | Pro-KD:循序渐进的平滑知识蒸馏

COLING 2022 | Pro-KD:循序渐进的平滑知识蒸馏

科技


©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理




Overview

随着神经模型规模的不断扩大,知识蒸馏作为模型压缩的重要工具收到越来越多的关注。知识蒸馏在一般的分类交叉熵以外加入一个额外的损失项,来鼓励学生模型模仿教师模型的 soft target 输出。相较于 ground-truth 签,前者能提供更多的概率分布信息,从而提供更多的知识给学生模型。

尽管知识蒸馏在多个任务上取得了成功,然而仍然存在两个问题:

1. 检查点搜索问题:表现最好的教师模型 checkpoint 不一定是最适合蒸馏的教师,early-stopped checkpoint 没准反而是更好的教师模型。但搜索全部 checkpoint 非常耗时耗力,很难获取到最优的 checkpoint;下表展示了 BERT 系模型在不同数据集上的最优 checkpoint



2. 容量差距问题:随着参数量的增大,预训练语言模型一般会表现更好。但很多研究表明,教师模型并不是越大越好,因为蒸馏效果会随着教师模型和学生模型之间容量差距增大而降低。Mirzadeh 等人 [1] 提出了 TA-KD,额外训练“助教”模型,学习教师模型的输出,再指导学生模型训练,有效缓解了容量差距问题,但训练中间网络会增加训练时间和计算量,同时还会导致误差累积。
在本文中,作者提出了渐进式知识蒸馏(Pro-KD)技术来解决以上两个问题。在 Pro-KD 中,作者假设教师模型的训练路径可以为学生模型提供额外知识信息,所以通过学生模型与教师模型共同训练,可以提升学生模型表现;此外,为了使学生的训练更加顺利,不受容量差距影响,作者受 Jafari 等人 [2] 工作的启发,将自适应温度因子应用于教师的输出,并在训练过程中逐步减小该因子。

作者通过对 NLP(GLUE 基准和 SQuAD 1.1 和 2.0)和图像分类任务(CIFAR-10、CIFAR-100)的实验,表明了 Pro-KD 的有效性。



论文标题:

Pro-KD: Progressive Distillation by Following the Footsteps of the Teacher

论文链接:

https://arxiv.org/abs/2110.08532

论文发表会议:

COLING 2022




Methods

本文提出了 Pro-KD 方法,共分为两个阶段。第一阶段,学生模型仅由自适应平滑版本的教师模型监督训练;第二阶段,学生模型只接受 ground-truth 标签训练。

2.1 General Step-by-Step Training with a Teacher

在第一阶段,学生模型和教师模型共同训练。在第 个 epoch 开始时,设教师模型参数为 。教师模型首先根据训练数据交叉熵损失进行参数优化:



然后,教师模型来监督学生模型训练。与传统蒸馏类似,学生模型学习教师模型的 soft-label 输出,也即输出 logit 的平滑版本:



其中, 分别为学生模型和教师模型的输出 logit 表示学生模型第 个 epoch 的损失函数, 为当前 epoch 的温度因子。每个 epoch 减少 ,直到 为止,其目的是为了让教师模型的输出更流畅,有益于缓解容量差距问题。
考虑到教师模型通常训练周期比学生模型短,所以对于教师模型的第 个 epoch,学生模型可以训练 个 epoch,只需满足 ,其中 为学生模型总训练周期数。 是训练中的一个超参数,用于控制教师模型的总训练周期数。
2.2 Training with the Ground-Truth Labels
在第二阶段,学生模型则直接在真实标签上进行训练:



该阶段与一般的 fine-tune 训练基本相同,不再赘述。综上所述,Pro-KD 方法如下图所示。





Experiments

3.1 Setup

在本节中,作者分别在图像分类、自然语言理解和问答任务上进行了三组实验,来评估 Pro-KD 性能。在所有这三个实验中,作者都将 Pro-KD 与最先进的技术进行了比较,例如 TA-KD [1]、Annealing-KD [2] 和 RCO [3] 技术等 baseline。
针对图像分类任务,作者选取了 CIFAR-10 和 CIFAR-100 [4] 数据集,均包含 有色图像和 个类别。利用 ResNet-8 和 resNet-110 分别作为学生模型和教师模型。
针对自然语言理解任务,作者选取了 GLUE benchmark 上的 个任务,分别采用 RoBERTa-large-24 layer/DistilRoBERTa-6 layer 和 BERT-base-12 layer/BERT-small-4 layer 两个教师-学生模型对进行了实验。
针对问答任务,作者选取了 SQuAD v1.1/v2.0 数据集,包括 个 QA 对。采用了与自然语言理解任务相同的两个教师-学生模型对进行了实验。
3.2 Results
图像分类任务结果如下两表所示,Pro-KD 在两个数据集上均打败了其他的 baseline。



下面的四个表格里,作者列举了自然语言理解任务上学生模型的 dev set test set 结果。



问答任务的实验结果如下表所示,Pro-KD 仍然优于当下最好的 baseline。



3.3 Ablation Studies of the Temperature Factor
作者还对温度因子进行了消融实验,如下表所示。当取消温度因子(也即 时)后,Pro-KD 方法在 GLUE benchmark 上的综合表现有所下降,说明自适应温度因子有助于学生模型在训练前期更容易模拟教师模型的 soft label 输出。





Conclusion
在本文中,作者针对传统知识蒸馏中遇到的容量差距问题和检查点搜索问题进行了分析,同时提出了 Pro-KD 蒸馏方法,为学生模型提供了一个更加顺畅的训练路线,而并非原有的直接学习成熟的教师模型。在图像分类、NLP 语言理解和问答任务上均获得了比现有 benchmark 更优的表现。


参考文献

[1] Seyed-Iman Mirzadeh, Mehrdad Farajtabar, Ang Li, and Hassan Ghasemzadeh. 2019. Improved knowledge distillation via teacher assistant: Bridging the gap between student and teacher. arXiv preprint arXiv:1902.03393.

[2] Aref Jafari, Mehdi Rezagholizadeh, Pranav Sharma, and Ali Ghodsi. 2021. Annealing knowledge distillation. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 2493–2504, Online. Association for Computational Linguistics.

[3] Xiao Jin, Baoyun Peng, Yichao Wu, Yu Liu, Jiaheng Liu, Ding Liang, Junjie Yan, and Xiaolin Hu. 2019. Knowledge distillation via route constrained optimization. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1345– 1354.

[4] Alex Krizhevsky, Geoffrey Hinton, et al. 2009. Learning multiple layers of features from tiny images



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
现世姻缘 (后记)PRECISION试验公布,双内皮素受体拮抗剂Aprocitentan可持续降低顽固性高血压患者的血压|AHA 20222.8K高刷OLED+RTX独显,华硕无畏Pro15 2022双十一最低6499元入手所托瑞安汽车科技集团创始人兼CEO徐显杰:所托瑞安的商用车渐进式智能驾驶之路|WISE2022 新经济之王大会What Do Counseling and Cosmetology Have in Common?方太玥影套系Pro:下厨,是把生活的平淡,具象成浪漫信息抽取 | 周杰博士后论文荣获COLING'22 Outstanding Paper微软决定放弃 Teams 的 Linux 应用,而用渐进式网页应用取代 | Linux 中国李翔x李丰:美元的“垄断式成功”与“渐进式困局” | 李丰专栏渐进派破壁:西有特斯拉,东有毫末智行!用数据智能推动自动驾驶历史进城Playstation 4 Pro 1TB with 1 controllerPrompt总结 | 从MLM预训任务到Prompt Learning原理解析与Zero-shot分类、NER简单实践疫情两年后欧洲三国游 (14)- 没想到在巴塞罗那机场呆了一夜TPAMI 2022 | 知识蒸馏为什么有效?因为有老师给你划“重点”Playstation 4 Pro 1TB with 1 black controller同样是PM,Product Manager、Program Manager、Project Manager的薪资哪个更高?“鬓微霜,又何妨”——渐进式延迟法定退休年龄Rosalía 登意大利版《VOGUE》封面!断舍离再次开篇-100天(8.6.22)Gurman:苹果M2 Pro / Max MacBook Pro14/16英寸和Mac Pro新款将于23年Q1发布​KDD 2022 | kgTransformer:基于知识图谱与Transformer的复杂逻辑查询ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏娄岩一周诗词四首中国的后手顶级律所Cooley合伙人及资深律师解读企业如何进行海外知识产权布局?如何保护跨境知识产权?Former Chinese Soccer Coach Probed Amid Anti-Graft CrackdownNAACL 2022 | 简单且高效!随机中间层映射指导的知识蒸馏方法COLING 2022 | CogBERT:脑认知指导的预训练语言模型渐进式量产进阶!卡车自动驾驶进入商业化新周期皮肤的平滑、清爽与透亮,就靠这瓶“智能“精华水!HIRE——基于异构图神经网络的高阶关系级知识蒸馏方法美股SPAC| Breeze Holdings宣布与先进的技术和复合材料制造公司 TV Ammo, Inc. 合并的最终协议Cities Offer Huge ‘Group Buying’ Discounts on Unsold PropertiesHacking, Hugging, and Healing | AGM 2022, Keynotes & Election我在斯坦福当教练和评委 My Learnings from Coaching Stanford Entrepreneurs!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。