Redian新闻
>
ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合

ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合

科技

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩



论文标题:
HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers

论文链接:

https://arxiv.org/pdf/2302.09632.pdf



动机&背景

随着预训练大模型规模的不断增加,任务特定蒸馏(下游微调蒸馏)的成本越来越高,任务无关蒸馏变得越来越重要。然而,由于教师模型的模型容量和表示能力远超学生模型,因此学生很难在大量开放域训练数据上模仿教师的预测。本文提出了同源蒸馏(Homotopic Distillation, HomoDistil)来缓解这一问题,该方法充分利用了蒸馏和剪枝的优势,将两者有机结合在了一起

具体来说,本文用教师模型初始化学生模型,以缓解两者在蒸馏过程中的容量和能力差异,并通过基于蒸馏损失的重要性得分的迭代剪枝,来逐步将学生模型修剪至最终想要的目标结构。在整个蒸馏+剪枝的过程中,教师和学生一直保持着较小的预测差异,这有助于知识更有效的传递。其核心动机如图 1 所示。


▲ 图1. HomoDistil 动机说明(用剪枝给知识蒸馏做初始化,并迭代式地获得最终的学生模型结构)



HomoDistil:同源任务无关蒸馏

如图 2 所示,本文所提出的 HomoDistil 先用教师模型初始化学生,并以类似 TinyBERT [1] 的蒸馏损失函数作为修剪的目标函数,在每次迭代中,根据重要性得分从学生中删除最不重要的神经元并用蒸馏损失指导学生的训练。在整个训练过程中不断重复此过程,直至学生达到目标规模。该方法可从「蒸馏损失函数」和「迭代剪枝细节」两部分进行介绍。


▲ 图2. HomoDistil 方法的示意图,矩形的宽度表示层的宽度,颜色的深度反映训练的充分性。

2.1 蒸馏损失函数

本文采用了与 TinyBERT [1] 的通用蒸馏阶段类似的蒸馏损失函数进行任务无关的蒸馏整体损失函数可以分为三部分:a)任务损失:设 是学生模型在开放域数据上预训练的任务损失(例如 BERT 的掩码语言建模损失 );b)概率蒸馏损失:即 Hinton [2] 经典 KD 论文中的 KL 散度损失;c)Transformer 蒸馏损失:具体包括教师和学生的中间层及嵌入层的隐层表示的差异损失,以及中间层的注意力得分差异损失。
设教师和学生的第 层的隐层表示为 ,中间层隐层表示的蒸馏损失可定义为:
其中 是均分误差 随机初始化的可学习线性投影。类似地,嵌入层隐层表示的蒸馏损失可定义为:

式(2)中的 , 以及 与式(1)中的含义类似。最后,注意力蒸馏损失可定义为:
式(3)的 表示第 层注意力得分矩阵的平均值,Transformer 蒸馏损失旨在从教师的中间层中捕获丰富的语义和句法只是,以提高学生的泛化性能。最终的损失函数为:

2.2 迭代剪枝细节

下面将对迭代剪枝的几个关键要素的细节进行介绍。

初始化本文迭代剪枝的对象是学生模型,且初始状态为预训练的教师模型,即
权重更新本文以 SGD 为优化器,以式(5)的 为目标函数,在每轮迭代中对模型权重进行更新,即:
修剪准则本文采用 [3] 提出的敏感度作为重要性得分 中第 个参数的敏感度 定义为其梯度和权重的乘积大小,即:
剪枝粒度对于学生模型中的任意权重矩阵 ,本文将其对应的重要性得分记为 ,并以列作为剪枝粒度,每次迭代时最小的修剪粒度为权重的一整列,单个列的重要性得分 为:
式(7)中的重要性得分是基于 计算的,直观上讲,该算法会优先修剪那些删除后对任务损失、预测差异以及蒸馏知识传递影响最小的权重列
迭代修剪策略在每轮迭代中,我们将根据下式获得掩码矩阵。
其中, 常采用立方递减函数来调整迭代过程中的稀疏性, 是最终稀疏度, 为总训练迭代次数,这样可以保证稀疏性缓慢增加,列逐步被修剪,从而防止学生预测性能的突然下降,具体公式如下:
稀疏模式与过往剪枝方法常用的全局稀疏模式不同,本文采用的是针对单个权重的局部稀疏性,即修剪后的模型在所有权重矩阵内都满足一定的稀疏性要求。一方面,局部稀疏性对硬件和软件更优化,能够实现更大的推理加速;另一方面,局部稀疏性有助于更好地保持和教师模型相近的模型框架,这有助于蒸馏知识的传递。

2.3 与过往剪枝+蒸馏方法的对比

从蒸馏的角度表 1 展示了蒸馏视角下 HomoDistil 和现有“剪枝+蒸馏”方法的区别。

▲ 表1. 蒸馏视角下 HomoDistil 和其他方法的对比
从剪枝的角度表 2 展示了剪枝视角下 HomoDistil 和现有“剪枝+蒸馏”方法的区别。

▲ 表2. 剪枝视角下 HomoDistil 和其他方法的对比




实验

GLUE 数据集:如表 3 所示,HomoDistil 在 6/8个任务上取得了最优的性能,并在 MNLI、SST-2 和 CoLA 上取得了显著提升。对于 10~20M 参数量的学生,增幅更为显著。


▲ 表3. GLUE 验证集上微调后的蒸馏模型性能对比(取 5 个随机种子结果的中位数)

SQuAD 数据集:表 4 的结果充分证明了 HomoDistil 方法的有效性,所有的 HomoBERT 学生都比最佳基线(MiniLM)高出 3 个点以上。


▲ 表4. SQuAD v1.1/2.0 验证集上微调后的蒸馏模型性能对比(取 5 个随机种子结果的中位数)


消融 1-损失函数:表 5 显示,使用蒸馏损失训练的学生性能始终优于没有蒸馏损失的模型,这说明教师的知识对于恢复由修剪导致的性能下降至关重要。


▲ 表5. GLUE 数据集上有无蒸馏损失的 HomoBERT 性能对比


消融 2 - 重要性得分:表 6 说明敏感度和 PLATON [4] 的重要性得分指标优于基线。


▲ 表6. GLUE 数据集上不同重要性得分指标下 HomoBERT 的性能对比



分析

预测差异:图 3 证明了本文动机的合理性,实验表明,由完整教师模型初始化的学生在整个迭代修剪过程中都比随机初始化的模型具有更小的预测差异。


▲ 图3. HomoBERT 在迭代修剪参数下蒸馏过程中的预测差异


通用知识传递:从图 4 可以看出,使用教师模型初始化的学生,在经过修剪后,在下游任务上具有明显更好的泛化性能,这说明 HomoDistil 这一范式确实传递了通用的任务无关的知识。


▲ 图4. GLUE 下不同迭代修剪参数的 HomoBERT-small 的微调准确率

参考文献

[1] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. Tinybert: Distilling bert for natural language understanding. arXiv preprint arXiv:1909.10351, 2019.
[2] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
[3] Molchanov, Pavlo, et al. “Importance Estimation for Neural Network Pruning.” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[4] Qingru Zhang, Simiao Zuo, Chen Liang, Alexander Bukharin, Pengcheng He, Weizhu Chen, and Tuo Zhao. Platon: Pruning large transformer models with upper confidence bound of weight importance. In International Conference on Machine Learning, pp. 26809–26823. PMLR, 2022.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
倒计时4天|快来开源之夏 2023 递上你的项目申请!网易数读招聘内容、设计和剪辑实习生转:2023 回国探亲(5)国际要闻简报,轻松了解天下事(03古巴印像 (1) 美丽的哈瓦那​NeurIPS 2022 | DIST: 少学点反而更好!商汤开源松弛知识蒸馏方法网易数读招聘内容编辑、内容、设计和剪辑实习生ICLR 2023 | 屠榜OGB-LSC!Uni-Mol超进化开拓材料设计新天地ICLR 2023 | MocoSFL: 低成本跨用户联邦自监督学习2023 春 祝姐妹们周末快乐!ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet​ICLR 2023 | GReTo:以同异配关系重新审视动态时空图聚合Eruope 2023ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型​ACL 2023 | 为学生模型的学习水平量身定制指导,促进知识蒸馏的效果ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一Agustín Hernández:中美洲建筑背景下的未来主义巨构美国宾州葛底斯堡国家军事公园,纪念墓碑​ICLR 2023 | 基于知识图谱的多模态类比推理向高级文明汇报一下低级的逻辑:指出汉语有独特性不等于拒绝西方;也不等于认为汉语第一;跟政治更没有关系。一“mo”做事亿“mo”当......神秘“momo”们,到底是谁?​ICLR 2023 | 标识分支结点,提升图神经网络对环的计数能力ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构NeurIPS 2022 | 如何度量知识蒸馏中不同数据增强方法的好坏?一种统计学视角豪斯曼:《诗歌外编》: 第三首:年轻的亚当在伊甸园漫步11家银行300亿美元输血救市,First Republic Bank危机结束了吗?妹纸要跟飞机结婚,小哥跟二手车啪啪啪,诡异爱情故事嘛……​NeurIPS 2022 | 知识蒸馏造成了样本不均衡问题?ICLR 2023 | 阿里达摩院开源人脸检测新框架DamoFD硅谷银行不见了,和“美国银行危机结束”小学生试卷再现“毒插图”,不良暗示太过明显,家长:真忍不了ICLR 2023 | H2RBox: 旋转目标检测方法如何构建结合 ChatGPT 的半自动化编程:以 ClickPrompt “步步惊心” 示例​ICLR 2023 | ACMP: 具有引力斥力机制的Allen-Cahn消息传递蒸馏也能Step-by-Step:新方法让小模型也能媲美2000倍体量大模型一“mo”做事亿“mo”当!你加入“momo大军”了吗?​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法ClickHouse和PostgreSQL:“数据天堂”中的好搭档
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。