Redian新闻
>
​ACL 2023 | 为学生模型的学习水平量身定制指导,促进知识蒸馏的效果

​ACL 2023 | 为学生模型的学习水平量身定制指导,促进知识蒸馏的效果

公众号新闻



本文介绍我们在 Amazon AI lab 期间的工作,文章已被 ACL 2023 主会接收:Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation,代码已开源。

文章链接:
https://arxiv.org/abs/2305.09651

代码链接:

https://github.com/twinkle0331/lgtm




简介

大规模预训练语言模型的参数量较大,直接将其部署到下游任务会带来高昂的计算和存储成本。知识蒸馏(Knowledge Distillation)是针对该问题的一种解决方案,通过训练一个小的学生模型,让其模仿教师模型在下游任务上的输出,从而达到和教师模型相近的效果,并降低了部署成本。
但现有的一些文献表明,一个效果更好的教师模型,不一定能教出更好的学生模型。这是由于效果更好的教师模型,往往和学生模型的规模差距更大,这在知识蒸馏的过程中容易产生优化困难的问题,继而导致教师学到的知识不能高效地传递给学生。
一种解决这种问题的方式是 learning to teach,通过学生的反馈来调整教师的输出。online distillation 和 meta distillation 是 learning to teach 两种有代表性的方法。然而,这两种方法都有不足之处。前者聚焦于学生在训练集上的反馈,而忽略了学生在验证集上的反馈,可能会削弱学生的泛化能力;后者虽然引入了学生在验证集上的反馈,但却忽略了教师自身在训练集上的学习,仅依靠学生的反馈调整教师的输出,容易导致教师的性能变差。
因此,我们提出了 LGTM(Learning Good Teacher Matters模型,导出了 distillation influence 的概念,即通过学生在验证集上的输出,评估每个训练样本对其泛化能力的影响,从而动态地分配权重给不同的训练样本。学生难以泛化的样本,会被给予更低的权重。而教师通过学生的反馈,并结合自身在训练集上学习到的知识,能够动态地调整自身输出,从而给予学生更合适的监督信号。

下图可以直观地表示不同蒸馏方式间的差异:




方法
在下文的讲解中会用到的数学符号:
: 教师模型,学生模型。 分别表示教师和学生在第 m 个训练 step 时的模型参数。
: 训练集,验证集。
: 训练集的一个 batch,包含 个训练样本。 表示 batch 中的一个训练样本。
: 验证集的一个 batch。
: cross entropy loss。

2.1 Distillation influence

Influence function(Pruthi 等 [1];Koh 和 Liang 等 [2]),用来估计每个训练样本对模型预测结果的影响。而在知识蒸馏的场景下,我们可以通过计算每个训练样本和验证集 batch 的梯度相似度,来量化每个训练样本对模型泛化能力的影响。

因此,我们可以从 influence function,导出 distillation influence:
具体推导过程可参考文章的附录A。

为了将 distillation influence 引入教师的训练过程,我们提出了 influence loss:

表示每个样本的 distillation influence,有助于增强学生泛化能力的样本,会被赋予更高的权重。
2.2 Finite difference approximation
然而,在计算 中的 distillation influence 时,需要逐一地对训练 batch 里的每个样本计算  这一项的梯度,对 需要计算 次 forward 和 backward,计算效率受限于训练 batch 的大小 。因此,我们可以利用 finite difference [3] 技巧,对 influence loss 进行近似:
近似后,对于一个 batch 里的所有训练样本,只需对 计算两次 forward,对 计算一次 backward 即可,大大提高了计算效率。
具体推导过程可看文章的附录B。

2.3 Teacher's auxiliary loss

前文提到的 meta distillation 的一个缺陷是忽略了教师自身对训练样本的学习。因此,我们引入了 auxiliary loss。

 即为最终训练教师的目标函数。 的结合,表示教师能兼顾学生的反馈和自身的学习。
下面是我们的方法的总体算法图:




实验

我们的 LGTM 模型,在 6 个文本分类数据集达到了 SOTA 效果,证明了我们方法的有效性:
为了进一步分析 distillation influence,我们选取了 MRPC 数据集中的两个典型样本,可视化了 distillation influence 在训练过程中的变化:

左图样本的 ground truth 标签是 0,然而教师和学生在一开始一直分类错误该样本,说明这个样本是难样本,如果过于关注对该样本的学习,可能会削弱学生的泛化能力。因此,该样本被赋予了负权重。右图样本的 ground truth 标签是 1,教师和学生都能分对该样本,说明该样本是较为简单的样本,有助于帮助学生建立决策边界,因此被赋予了正向权重。

我们也随机选取了 64 个样本,可视化了 distillation influence 的整体趋势图:

可以看出,无论样本被给予正权重还是负权重,distillaion influence 的变化趋势是相似的。在训练过程中,我们的方法能动态地赋予训练样本不同的权重。



总结与未来工作

我们的方法提出了 distillation influence,能够量化不同训练样本对学生泛化能力的影响,从而动态赋予这些样本不同的权重。通过实验,我们证明了这种根据学生的反馈动态调整训练样本权重的方式,能够有效地缓解过拟合现象,促进知识蒸馏的效果。

未来可以将我们的方法拓展到更复杂的任务,如文本生成任务。


参考文献

[1] https://proceedings.neurips.cc/paper/2020/hash/e6385d39ec9394f2f3a354d9d2b88eec-Abstract.html

[2] http://proceedings.mlr.press/v70/koh17a?ref=https://githubhelp.com

[3] https://www.cs.purdue.edu/homes/dgleich/publications/Gleich%202005%20-%20finite%20calculus.pdf



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
对话圆代码 CEO 张朝明:做不跟 ChatGPT 对抗的企业大模型,用更少的数据达到更好的效果纽约DMV官方发布:14款特色车牌,为居民量身定制!Nothing中央重磅部署,促进民营经济!可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架文学大师给孩子的“语文素养范本”,分级阅读、技巧指导,覆盖中小学生!清明忆亡妻(微型小說)希沃学习机新品首发福利!定制款键鼠、学习台灯等买学习机就送,限一周!南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有佐治亚理工提出polyBERT化学语言模型,促进聚合物空间高通量筛选如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍华人家长花$1,000,000送孩子进知名高中,遭员工举报今天的柯达ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签小红书2024届REDstar技术提前批招聘!一线工作机会,顶级导师指导,五星级办公环境Nature颠覆性发现:大脑思考,促进肿瘤生长!胶质瘤通过劫持神经元影响认知和生存南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有i3 窗口管理器终极定制指南 | Linux 中国华人家长花100万送娃进知名高中,遭员工举报ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合国际要闻简报,轻松了解天下事(04【科普】全职工作的成年人,伊大为你量身定制了八周虚拟瑜伽课程为什么花大价钱做了全屋定制,却没有达到想要的效果?【装修干货】CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型毕业季找房难?这些房子为你量身定制!蒸馏也能Step-by-Step:新方法让小模型也能媲美2000倍体量大模型“纳税人为什么不让进?”游客进知名大学参观被拦,质问保安,校方回应!小时候嫌弃的广播体操,竟是为上班族「量身定制」反制美光,促进国产化2.0替代?多伦多大学经济学辅导,让你的学习事半功倍【跳蚤】毕业季找房难?这些房子为你量身定制!人民日报:把民营企业和民营企业家当作自己人,促进民营经济做大做优做强各有各命啊,我应该做怎样的选择?时光里的答案(八十五)【最新】市住建委、市房管局:大力支持刚性和改善性住房需求,促进上海房地产市场平稳健康发展2023 春假日本行国际要闻简报,轻松了解天下事(042022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一房产投资的KISS原则 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。