Redian新闻
>
ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏

ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏

科技



©PaperWeekly 原创 · 作者 | werge
研究方向 | 自然语言处理




OverView

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型,为了减少其计算开销,一般使用蒸馏中的伪标记方法。本文中,作者讨论了伪标记方法在获取生成式摘要上存在的问题,并展示了仅仅通过调整注意力温度(Attention temperature)即可提升学生模型生成摘要的能力。



论文标题:

Attention Temperature Matters in Abstractive Summarization Distillation

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2106.03441




Method
自动文本摘要是将长文档改写为较短的形式,同时仍然保留其最重要的内容,一般分为抽取式摘要和生成式摘要,前者直接从文本中抽取主题句形成摘要,而后者生成新的句子来概括文本。由于生成式摘要一般比抽取式摘要效果更好,所以本文主要研究生成式摘要的问题。
生成式摘要问题可以视为一个序列到序列(Seq2Seq)问题,一般依赖于大规模预训练模型。但是由于其推理速度较慢,很难实际部署,所以一般采用知识蒸馏方法将大模型的知识传递给小模型,从而在保持表现相当的情况下提升速度。在 Seq2Seq 模型的蒸馏中,一般采取 pseudo-labling(伪标记 [1])方法:也即先向教师模型输入所有训练集样本,并让教师模型生成 pseudo-summary(伪摘要),并将其与训练集中原有的 summary 一起用于训练学生模型。

在原有训练模型生成文本摘要时,其目标函数为最大化 log-likelihood:

其中,
分别表示原文档和生成的摘要。而伪摘要法只需加上如下的目标函数即可:

在本文中,作者提出,Seq2Seq 教师模型的注意力分布过于 sharp,导致其生成的伪摘要并不是最优的,从而进一步导致了学生模型表现不好。作者观察到,教师模型生成的伪摘要从原文档中复制的连续文本跨度比 reference summary(参考摘要)更多,并且更加倾向于总结文档的开头部分。

如下图所示,作者对模型中的 cross-attention 进行了可视化。容易看出,attention weights 形成了三条比较明显的线,这说明每当 decoder 预测下一个词的时候,模型的 attention 刚好指向文档中的下一个词,这可能就是导致伪摘要中有很多复制的连续文本的原因;同时,作者发现所有的值较大的 attention weights 都集中在输入文档的前 200 个词,这便是导致摘要倾向于文档开头部分的原因。



注意力机制是 Transformer 模型的核心部分:

其中, 均为每层 hidden states 的线性投影, 则是该注意力模块的温度,一般为 ,其中 为一个注意力头的隐藏层维度。作者认为,导致注意力分布过于 sharp 的原因就是该温度较低。如果将该温度变高,可以将分布变得更加 smooth,从而缓解这一问题。所以,作者提出了 PLATE 方法(Pseudo-labeling with Larger Attention TEmperature),在教师模型生成伪摘要时,设 ,然后再训练学生模型,但不改变学生模型的 attention temperature。



Experiments
作者选取了 CNN/DailyMail [2],XSum [3],New York Times [4] 三个数据集进行实验,实验结果如下图所示:



上图的第一大块中,作者对比了不同的大规模预训练模型,最终采用了自己 finetune 的 BART 模型做为教师模型生成伪摘要;第二大块中,作者选取了 [5] 中采用不同方法得到的学生模型表现进行了对比,其中在 CNNDM 上为 BART 结构,在 XSum 上为 BART 结构( 结构表示沿用了 BART 的结构,只是把 decoder 的层数从 层降到了 层)。
第三、四两块中,作者对比了自己蒸馏得到的 两种结构学生模型的表现,每个模型的 表示直接根据训练集中的 reference 采用 finetune 得到的模型, 表示采用了一般的 pseudo-labeling 方法得到的模型,也即没有改变注意力温度; 分别为采取不同系数增大注意力温度得到的模型, 则是采用了 针对每一个文档都随机选取一个 值训练得到的模型。

从图中可以观察到,提高了 attention temperature 后,得到的模型在三个数据集上的表现均超过了改变前的模型,甚至部分表现都超过了教师模型。

第五块中,作者采用了 self-distillation,也即教师模型和学生模型采用了相同的结构。作者发现,本文的方法在多个方面提升了模型性能。第六块中,作者还在 Transformer 上应用了提出的方法,同样观察到了性能提升。

在 Transformer 结构中,注意力机制主要包括 encoder 自注意力、decoder 自注意力以及 decoder 交叉注意力三种,作者在此基础上进行了消融实验:分别将这三部分注意力的温度改为原来的大小(也即 ),并观察学生模型在 CNNDM 验证集上的结果,如下图所示。发现 decoder cross attention 对模型影响最大,这与预期相同,因为其直接影响到选择摘要的过程。



如下图所示,作者还从模型摘要的长度和 novel n-grams 进行了探究。novel n-grmas 是指在摘要中出现,但未在原文档中出现的 n-gram。摘要长度越短,novel n-grams 越多,说明模型生成的摘要越 concise 且 abstractive,再结合之前的 Rouge 分数,说明模型生成摘要的质量越高。如下图所示可以发现,通过提高的值,可以有效提升教师模型生成摘要的能力,从而进一步提升学生模型的能力。



除此之外,根据 [6] 的结论,当模型具有高预测熵时,摘要模型更加倾向于生成而不是复制;且模型的高预测熵与高注意力熵是紧密关联的。本文中,作者通过提高平滑了注意力分布,从而提高了注意力熵,所以生成能力有所提高,这与 [6] 的结论是不谋而合的。




Conclusion
在本文中,作者提出了一种简单但有效的 pseudo-labeling distillation 方法的 PLATE 扩展,用于摘要蒸馏。在三个数据集上的实验表明,该方法可以有效提高教师模型生成摘要的能力,进一步也使学生模型产生的摘要更加简洁和抽象。



参考文献

[1] Yoon Kim and Alexander M. Rush. 2016. Sequencelevel knowledge distillation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1317–1327, Austin, Texas. Association for Computational Linguistics.
[2] Karl Moritz Hermann, Tomás Kocisky, Edward Grefen- ` stette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. 2015. Teaching machines to read and comprehend. In NIPS.
[3] Shashi Narayan, Shay B. Cohen, and Mirella Lapata. 2018. Don’t give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 1797–1807, Brussels, Belgium. Association for Computational Linguistics.
[4] Evan Sandhaus. 2008. The new york times annotated corpus. Linguistic Data Consortium, Philadelphia, 6(12):e26752.
[5] Sam Shleifer and Alexander M Rush. 2020. Pretrained summarization distillation. arXiv preprint arXiv:2010.13002.
[6] Jiacheng Xu, Shrey Desai, and Greg Durrett. 2020b. Understanding neural abstractive summarization models via uncertainty. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6275–6281, Online. Association for Computational Linguistics.

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·
·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高TPAMI 2022 | 知识蒸馏为什么有效?因为有老师给你划“重点”爱立信:5G规模化下,创新助力升维COLING 2022 | Pro-KD:循序渐进的平滑知识蒸馏采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步百度提出动态自蒸馏方法,结合交互模型与双塔模型实现稠密段落检索观莲节:莲花、荷花、睡莲不惧寒冬!百斯腾让全屋升温,暖而不干,秋冬“续命”全靠它气温骤降顶不住?这个“隐形”保暖衣,上身秒升温,舒服到上头!突然!澳币猛跌到新低!澳政府狂发2.4万PR!中澳关系再升温,数字公布太激动!澳洲技能短缺表更新...卖爆欧洲的取暖器,整屋升温,一天低至1块钱情感bot | 救命!女友把我价值1.5w的游戏账号给注销了,我气到想报警...司法部对1.6暴乱的调查落后于委员会——因为不能选择性执法?从菜园到餐桌 (4) 豆角鸡蛋肉丝炒饼, 酱黄瓜 和三杯鸡块土豆澳洲疫情升温,能保证今年圣诞不会封城吗?澳洲首席医疗官:不能【广发策略】美联储紧缩预期升温,美元流动性收紧——海外市场及流动性跟踪(10月第3期)早报 | 大升温来了!南方火箭式升温穿越回初夏;英国保守党新领导人将于10月31日上任Omakase 这种吃法你喜欢吗?官僚主义是剥削阶级遗留下来的欧洲能源危机升温,工业走向崩盘超50亿南下"扫货"!ETF互联互通满月,交易明显升温,北上资金偏好四大领域CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全MICCAI 2022 | ASA:用于预训练脑核磁分割的注意力对称自动编码器压力升级:安省多个工会发动大规模罢工!抗议福特政府!拜登受打击,模型称美国12个月内衰退概率100%!光伏市场持续升温,10年50倍的隆基绿能未来如何?NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别粮食券升升升!SNAP家庭将在10月获得最大额度的补贴 并持续至……NeurIPS 2022 | 如何提高生成摘要的忠实度?NIPS'22 | 如何提高生成摘要的忠实度?NAACL 2022 | 简单且高效!随机中间层映射指导的知识蒸馏方法这款“隐形”保暖衣火了!上升秒升温,还能持久锁温,更轻薄,更保暖,冬天有ta就够了!COLING 2022 | CPSUM:低资源场景下的半监督文本摘要抽取式模型BQ.1疫情快速升温,美CDC表示新确诊感染率逾10%!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。