ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性
由于参数数量庞大,微调预训练语言模型(PLM)容易在低资源的情景中产生过拟合问题 [1]。在本研究中,我们提出了多视图压缩表示(MVCR)模块,通过对 PLM 的隐层表示正则化来减少过拟合。在微调过程中,我们的方法在 PLM 的隐层之间插入 MVCR 模块,前一层的输出经过 MVCR 模块之后,传递给后面一层作为输入。MVCR 模块在微调完成目标模型后被移除,因此目标模型在使用时不会增加额外的参数或计算成本。我们的方法在广泛的序列级和词元级低资源的自然语言处理任务中取得了显著的提升。
收录会议:
论文链接:
数据代码:
论文作者:
近年来在大型预训练语言模型(PLM)上进行微调已经成为自然语言处理任务中最常用的方式之一,该方法将在大量文本语料库中获得的知识转移到下游任务中,从而在众多任务上取得了优异的表现。
然而大多数的 PLMs 都是为了通用目的的表示学习而设计的 [2],因此所学习的表示不可避免地包含了大量与下游任务无关的特征。此外,PLMs通常具有大量参数,这使它们与简单模型相比更具表达能力,因此在微调过程中更容易受到过拟合噪点或无关特征的影响,尤其是在低资源的情景中。
针对上面指出的几个问题,我们提出了多视图压缩表示(MVCR)模块,通过对 PLM 的隐层表示正则化 [3] 来减少过拟合。在微调过程中,我们的方法在 PLM 的隐层之间插入 MVCR 模块,前一层的输出经过 MVCR 模块之后,传递给上层作为输入。MVCR 模块在微调过程中通过加入多样性,减少了模型过拟合的可能性。此外我们还提出了分层子编码器(HAE)进一步增加表示的多样性。
MVCR 模块在微调完成目标模型后被移除,因此目标模型在使用时不会增加额外的参数或计算成本。我们的方法在广泛的序列级和词元级低资源的自然语言处理任务中取得了显著的提升。
多视图压缩表示模块(MVCR)
MVCR 模块的上一隐层假设为第 n 个隐层,则该第 n 个隐层输出隐式表达至 MVCR 模块后,该模块从包含的 N 个 HAE 中随机地选择一个或者随机地不选择 HAE。若随机的结果是选择其中一个 HAE,则由该被选择的 HAE 对输入的隐式表达进行处理后,输出处理后的隐式表达给第 n+1 个隐层。若随机的结果是不选择 HAE,则第 n 个隐层输出的隐式表达走的是如图 2 中所示的 I 模块,该 I 模块表示一个直通通道,即将该第 n 个隐层输出的隐式表达直接输入至第 n+1 个隐层。这种随机性能够有效地增加隐式表达的多样性。
若 HAE 的层内自编码器采用图 3 中所示结构,即包括三个层内自编码器(IAE),则对于被输入隐式表达的 HAE(即被随机选择到的 HAE),其编码模块对隐式表达进行编码处理后输出隐式表达至层内编码模块。层内编码模块从三个 IAE 随机选择一个或者随机不选择 IAE 进行处理并输出隐式表达至解码模块。若随机选择的结果是其中一个 IAE,则由该被选择的 IAE 对输入的隐式表达进行处理后,输出处理后的隐式表达给解码模块。若随机选择的结果是不选择 IAE,则编码模块输出的隐式表达走的是I模块,将编码模块输出的隐式表达直接输入解码模块。
实验结果
我们分别在序列级和词元级低资源任务上做了大量的实验。MVCR 模块在所有任务上均有稳定提升。
预训练语言模型模型不同层的隐层表示都代表了不同的含义,因此我们探究了将 MVCR 模块插入在不同隐层之间的表现。如图三所示,将 MVCR 模块分别插入在第一层和第十二层后表现明显超过其他隐层。我们认为将 MVCR 模块插入在第一层能更有效增加注入模型的多样性,而将 MVCR 模块插入在第十二层可以更好的避免过拟合。这一现象也更好地解释了在主实验中,在极低资源任务比如 100 和 200 个训练数据上,将 MVCR 模块插入在第一层比第十二层表现更好。
HAE vs. AE vs. VAE
参考文献
[1] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, Online. Association for Computational Linguistics.
[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized BERT pretraining approach. CoRR, abs/1907.11692.
[3] Pierre Baldi. 2012. Autoencoders, unsupervised learning, and deep architectures. In Proceedings of ICML Workshop on Unsupervised and Transfer Learning, volume 27 of Proceedings of Machine Learning Research, pages 37–49, Bellevue, Washington, USA. PMLR.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者