ACL 2023 | 达摩院、NTU提出多视图压缩表示，显著提升预训练语言模型鲁棒性

2023-06-30 12:06

由于参数数量庞大，微调预训练语言模型（PLM）容易在低资源的情景中产生过拟合问题 [1]。在本研究中，我们提出了多视图压缩表示（MVCR）模块，通过对 PLM 的隐层表示正则化来减少过拟合。在微调过程中，我们的方法在 PLM 的隐层之间插入 MVCR 模块，前一层的输出经过 MVCR 模块之后，传递给后面一层作为输入。MVCR 模块在微调完成目标模型后被移除，因此目标模型在使用时不会增加额外的参数或计算成本。我们的方法在广泛的序列级和词元级低资源的自然语言处理任务中取得了显著的提升。

论文标题：

Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representation

收录会议：

ACL 2023

论文链接：

https://arxiv.org/pdf/2211.08794.pdf

数据代码：

https://github.com/DAMO-NLP-SG/MVCR

论文作者：

刘林林，李星漩，李昕，邴立东等

问题定义

近年来在大型预训练语言模型（PLM）上进行微调已经成为自然语言处理任务中最常用的方式之一，该方法将在大量文本语料库中获得的知识转移到下游任务中，从而在众多任务上取得了优异的表现。

然而大多数的 PLMs 都是为了通用目的的表示学习而设计的 [2]，因此所学习的表示不可避免地包含了大量与下游任务无关的特征。此外，PLMs通常具有大量参数，这使它们与简单模型相比更具表达能力，因此在微调过程中更容易受到过拟合噪点或无关特征的影响，尤其是在低资源的情景中。

针对上面指出的几个问题，我们提出了多视图压缩表示（MVCR）模块，通过对 PLM 的隐层表示正则化 [3] 来减少过拟合。在微调过程中，我们的方法在 PLM 的隐层之间插入 MVCR 模块，前一层的输出经过 MVCR 模块之后，传递给上层作为输入。MVCR 模块在微调过程中通过加入多样性，减少了模型过拟合的可能性。此外我们还提出了分层子编码器（HAE）进一步增加表示的多样性。

MVCR 模块在微调完成目标模型后被移除，因此目标模型在使用时不会增加额外的参数或计算成本。我们的方法在广泛的序列级和词元级低资源的自然语言处理任务中取得了显著的提升。

多视图压缩表示模块（MVCR）

MVCR 模块的上一隐层假设为第 n 个隐层，则该第 n 个隐层输出隐式表达至 MVCR 模块后，该模块从包含的 N 个 HAE 中随机地选择一个或者随机地不选择 HAE。若随机的结果是选择其中一个 HAE，则由该被选择的 HAE 对输入的隐式表达进行处理后，输出处理后的隐式表达给第 n+1 个隐层。若随机的结果是不选择 HAE，则第 n 个隐层输出的隐式表达走的是如图 2 中所示的 I 模块，该 I 模块表示一个直通通道，即将该第 n 个隐层输出的隐式表达直接输入至第 n+1 个隐层。这种随机性能够有效地增加隐式表达的多样性。

若 HAE 的层内自编码器采用图 3 中所示结构，即包括三个层内自编码器（IAE），则对于被输入隐式表达的 HAE（即被随机选择到的 HAE），其编码模块对隐式表达进行编码处理后输出隐式表达至层内编码模块。层内编码模块从三个 IAE 随机选择一个或者随机不选择 IAE 进行处理并输出隐式表达至解码模块。若随机选择的结果是其中一个 IAE，则由该被选择的 IAE 对输入的隐式表达进行处理后，输出处理后的隐式表达给解码模块。若随机选择的结果是不选择 IAE，则编码模块输出的隐式表达走的是I模块，将编码模块输出的隐式表达直接输入解码模块。

实验结果

我们分别在序列级和词元级低资源任务上做了大量的实验。MVCR 模块在所有任务上均有稳定提升。

MVCR模块在不同隐层的插入表现

预训练语言模型模型不同层的隐层表示都代表了不同的含义，因此我们探究了将 MVCR 模块插入在不同隐层之间的表现。如图三所示，将 MVCR 模块分别插入在第一层和第十二层后表现明显超过其他隐层。我们认为将 MVCR 模块插入在第一层能更有效增加注入模型的多样性，而将 MVCR 模块插入在第十二层可以更好的避免过拟合。这一现象也更好地解释了在主实验中，在极低资源任务比如 100 和 200 个训练数据上，将 MVCR 模块插入在第一层比第十二层表现更好。

HAE vs. AE vs. VAE

MVCR 中的 HAE 作为瓶颈起到生成原始隐层表示的多样化压缩视图的作用。HAE 有许多其他可能的替代方案，因此我们将 HAE 替换为普通的自编码器（AE）和变分自编码器（VAE）进行比较。图 6 中的结果显示，HAE 始终优于 AE 和 VAE。

更多分析请参考原文。

总结

在这项工作中，我们提出了一种通过隐藏表示正则化来改善低资源微调鲁棒性的新方法。我们在预训练语言模型（PLM）的层之间插入了多视图压缩表示（MVCR）模块。在微调过程中，随机选择这些层，以生成更多样化的压缩表示，防止顶层的 PLM 过拟合。我们还提出了一种定制的分层自编码器（HAE），以进一步增加增强表示的多样性。训练完成目标模型后，插入的 MVCR 模块被丢弃，因此我们的方法在目标模型的使用过程中不会增加额外的参数或计算成本。我们的方法在广泛的自然语言处理任务中展示了稳定的性能提升。

参考文献

[1] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, Online. Association for Computational Linguistics.

[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized BERT pretraining approach. CoRR, abs/1907.11692.

[3] Pierre Baldi. 2012. Autoencoders, unsupervised learning, and deep architectures. In Proceedings of ICML Workshop on Unsupervised and Transfer Learning, volume 27 of Proceedings of Machine Learning Research, pages 37–49, Bellevue, Washington, USA. PMLR.

更多阅读