对预训练语言模型中跨语言迁移影响因素的分析

科技

2022-09-26 10:09

作者：李加贝
方向：跨模态检索
链接：https://zhuanlan.zhihu.com/p/556921577

ACL'20: Emerging Cross-lingual Structure in Pretrained Language Models

这篇论文发表在ACL’20，作者研究了多语言掩码语言建模问题，并详细研究了影响这些模型对跨语言迁移的几个有效因素。

task：

natural language inference (NLI),
named entity recognition (NER)
dependency parsing (Parsing).

剖析mBERT/XLM模型

域相似性

域相似性（Domain Similarity）已被证明会影响跨语词嵌入的质量，但是这种效应对于掩码语言模型并没有很好地建立起来。

在Wikipedia上训练英语，在同样大小的Wiki-CC的一个随机子集上训练其他语言。在XNLI和Parsing上下降了两个点左右，在NER上下降了6个点左右。一个可能的原因是，NER的标签WikiAnn数据由维基百科文本组成;源语言和目标语言在预训练的域差异更会影响性能。对于英文和中文的NER，都不是来自维基百科，性能只下降了大约2分。

Anchor points

Anchor points就是说在不同语言中都会出现的相同字符串，例如 DNA和Paris。Anchor points的存在被认为是有效的跨语言迁移的关键因素，因为它们允许共享编码器在不同语言之间至少有一些直接的意义捆绑，然而这个影响却没有被仔细衡量过。

更多的Anchor points会有帮助，尤其是在关系不太密切的语言对中（例如中-英）。default和no anchor相比，影响并不是很大，总的来说，这些结果表明，我们之前高估了Anchor points在多语言预训练中的作用。

参数共享

Sep表示哪些层不是跨语言共享的。随着共享层的减少，性能逐渐下降，而且关系不太密切的语言对也会下降更多。最值得注意的是，当分离嵌入和Transformer的底6层时，跨语言迁移的性能下降到随机。然而，在不共享底三层的情况下，仍然可以实现相当强的迁移能力。这些趋势表明，参数共享是学习有效的跨语言表示空间的关键因素。模型对于不同语言的学习是相似的，模型可以通过对学习跨语言具有相似含义的文本表示进行对齐来减少它们的模型容量。

BERT模型的相似性

单语言BERTs对齐

使用该方法来衡量相似度，X和Y表示单语言Bert的输出特征

Word-level对齐

对单语言bert的对齐能力进行实验，使用双语词典MUSE benchmark来监督对齐，并评估单词翻译检索的对齐。

使用更高层的上下文特征的对齐能力比低层的要好

上下文word-level对齐

研究表明，对齐单语言模型(MLM对齐)获得了相对较好的性能，尽管它们的性能不如双语MLM，除了英语法语解析。单语对齐的结果表明，我们可以通过一个简单的线性映射对单语BERT模型的上下文进行对齐，并将这种方法用于跨语言迁移。模型在中间层取得了最好的迁移对齐性能，而不是最后一层。与解析相比，单语言MLM对齐和双语MLM在NER方面的性能差距更高，这表明解析所需的语法信息通过简单的映射对齐较为容易，而实体信息则需要更显式的实体对齐