Redian新闻
>
对预训练语言模型中跨语言迁移影响因素的分析

对预训练语言模型中跨语言迁移影响因素的分析

科技

作者:李加贝

方向:跨模态检索

链接:https://zhuanlan.zhihu.com/p/556921577

ACL'20: Emerging Cross-lingual Structure in Pretrained Language Models

这篇论文发表在ACL’20,作者研究了多语言掩码语言建模问题,并详细研究了影响这些模型对跨语言迁移的几个有效因素

task:

  • natural language inference (NLI),
  • named entity recognition (NER)
  • dependency parsing (Parsing).

剖析mBERT/XLM模型

域相似性

域相似性(Domain Similarity)已被证明会影响跨语词嵌入的质量,但是这种效应对于掩码语言模型并没有很好地建立起来。

在Wikipedia上训练英语,在同样大小的Wiki-CC的一个随机子集上训练其他语言。在XNLI和Parsing上下降了两个点左右,在NER上下降了6个点左右。一个可能的原因是,NER的标签WikiAnn数据由维基百科文本组成;源语言和目标语言在预训练的域差异更会影响性能。对于英文和中文的NER,都不是来自维基百科,性能只下降了大约2分。

Anchor points

Anchor points就是说在不同语言中都会出现的相同字符串,例如 DNA和Paris。Anchor points的存在被认为是有效的跨语言迁移的关键因素,因为它们允许共享编码器在不同语言之间至少有一些直接的意义捆绑,然而这个影响却没有被仔细衡量过。

更多的Anchor points会有帮助,尤其是在关系不太密切的语言对中(例如中-英)。default和no anchor相比,影响并不是很大,总的来说,这些结果表明,我们之前高估了Anchor points在多语言预训练中的作用。

参数共享

Sep表示哪些层不是跨语言共享的。随着共享层的减少,性能逐渐下降,而且关系不太密切的语言对也会下降更多。最值得注意的是,当分离嵌入和Transformer的底6层时,跨语言迁移的性能下降到随机。然而,在不共享底三层的情况下,仍然可以实现相当强的迁移能力。这些趋势表明,参数共享是学习有效的跨语言表示空间的关键因素。模型对于不同语言的学习是相似的,模型可以通过对学习跨语言具有相似含义的文本表示进行对齐来减少它们的模型容量。

BERT模型的相似性

单语言BERTs对齐

使用该方法来衡量相似度,X和Y表示单语言Bert的输出特征

Word-level对齐

对单语言bert的对齐能力进行实验,使用双语词典MUSE benchmark来监督对齐,并评估单词翻译检索的对齐。

使用更高层的上下文特征的对齐能力比低层的要好

上下文word-level对齐

研究表明,对齐单语言模型(MLM对齐)获得了相对较好的性能,尽管它们的性能不如双语MLM,除了英语法语解析。单语对齐的结果表明,我们可以通过一个简单的线性映射对单语BERT模型的上下文进行对齐,并将这种方法用于跨语言迁移。模型在中间层取得了最好的迁移对齐性能,而不是最后一层。与解析相比,单语言MLM对齐和双语MLM在NER方面的性能差距更高,这表明解析所需的语法信息通过简单的映射对齐较为容易,而实体信息则需要更显式的实体对齐

Sentence-level对齐

图6显示了采用最近邻搜索和余弦相似度的句子相似度搜索结果。在较低层取得了最好的结果。作为参考,LASER(用数百万个平行句子训练)取得了更好的性能结果。

这些发现表明,词汇级、上下文词汇级和句子级BERT特征都可以用一个简单的正交映射进行对齐。类似于词嵌入对齐(Mikolov et al., 2013),这表明BERT模型在不同语言之间是相似的。这个结果更直观地说明了为什么仅仅共享参数就足以在多语言掩码语言模型中形成多语言表示。

神经网络相似性

使用下述公式来衡量单语言模型的跨语言相似度

CKA similarity

对于单语和双语模型,前几层具有最高的相似性,这解释了为什么之前的工作发现冻结mBERT底层有助于跨语言迁移。换句话说,当语言相似时,使用相同的模型会增加表示的相似性。另一方面,当语言不同时,使用相同的模型对表示相似性没有太大帮助。未来的工作可以考虑如何最好地训练涵盖远亲语言的多语言模型

总结

  1. 在只有一些Transformer层的参数共享的情况下,可以从无监督的多语言掩码语言模型中生成多语言表示。
  2. 即使没有任何anchor points,模型仍然可以学习在一个共享的嵌入空间中映射来自不同语言的特征表示
  3. 在不同语言的单语掩码语言模型中出现了同构嵌入空间,类似于word2vec嵌入空间
  4. 通过使用线性映射,能够对齐用不同语言训练的Transformer的嵌入层和上下文特征。
  5. 作者使用CKA神经网络相似性指数来研究BERT模型之间的相似性,并表明Transformer的底层比最后层的跨语言相似度更高
  6. 所有这些影响在关系更密切的语言中更强,这表明在距离更遥远的语言对中有显著改进的空间。


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。


最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)




投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了PromptCLUE:大规模多任务Prompt预训练中文开源模型大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPDEMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型多模态预训练模型指北——LayoutLM乡村都市·冰岛北岸风光直播课预告:多模态预训练大模型OmModel及视觉应用开发最后两周!纽约年度最大中秋游轮派对预定即将截止!SoFi:业绩将达预期,学生贷款豁免或将成主要影响因素细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!COLING 2022 | CogBERT:脑认知指导的预训练语言模型近期目标:台湾海峡内海化Uni-Mol:分子3D表示学习框架和预训练模型项目原作解读字节AI Lab提出的新多语言多模态预训练方法刷榜!已开源感染过新冠病毒?可以评估对BA.5的保护力了丨NEJM发表:不同毒株感染后,对预防Omicron BA.5的有效性差别如此之大EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型光明的长期前景下,自动驾驶的兴起或成优步的重要影响因素Huge and Efficient! 一文了解大规模预训练模型高效训练技术稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准【利率研究】中国台湾地区债券市场概览及影响因素WAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image ModelingSIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型关于抗日和抗日牌安全套No.172# Redis集群模式通信成本影响因素COLING'22 Best Paper | 苏大提出:又快又准的端到端跨语义角色标注作为基于词的图解析ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUECLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型佩洛西将带航母战斗群访台2022.07.28 I know it will passDECLARE-TIMI 58研究事后分析表明,达格列净可以降低合并心血管风险因素的T2DM患者的DKD风险!ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作达摩院损失 AI“大将”,预训练大模型 M6 技术负责人杨红霞离职
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。