Redian新闻
>
XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0

XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0

科技



引言

预训练语言模型在各种 NLP 下游任务中发挥着重要作用,目前语言模型已经逐渐从单语扩展到多语言,并且已经证明了其在跨语言 NLP 任务上的优越性能。
目前多语言预训练模型的训练数据主要有两种,一种是每种语言的单语数据,另一种是互为翻译的双语平行数据。为了在同一语义空间构建不同语言的表示,之前的工作主要集中在两个预训练任务上:Multilingual Masked Language Model(MMLM)和 Translation Language Model(TLM),分别对应单语和双语数据的预训练任务。
MMLM 是 Masked Language Model(MLM)的多语言版本,在共享语义空间中对每种语言分别建模;TLM 则对拼接后的双语语料进行 MLM 任务,通过 self-attention 机制隐式地捕捉双语语料之间的对齐。但 MLM 和 TLM 仅加强了 masked token 和 context sequence 之间的依赖,而没有考虑句子级语义信息。

为了弥补这一点,之前的工作利用句子级对比学习,增强双语句子对之间的 sequence-sequence 语义对齐。尽管如此,隐藏在双语语料之间的同义词没有被充分利用,这对跨语言 NER 等 token-level 的下游任务非常重要。




VECO 2.0


论文标题:

VECO 2.0: Cross-lingual Language Model Pre-training with Multi-granularity Contrastive Learning

论文链接:

https://arxiv.org/abs/2304.08205


为了解决上述问题,论文提出了多粒度对齐的多语言预训练模型 VECO 2.0,VECO 2.0 是阿里巴巴达摩院多语言预训练模型 VECO 的升级版。在语言上,VECO 2.0 覆盖的语种从 50 扩充至 109 种;在结构上,VECO 2.0 基于 VECO Encoder 结构继续训练;在规模上,VECO 2.0 不仅训练了和 VECO 同等的 large 规模模型,还扩展到了 xlarge 规模。
具体来说,VECO 2.0 引入新的 sequence-to-sequence 和 token-to-token 对比学习任务,以构建跨语言的统一表示。在 sequence-to-sequence 对齐任务中,VECO 2.0 利用对比学习最大化双语句子对的语义相似度,最小化非配对句子的相关性;在 token-to-token 的对齐任务中,先通过同义词词典挖掘出双语语料中的同义词,类似地利用对比学习减少 token 之间的距离,增大双语对中非同义词的距离。
VECO 2.0 结合 MMLM 和 TLM 任务,构建了 token-sequence,sequence-sequence,token-token 的全方位对齐,从而实现跨语言的通用表示。




XTREME榜单

VECO 2.0 目前在大规模多语言多任务基准 XTREME 上排名第一。XTREME 是 Google 提出的多语言评测榜单,其中包括分类、序列标注、问答和检索 4 大类任务共 9 个数据集,覆盖了 40 种语种,MSRA、腾讯、科大讯飞、华为都曾在该榜单上排名前列。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半南澳散记 (增订本) :第二十六章:我的中文学生(上)哈工大讯飞联合实验室发布图文多模态预训练模型VLEQUERT:基于旅行搜索领域Query理解的预训练语言模型零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究大规模语言训练模型应用,如何让文档问答系统快速拥有“高智商”?阿里大模型VideoComposer火了!时间、空间可控的视频生成走进现实冬日重叹温泉美国普林斯顿大学,建筑博览T12的80%,小藤强州大的10%,余下学校的1%,大体上成为未来干部。CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型OpenAI:已不再使用客户数据训练模型预制菜品牌烹烹袋线上门店全关;广州又一家百货将关闭;小米调整品牌委员会;沃尔玛位列全球50强零售商榜单第一|联商头条VALSE 2023 | 左旺孟教授:预训练模型和语言增强的零样本视觉学习碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半EMNLP 2022 | ELMER: 高效强大的非自回归预训练文本生成模型无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊美信合作资管 | Clearlake斩获数奖,位居年度全球PE榜单第8,“收购切尔西”被评为『年度最佳交易』OpenAI将用新方法来训练模型,以对抗人工智能“幻觉”顶会审稿人精选:40篇大型预训练语言模型应用论文杉桧花粉飞,运载火箭坠Cut Children’s Access to Vulgar Memes: State Media Commentary放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法北京内推 | 腾讯微信事业群招聘NLP算法工程师/预训练模型加速工程师ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册Amid Recovery Push, Street Vendors Make a Comeback Across China大语言模型的多语言机器翻译能力分析Us and STEM: The Collective Paving The Way for Women in Tech纽约居全球最贵商旅城市榜单第一!香港位居亚洲榜首,上海第四!放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师Epic喜加一!Steam愿望榜单第一黄油终于有动静了?体育游戏节宣传片公开!给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性面向现实世界场景,多语言大数据集PRESTO来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。