Redian新闻
>
基于知识迁移的跨语言机器阅读理解算法

基于知识迁移的跨语言机器阅读理解算法

公众号新闻

作者: 阿里云云栖号

链接:https://my.oschina.net/yunqi/blog/10319964


近日,阿里云人工智能平台 PAI 与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议 EMNLP2023 上发表基于机器翻译增加的跨语言机器阅读理解算法 X-STA。通过利用一个注意力机制的教师来将源语言的答案转移到目标语言的答案输出空间,从而进行深度级别的辅助以增强跨语言传输能力。同时,提出了一种改进的交叉注意力块,称为梯度解缠知识共享技术。此外,通过多个层次学习语义对齐,并利用教师指导来校准模型输出,增强跨语言传输性能。实验结果显示,我们的方法在三个多语言 MRC 数据集上表现出色,优于现有的最先进方法。

论文:
Tingfeng Cao, Chengyu Wang, Chuanqi Tan, Jun Huang, Jinhui Zhu. Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension. EMNLP 2023 (Findings)

背景

大规模预训练语言模型的广泛应用,促进了 NLP 各个下游任务准确度大幅提升,然而,传统的自然语言理解任务通常需要大量的标注数据来微调预训练语言模型。但低资源语言缺乏标注数据集,难以获取。大部分现有的 MRC 数据集都是英文的,这对于其他语言来说是一个困难。其次,不同语言之间存在语言和文化的差异,表现为不同的句子结构、词序和形态特征。例如,日语、中文、印地语和阿拉伯语等语言具有不同的文字系统和更复杂的语法系统,这使得 MRC 模型难以理解这些语言的文本。

为了解决这些挑战,现有文献中通常采用基于机器翻译的数据增强方法,将源语言的数据集翻译成目标语言进行模型训练。然而,在 MRC 任务中,由于翻译导致的答案跨度偏移,无法直接使用源语言的输出分布来教导目标语言。

因此,本文提出了一种名为 X-STA 的跨语言 MRC 方法,遵循三个原则:共享、教导和对齐。共享方面,提出了梯度分解的知识共享技术,通过使用平行语言对作为模型输入,从源语言中提取知识,增强对目标语言的理解,同时避免源语言表示的退化。教导方面,本方法利用注意机制,在目标语言的上下文中寻找与源语言输出答案语义相似的答案跨度,用于校准输出答案。对齐方面,多层次的对齐被利用来进一步增强 MRC 模型的跨语言传递能力。通过知识共享、教导和多层次对齐,本方法可以增强模型对不同语言的语言理解能力。

算法概述

X-STA 模型框架图如下所示:

具体流程如下:

  1. 先将源语言的目标数据翻译到各个目标语言,目标语言的测试数据也翻译回源语言。

  2. 每项数据包含问题 Q 和上下文段落 C。

  3. 构建并行语言对 ={源语言训练数据,目标语言训练数据} 送入模型并使用反向传播进行模型训练。

  4. 将并行语言对 ={源语言测试数据,目标语言测试数据} 送入模型获取答案的预测。

算法精度评测

为了验证 X-STA 算法的有效性,我们在三个跨语言 MRC 数据集上进行了测试,效果证明 X-STA 对精度提升明显:

我们也对算法的模块进行了详细有效性分析,我们可以发现各模块均对模型有一定贡献。

为了更好地服务开源社区,这一算法的源代码即将贡献在自然语言处理算法框架 EasyNLP 中,欢迎 NLP 从业人员和研究者使用。

EasyNLP 开源框架:https://github.com/alibaba/EasyNLP

参考文献

  • Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022

  • Rajpurkar, Pranav, et al. "SQuAD: 100,000+ Questions for Machine Comprehension of Text." Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.

论文信息

论文标题:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension

论文作者:曹庭锋、汪诚愚、谭传奇、黄俊、朱金辉

论文 pdf 链接:https://arxiv.org/abs/2311.06758

原文链接:https://developer.aliyun.com/article/1390765?utm_content=g_1000385507


往期推荐



哈工大人工智能专业大一学生写了70万行代码?

郭炜:开源大侠是怎样炼成的

让代码运行起来,比代码可读性重要



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
王笛:做学术没有什么秘诀,就是阅读、阅读、再阅读《湖天一览楼》1册7章 (7 ) 大小香堂Npj Comput. Mater.: 大规模电子结构计算—可迁移的机器学习加速方法最高院《关于修改〈最高人民法院关于知识产权法庭若干问题的规定〉的决定》他高分被拒,公平吗?EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习NTU吕教授1v1科研:基于机器学习的面部表情识别算法|收获一作论文与导师推荐信!复盘法国移民法案之争(下):向右漂移的马克龙主义新年特辑⑦丨李晓燕主委:发生脑转移也有临床试验可参加,预防脑转移的中国答卷值得期待!跨语言编程:在C#应用程序中调用PythonICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习《长安三万里》原创杭州/上海内推 | 上海算法创新研究院招聘LLM/多模态等方向算法工程师/实习生斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?NeurIPS 2023 | 基于双重结构知识图的视觉语言模型高效迁移基于大语言模型LangChain框架:知识库问答系统实践|文末赠书太意外!江苏成全国产业转移的最大赢家,中西部狂建副中心北京内推 | AMD北京算法团队招聘深度学习算法实习生(可远程)SpaceX星舰将于明晚进行第二次试飞;阻碍胰腺癌转移的新基因药物 | 环球科学要闻新年特辑④丨李晓燕主委:多学科互补,助力肿瘤患者摆脱脑转移的困扰580页Go语言学习文档,涵盖Go语言所有核心知识点聚焦 | 新加坡南洋理工大学刘宏教授解读“中国与全球南方——跨界治理的视野和知识转移的实践”对机器学习感兴趣?不如先来实践一下!|《基于机器学习的智能机器狗巡检系统》强与弱ACL23 | 基于检索的大语言模型-陈丹琦报告阅读周末灌水 生子当如小马哥顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究英伟达显卡被禁之后,中国产业转移的一个大动向又被外媒盯上了收录全,适合孩子阅读的刘慈欣少年科幻系列,4个必读理由你无法拒绝预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景EMNLP 2023 | 基于知识图谱嵌入的关系感知集成学习算法FactCHD:探索基于知识图谱的事实冲突幻觉检测新基准Nature 子刊 | 化学家和机器人都可以读懂,用于机器人合成可重复性的通用化学编程语言语言、机器人破壁,MIT等用GPT-4自动生成模拟任务,并迁移到真实世界最高法关于贯彻执行修改后的《最高人民法院关于知识产权法庭若干问题的规定》的通知
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。