一文看完澜舟科技被EMNLP'22录用的三篇论文
每天给你送来NLP技术干货!
来自:澜舟科技
作为NLP领域的新创企业,澜舟科技非常注重对核心技术的研究和实习生的培养。自 2021 年成立以来,澜舟已培养了来自国内外知名高校的 120 名余位实习生。最近,澜舟科技实习生提交的有关预训练模型、文本生成和信息检索等三篇论文被 EMNLP 2022录用。EMNLP(Conference on Empirical Methods in Natural Language Processing)由国际计算语言学会 ACL 旗下 SIGDAT 组织,每年举办一次,是 NLP 领域最具影响力的国际会议之一。
以下是论文详情:
01
论文介绍
✦
题目:Instance Regularization for Discriminative Language Model Pre-training(基于样例正则化的判别式语言模型预训练)
作者:Zhuosheng Zhang, Hai Zhao, Ming Zhou
摘要:以 BERT 为代表的预训练模型采用降噪自编码,在自然语言处理任务上取得了显著的成功。该类模型的训练过程通常包含两个步骤:编码和去噪。编码阶段对原始输入样本进行破坏,例如将句子中一部分词语通过特殊符号进行遮盖,从而构造训练数据。在去噪阶段,输入所构造的训练数据,模型将其恢复成原始数据。现有的方法通常分别针对编码或去噪过程进行改进,缺乏对训练数据质量的评估。由于训练样本均被同等对待,不同难度的训练样本影响模型的收敛速度不同。为了更好地评估数据质量,本文提出将训练样本的还原难度作为正则化信号融合到预训练过程中。该训练目标包含两个角度:一是计算样本在编码阶段被破坏的程度,即度量被破坏的句子和原始句子间的分布差异;二是计算去噪阶段样本的还原难度,即度量预测的句子和原始句子间的分布差异。我们将该正则化方法应用于 BERT 和 ELECTRA 模型,在自然语言理解和阅读理解等任务上均显著优于基准模型。分析表明,该方法有助于提升模型收敛速度、提升性能和增强模型鲁棒性。
实习生简介:
张倬胜,上海交通大学计算机科学与工程系博士研究生,导师是赵海教授。研究领域为自然语言处理,研究兴趣为面向认知推理的预训练模型。入选“2021全球 AI 华人新星百强”榜单,获评上海交通大学学术之星。担任 CCL 2022 学生研讨会共同主席,中文信息学会青工委学生委员。在澜舟科技实习期间,主要从事孟子轻量化预训练模型的研究。
02
论文介绍
✦
题目:Long Text Generation with Topic-aware Discrete Latent Variable Model(话题感知的离散隐变量模型用于长文本生成)
作者:Erguang Yang, Mingtong Liu, Deyi Xiong, Yujie Zhang, Jinan Xu, Yufeng Chen
摘要:目前预训练语言模型在自动文摘、对话生成等许多任务上取得 SOTA 的结果,但面向开放式长生成任务,生成连贯的长篇文本仍然是一个挑战。先前基于离散隐变量的工作关注建模文本内部的篇章关系,虽然可以生成结构良好的文本,但仍然存在内容发散问题。直观上,一篇长文本可以分割为多个语义片段并且每个片段围绕一个主话题展开,使用话题序列来指导生成过程可以帮助生成与话题相关且连贯的文本。基于以上的讨论,在这项工作中我们探索离散隐变量是否可以学习有关话题的信息,提出片段级的词袋重构目标,使离散隐变量能够建模每个片段的话题信息。进一步,我们构建了话题感知离散隐变量指导的文本生成模型,利用话题感知的隐变量序列指导生成文本,使生成的内容与输入更相关。自动和人工评测实验表明,所提方法在相关性和连贯性方法均优于已有方法。此外,隐变量的可视化分析结果显示,词袋重构目标确实能够使离散隐变量捕获到有关话题的信息。
模型整体框架
隐变量分析
实习生简介:
杨二光,北京交通大学自然语言处理实验室四年级博士生,导师为张玉洁教授,研究方向为可控文本生成、复述生成、故事生成。在澜舟科技实习期间主要从事长文本生成、营销文案生成等课题。
03
论文介绍
✦
题目:Recovering Gold from Black Sand: Multilingual Dense Passage Retrieval with Hard and False Negative Samples (沙里淘金:使用难负样本和伪负样本提高多语言稠密段落检索能力)
作者:Tianhao Shen, Mingtong Liu, Ming Zhou, Deyi Xiong
摘要:最近,基于预训练语言模型和双塔架构的稠密段落检索 (Dense Passage Retrieval) 模型得到了学术界的广泛关注。与此同时,多语言预训练模型表现出了强大的语言泛化能力,这使得我们能够将稠密段落检索推广到多语言场景。然而,在现有工作中,多语言稠密段落检索中的负样本仍未得到充分利用,最有价值的难负样本(与正样本相似的负样本)和伪负样本(被视为负样本的未标注正样本)仍被淹没在随机负样本的海洋中。在本文中,我们提出了一种新的方法——mHFN,以更好地利用难负样本和伪负样本提高多语言稠密段落检索能力。其主要由三个模块构成:(1) 一个多语言难负样本增强模块,用于在不同语言间共享难负样本特征,并基于现有难负样本进一步合成高质量的增强难负样本;(2) 一个多语言负样本缓存队列,以增加训练时各语言可用候选负样本的数量;(3) 一个轻量的自适应伪负样本过滤器,用于识别所有候选负样本中未被人工标注的伪负样本。对伪负样本进行过滤能够减小训练数据中的噪声,从而实现更有效的训练。我们在一个高质量的多语言段落检索数据集——Mr. TyDi 上评估了 mHFN 的性能,其基于维基百科构建,涵盖了11种不同类型的语言。实验结果表明,mHFN 超过了目前已有的稀疏、稠密和混合基线模型,在所有语言上均取得了目前最优的检索性能。
实习生简介:
沈田浩,天津大学自然语言处理实验室 (TJUNLP) 二年级博士生,导师为熊德意教授,现研究方向为对话与问答系统。2021 年于北京邮电大学智能科学与技术专业取得硕士学位,导师王小捷教授。曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名。在澜舟科技实习期间,主要从事自然语言问答、搜索和对话研究。
结束语
COLING'22 | SelfMix:针对带噪数据集的半监督学习方法
ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作
微信扫码关注该文公众号作者