Redian新闻
>
一文看完澜舟科技被EMNLP'22录用的三篇论文

一文看完澜舟科技被EMNLP'22录用的三篇论文

公众号新闻

每天给你送来NLP技术干货!




来自:澜舟科技


作为NLP领域的新创企业,澜舟科技非常注重对核心技术的研究和实习生的培养。自 2021 年成立以来,澜舟已培养了来自国内外知名高校的 120 名余位实习生。最近,澜舟科技实习生提交的有关预训练模型、文本生成和信息检索等三篇论文被 EMNLP 2022录用。EMNLP(Conference on Empirical Methods in Natural Language Processing)由国际计算语言学会 ACL 旗下 SIGDAT 组织,每年举办一次,是 NLP 领域最具影响力的国际会议之一。


以下是论文详情:


01

论文介绍

题目:Instance Regularization for Discriminative Language Model Pre-training(基于样例正则化的判别式语言模型预训练)

作者:Zhuosheng Zhang, Hai Zhao, Ming Zhou

摘要:以 BERT 为代表的预训练模型采用降噪自编码,在自然语言处理任务上取得了显著的成功。该类模型的训练过程通常包含两个步骤:编码和去噪。编码阶段对原始输入样本进行破坏,例如将句子中一部分词语通过特殊符号进行遮盖,从而构造训练数据。在去噪阶段,输入所构造的训练数据,模型将其恢复成原始数据。现有的方法通常分别针对编码或去噪过程进行改进,缺乏对训练数据质量的评估。由于训练样本均被同等对待,不同难度的训练样本影响模型的收敛速度不同。为了更好地评估数据质量,本文提出将训练样本的还原难度作为正则化信号融合到预训练过程中。该训练目标包含两个角度:一是计算样本在编码阶段被破坏的程度,即度量被破坏的句子和原始句子间的分布差异;二是计算去噪阶段样本的还原难度,即度量预测的句子和原始句子间的分布差异。我们将该正则化方法应用于 BERT 和 ELECTRA 模型,在自然语言理解和阅读理解等任务上均显著优于基准模型。分析表明,该方法有助于提升模型收敛速度、提升性能和增强模型鲁棒性。



实习生简介:

张倬胜,上海交通大学计算机科学与工程系博士研究生,导师是赵海教授。研究领域为自然语言处理,研究兴趣为面向认知推理的预训练模型。入选“2021全球 AI 华人新星百强”榜单,获评上海交通大学学术之星。担任 CCL 2022 学生研讨会共同主席,中文信息学会青工委学生委员。在澜舟科技实习期间,主要从事孟子轻量化预训练模型的研究。




02

论文介绍

题目:Long Text Generation with Topic-aware Discrete Latent Variable Model(话题感知的离散隐变量模型用于长文本生成)

作者:Erguang Yang, Mingtong Liu, Deyi Xiong, Yujie Zhang, Jinan Xu, Yufeng Chen

摘要:目前预训练语言模型在自动文摘、对话生成等许多任务上取得 SOTA 的结果,但面向开放式长生成任务,生成连贯的长篇文本仍然是一个挑战。先前基于离散隐变量的工作关注建模文本内部的篇章关系,虽然可以生成结构良好的文本,但仍然存在内容发散问题。直观上,一篇长文本可以分割为多个语义片段并且每个片段围绕一个主话题展开,使用话题序列来指导生成过程可以帮助生成与话题相关且连贯的文本。基于以上的讨论,在这项工作中我们探索离散隐变量是否可以学习有关话题的信息,提出片段级的词袋重构目标,使离散隐变量能够建模每个片段的话题信息。进一步,我们构建了话题感知离散隐变量指导的文本生成模型,利用话题感知的隐变量序列指导生成文本,使生成的内容与输入更相关。自动和人工评测实验表明,所提方法在相关性和连贯性方法均优于已有方法。此外,隐变量的可视化分析结果显示,词袋重构目标确实能够使离散隐变量捕获到有关话题的信息。


模型整体框架



隐变量分析


实习生简介:

杨二光,北京交通大学自然语言处理实验室四年级博士生,导师为张玉洁教授,研究方向为可控文本生成、复述生成、故事生成。在澜舟科技实习期间主要从事长文本生成、营销文案生成等课题。




03

论文介绍

题目:Recovering Gold from Black Sand: Multilingual Dense Passage Retrieval with Hard and False Negative Samples (沙里淘金:使用难负样本和伪负样本提高多语言稠密段落检索能力)

作者:Tianhao Shen, Mingtong Liu, Ming Zhou, Deyi Xiong

摘要:最近,基于预训练语言模型和双塔架构的稠密段落检索 (Dense Passage Retrieval) 模型得到了学术界的广泛关注。与此同时,多语言预训练模型表现出了强大的语言泛化能力,这使得我们能够将稠密段落检索推广到多语言场景。然而,在现有工作中,多语言稠密段落检索中的负样本仍未得到充分利用,最有价值的难负样本(与正样本相似的负样本)和伪负样本(被视为负样本的未标注正样本)仍被淹没在随机负样本的海洋中。在本文中,我们提出了一种新的方法——mHFN,以更好地利用难负样本和伪负样本提高多语言稠密段落检索能力。其主要由三个模块构成:(1) 一个多语言难负样本增强模块,用于在不同语言间共享难负样本特征,并基于现有难负样本进一步合成高质量的增强难负样本;(2) 一个多语言负样本缓存队列,以增加训练时各语言可用候选负样本的数量;(3) 一个轻量的自适应伪负样本过滤器,用于识别所有候选负样本中未被人工标注的伪负样本。对伪负样本进行过滤能够减小训练数据中的噪声,从而实现更有效的训练。我们在一个高质量的多语言段落检索数据集——Mr. TyDi 上评估了 mHFN 的性能,其基于维基百科构建,涵盖了11种不同类型的语言。实验结果表明,mHFN 超过了目前已有的稀疏、稠密和混合基线模型,在所有语言上均取得了目前最优的检索性能。


实习生简介:

沈田浩,天津大学自然语言处理实验室 (TJUNLP) 二年级博士生,导师为熊德意教授,现研究方向为对话与问答系统。2021 年于北京邮电大学智能科学与技术专业取得硕士学位,导师王小捷教授。曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名。在澜舟科技实习期间,主要从事自然语言问答、搜索和对话研究。


结束语


祝贺这三位实习生同学取得的成就,也感谢他们的导师对他们在澜舟实习从事相关研究工作的大力支持。

澜舟科技自 2021 年以来,已先后招收了 120 余位来自国内外著名大学的实习生。他们在澜舟科技实习期间,分别参加了孟子预训练模型(文本和多模态)、机器翻译(多语言翻译、篇章级翻译)、生成式 AI(文本生成、文一图转换)、金融信息抽取(零样本学习、事件抽取、ESG抽取)、信息检索、知识图谱、推理、语音识别和分析等方面的研究和开发工作。在 mentor 的带领和指导下,每位同学均取得了丰硕的成果和收获。

欢迎同学们来澜舟实习,大家一起探索 NLP 的最新研究。


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作




投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
记得备注~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
EMNLP'22 | 基于结构统一M叉编码树的数学问题求解器PD-L1/PD-1研究2022丨诺奖加持,论文和基金均火箭速度增长;成果及转化正在其时!大数据分析及19篇论文帮你理清思路EMNLP 2022 | 基于全局句向量的分布外文本检测PIEZO1 2022:约1/3论文发展9+SCI期刊;诺奖加持,研究正扩展至临床各个领域。这13篇论文将点亮你的课题思路!那年火车上的故事 (上集)(七)牵手铜死亡研究2022丨研究论文大爆发,这15篇论文及大数据分析帮你理清研究思路EMNLP 2022 最佳论文揭晓!这脑洞绝了….EMNLP 2022奖项揭晓,最佳论文这脑洞绝了!EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型EMNLP 2022 | 基于视角转换的反事实数据增强方法澜舟科技AIGC再进一步,推出澜舟论文助写 LPA,用 AI 帮助写好英文论文在印地安人保留区度假微信推出自研NLP大规模语言模型WeLM:零/少样本即可完成多种NLP任务,匹敌大其25倍的模型EMNLP'22 | What and how?模型的学习内容和推理方式探究EMNLP 2022 | 统一指代性表达的生成和理解WAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用EMNLP 2022 | LiteVL:具有增强时空建模的高效视频-语言学习澜舟科技社招:算法实习生、算法开发工程师、产品实习生、资深前端开发工程师等一文详解NLP顶会论文投稿策略的7步走(附资料)EMNLP 2022 论文预讲会!41场精彩报告抢先看!EMNLP 2022最佳长论文、最佳短论文等奖项公布!一文了解复旦大学NLP实验室的14篇EMNLP 2022长文内容字节跳动基础架构团队参会报告:一文看懂VLDB'22技术趋势及精选论文从多篇论文看扩散模型在文本生成领域的应用EMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型EMNLP 2022大会正式落幕,最佳长论文、最佳短论文等奖项公布临王羲之《转佳帖》后记吃什麽(2)EMNLP 2022 | 主会长文论文分类整理EMNLP 2022 | 知识图谱上的问题生成:用元学习建模不同子图EMNLP'22 Findings | 用于多标签少样本方面类别检测的标签驱动去噪框架EMNLP 2022 | 北大提出基于中间层特征的在线文本后门防御新SOTA铁死亡 2022:SCI论文增速堪比火箭,这20篇论文给你打开研究思路NIPS 2022 | 一文了解腾讯AI Lab入选的13篇论文人到中年-穿衣打扮多多体验!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。