Redian新闻
>
从EMNLP 2022速览信息检索领域最新研究进展

从EMNLP 2022速览信息检索领域最新研究进展

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | RUC AI Box
作者|任瑞阳
机构|中国人民大学高瓴人工智能学院
本文梳理并介绍了自然语言处理顶会EMNLP 2022(主会长文)中信息检索领域的12篇论文,速览信息检索领域最新的研究进展,重点关注一阶段检索(召回)阶段相关的研究工作。
1、DuReader: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.357.pdf
作者:Yifu Qiu, Hongyu Li, Yingqi Qu, Ying Chen, QiaoQiao She, Jing Liu, Hua Wu, Haifeng Wang
本文提出了一个中文的段落检索数据集DuReader,该数据集的数据包括了百度搜索引擎中的9万条查询和800万个段落。为了解决开发集和测试集中的假负例问题,作者请了内部数据团队来人工检查并重标注了多个检索模型返回的头部检索结果;为了降低测试集信息的数据泄露,作者使用了一个现有的查询匹配模型来识别并移除训练集中与开发集、测试集中相似的查询。

2、Large Dual Encoders Are Generalizable Retrievers
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.669.pdf
作者:Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hernandez Abrego, Ji Ma, Vincent Zhao, Yi Luan, Keith Hall, Ming-Wei Chang, Yinfei Yang
本文针对双塔模型(dual-encoder)缺乏在其他领域的泛化性的问题,提出增大模型的参数规模,以及多阶段训练的方法来提高双塔模型的领域泛化性。其在多个检索任务,尤其是跨领域泛化性上带来了显著的提升,作者还发现该方法具有很高的数据效率。

3、RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.35.pdf
作者:Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao
本文针对稠密检索提出了一种高效的面向检索的预训练方法。该预训练方法基于掩码自动编码器(Masked Auto-Encoder),对于输入文本,使用较大的解码器掩码率(50∼90%),而对编码器使用常用的15%掩码率,任务目标是重建输入文本。实验证明所提出的方法取得了强大的检索性能,同时也具有较强的跨领域泛化能力。

4、COCO-DR: Combating the Distribution Shift in Zero-Shot Dense Retrieval with Contrastive and Distributionally Robust Learning
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.95.pdf
作者:Yue Yu, Chenyan Xiong, Si Sun, Chao Zhang, Arnold Overwijk
本文提出对抗源领域训练任务和目标领域场景间的文档分布变化,来提高稠密检索模型跨领域泛化能力。作者使用持续对比学习在目标领域语料库上对模型进行持续预训练,另外,使用隐式分布式鲁棒优化(implicit Distributionally Robust Optimization)对来自不同源领域的查询类进行重新加权,提高模型在微调期间对出现率低的查询的鲁棒性。

5、ConvTrans: Transforming Web Search Sessions for Conversational Dense Retrieval
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.190.pdf
作者:Kelong Mao, Zhicheng Dou, Hongjin Qian, Fengran Mo, Xiaohua Cheng, Zhao Cao
本文研究了对话搜索场景下的稠密检索。由于大规模真实的对话搜索会话和标注数据很难获得,而稠密检索模型的训练往往依赖于大规模的标注数据,作者提出了一种数据增强方法,可以自动将网络搜索会话转换成对话搜索会话,来缓解数据稀缺的问题。

6、Explicit Query Rewriting for Conversational Dense Retrieval
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.311.pdf
作者:Hongjin Qian, Zhicheng Dou
本文同样对对话搜索场景下的稠密检索进行研究。在对话搜索场景下,查询可能具有上下文相关的特性,即部分词在其它内容中出现而省略。针对该特性,本文作者提出在统一框架下对查询进行重写和上下文建模,使用查询重写的监督信号来对上下文建模进行进一步增强。

7、Pseudo-Relevance for Enhancing Document Representation
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.800.pdf
作者:Jihyuk Kim, Seung-won Hwang, Seoho Song, Hyeseon Ko, Young-In Song
本文主要研究如何在稠密文档检索中增强双塔模型的文档表示。作者基于ColBERT的模型架构进行了改进,在不影响其效果的情况下,降低了其中多向量表示的大小,并使用查询日志进行监督学习。所提出的方法最高将延迟和内存占用分别减少了8倍和3倍。

8、Recovering Gold from Black Sand: Multilingual Dense Passage Retrieval with Hard and False Negative Samples
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.730.pdf
作者:Tianhao Shen, Mingtong Liu, Ming Zhou, Deyi Xiong
本文主要研究多语言稠密检索中的负采样问题。作者提出多语言强负例采样增广,通过对查询和现有的强负例进行插值,来合成新的强负例;使用多语言负例缓存队列来存储每种语言先前批次中的负例,以增加用于寻来看的多语言负例的数量;提出一个轻量化的自适应假负例筛选器,利用伪标签区分假负例,并转化为用于训练的正例。

9、CodeRetriever: Large-scale Contrastive Pre-training for Code Search
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.187.pdf
作者:Xiaonan Li, Yeyun Gong, Yelong Shen, Xipeng Qiu, Hang Zhang, Bolun Yao, Weizhen Qi, Daxin Jiang, Weizhu Chen, Nan Duan
本文主要研究代码检索的问题,提出通过大规模的代码文本对比学习预训练,来学习函数级别的代码语义表示。作者采用了两种对比学习方案,单模态对比学习和双模态对比学习,分别对文档-函数名称的语义关系和文档-代码内联注释的语义关系进行学习,并利用大规模代码语料库进行预训练。

10、Exploring Representation-Level Augmentation for Code Search
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.327.pdf
作者:Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang, Hongyu Zhang, Yanlin Wang
本文针对现有代码检索工作中,源代码数据增强方法通常需要额外的处理成本的问题进行了探索。作者提出了一种统一现有方法的表示级别增广的通用格式,并基于通用格式提出了三种新的增强方法(线性外推、二进制插值和高斯缩放)。此外,作者从理论上分析了所提出的增强方法相对于传统代码搜索对比学习方法的优势。

11、Efficient Document Retrieval by End-to-End Refining and Quantizing BERT Embedding with Contrastive Product Quantization
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.54.pdf
作者:Zexuan Qiu, Qinliang Su, Jianxing Yu, Shijing Si
文档检索往往依赖于语义哈希技术,而现有的语义哈希方法大多建立在传统的TF-IDF特征之上,并没有包含很多关于文档的语义信息。本文提出利用BERT表示基于乘积量化实现高效检索,具体地,为每个文档分配一个来自代码册的实型代码字以具有更多语义信息,而不是语义哈希中的二进制代码。作者还基于互信息最大化来提高代码字的表示能力,更准确地对文档进行量化。

12、Generative Multi-hop Retrieval
文章链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.92.pdf
作者:Hyunji Lee, Sohee Yang, Hanseok Oh, Minjoon Seo
本文主要研究多条场景下使用生成式的方法实现检索。作者基于现有的自回归的实体链接工作进行了扩展,从生成短实体变为生成长的文本序列,使用编码器-解码器的模型架构,让查询和文档获得更充分的交互。该方法使用了前缀树的数据结构,让模型解码的序列为语料库内的文本,并提出了LM momorization和multi-hop memorization两个策略让模型能更好地对语料库进行记忆。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
EMNLP'22 | What and how?模型的学习内容和推理方式探究快来学习啦:单细胞空间转录组研究进展与应用EMNLP 2022 | 基于视角转换的反事实数据增强方法EMNLP 2022 | LiteVL:具有增强时空建模的高效视频-语言学习EMNLP 2022 论文预讲会!41场精彩报告抢先看!生物谷推荐:类器官研究领域最新进展EMNLP 2022 | 知识图谱上的问题生成:用元学习建模不同子图ChatGPT——NLP大结局?大错特错!NLP还有很多事情可以搞EMNLP 2022 | 稠密检索新突破:华为提出掩码自编码预训练模型秋风又起土耳其(2)EMNLP 2022最佳长论文、最佳短论文等奖项公布!EMNLP 2022 最佳论文揭晓!这脑洞绝了….总结22-23年NLP等在GNN领域最新的研究综述以及研究趋势新冠肺炎对男性生殖和性功能影响的研究进展因果推理相关的图神经网络研究进展NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)EMNLP 2022 | ELMER: 高效强大的非自回归预训练文本生成模型EMNLP2022 | SimANS:简单有效的困惑负样本采样方法迈入语义搜索领域,Graphcore拟未与Aleph Alpha扩大合作关系北京内推 | 微软亚洲互联网工程院NLP Science组招聘NLP研究实习生早秋2021,红色天地的萍水相逢 (3)EMNLP'22 | 基于结构统一M叉编码树的数学问题求解器一文速览人岗匹配领域研究进展极简黑白片-网上下载EMNLP 2022奖项揭晓,最佳论文这脑洞绝了!成功举办 | “外泌体技术研究进展”线上活动一文浅谈Graph Transformer领域近期研究进展百万身价的演员,一半收入归心理医生了(多图)AI算法在智能搜索领域的经验分享 | 直播预约重磅发布!2022年度中国半导体十大研究进展2022年心血管研究进展TOP 10|AHA年终盘点MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展深秋时节的君子 --- 菊暖生香Vaccines | HPV作用机制与最新研究进展EMNLP 2022大会正式落幕,最佳长论文、最佳短论文等奖项公布
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。