一文了解复旦大学NLP实验室的14篇EMNLP 2022长文内容

2022-10-17 07:10

每天给你送来NLP技术干货！

来自：FudanNLP

EMNLP 2022 (The 2022 Conference on Empirical Methods in Natural Language Processing) 是自然语言处理领域的顶级国际会议，由国际语言学会 SIGDAT 小组在世界范围内每年召开一次。2022年冬季，EMNLP 2022 将以混合形式在阿联酋阿布扎比 (Abu Dhabi) 举行，所有参与者都可以在会场现场或虚拟加入。

在 EMNLP 2022 中，复旦大学自然语言处理实验室 FudanNLP 共计 14 篇长文被录用，其中包括 9 篇主会文章和 5 篇Findings文章。

EMNLP 2022 主会

1 ProofInfer: Generating Proof via Iterative Hierarchical Inference

作者：费子楚，张奇，周鑫，桂韬，黄萱菁

类别：Main Conference

摘要：证明生成侧重于演绎推理：给定一个假设和一组理论，包括一些用自然语言表达的支持事实和逻辑规则，该模型生成一个证明树，指示如何从给定的理论中推断出假设。当前具有最先进性能的模型采用逐步方法，将单个节点逐步链接到证明。然而，这些方法实际上专注于生成几个证明路径而不是整个树。为了解决这个问题，我们提出了 ProofInfer，它通过迭代层次推理生成证明树。在每一步，ProofInfer 都会为证明树生成整个层，该层中的所有节点都是同时生成的。由于传统的自回归生成架构不能同时预测多个节点，ProofInfer 采用文本到文本范式来避免它。为此，我们提出了一种分而治之的算法，将证明树递归地编码为纯文本，而不会丢失结构信息。实验结果表明，ProofInfer 在几个广泛使用的数据集上明显优于最先进的 (SOTA) 模型。此外，ProofInfer 在数据有限的情况下仍然表现良好，达到了与只有 40% 训练数据的 SOTA 模型相当的性能。

2 Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence Embedding

作者：高颂杨，窦士涵，张奇，黄萱菁

类别：Main Conference

摘要：最近，数据集偏差因其对微调模型的泛化能力的不利影响而受到越来越多的关注。目前，主流解决方案是设计一个额外的表层模型来预先识别有偏差的数据。然而，这种两阶段的方法增加了训练过程的计算复杂性，并且在减轻偏见的同时导致了有效信息的衰减。为了解决这个问题，我们引入表示标准化的方法。标准化方法旨在消除编码句子的特征之间的相关性，这有益于通过提供各向同性的数据分布来消除偏见问题。进一步的，本文提出了 "核白化"方法来实现对非线性虚假相关性更彻底的去偏，这是一个端到端的框架，它的时间消耗与简单的微调相似。实验表明，相比之前的工作，我们的方法在时间和效果上都有不错的提升。

3 ReLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees

作者：刘腾霄，郭琦鹏，胡祥坤，张岳，邱锡鹏，张峥

类别：Main Conference

摘要：解释从问题到答案的多步推理过程是当前可解释问答领域关心的一大挑战。蕴涵树是最近提出的一种结构化推理格式，它用显式的树状结构表示出多步蕴涵逻辑推导。为了生成蕴涵树，先前的使用序列到序列模型单次生成的方法缺乏可见的内部决策概率，而迭代的单步方法则使用抽取的单步数据进行监督，并且无法将树作为一个整体进行建模。在这项工作中，我们提出了 ReLET，这是一种基于强化学习的蕴涵树生成框架，它利用整个树的累积信号进行训练。该方法使用句子选择和结论生成两个模块迭代地执行单步推理，使用与评估方法一致的奖励函数进行训练信号的累积。本文首次将强化学习方法引入蕴涵树生成任务，并且在EntailmentBank 数据集三个任务上展现出了 ReLET 的有效性，在结构正确性方面优于现有基线方法。

4 CodeRetriever: A Large Scale Contrastive Pre-Training Method for Code Search

作者：李孝男，宫叶云，谌叶龙，邱锡鹏，张航，要博伦，齐炜祯，姜大昕，陈伟柱，段楠

类别：Main Conference

摘要：在这篇文章里我们提出了 CodeRetriever，通过大规模的代码-文本对比预训练，来学习函数级 (Function-Level) 的代码语义表示。在 CodeRetriever 中，我们提出了两种对比学习的策略：单模态和双模态的对比学习。对于单模态的对比学习 (code-to-code)，我们提出了一种无监督的方式，根据代码中的自然语言信息，来构建具有相似功能的代码对。对于双模态的对比学习 (code-to-text) ，我们利用的代码的文档和存在于代码中的零散注释来构建代码文本对。两种对比学习的目标都能够充分利用大规模的代码语料来进行预训练。在十一个涉及不同领域和六种代码语言的代码搜索任务上，CodeRetriever 均带来了显著的性能提升。同时后续的分析实验表明 CodeRetriever 各个模块的有效性，以及在 few-shot 和跨代码语言等实际场景下的有效性。

5 BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation

作者：孙天祥*，何俊亮*，邱锡鹏，黄萱菁

类别：Main Conference

摘要：衡量生成文本质量的自动化评测指标在包括机器翻译、对话系统等在内的生成系统开发中具有至关重要的影响。近年来，由于预训练语言模型强大的语义表征能力，基于预训练语言模型的评测指标（如BERTScore、MoverScore、BLEURT等）得到了广泛应用。然而，在这项工作中我们发现，已有的基于预训练语言模型的评测指标都存在显著的公平性隐患：对于语义相近、身份指示词（如 he 和 she）不同的候选文本输出显著不同的分数，且常常对于含有刻板印象的候选文本输出更高的分数。这种评测的不公平性会在模型选择的过程中鼓励富有偏见的生成系统，进一步加深模型及其生成数据的社会偏见。

6 BBTv2: Towards a Gradient-Free Future with Large Language Models

作者：孙天祥，贺正夫，钱鸿，周云华，黄萱菁，邱锡鹏

类别：Main Conference

摘要：预训练语言模型已在各类常见自然语言处理任务上取得了与人类媲美的性能，而这一结果通常是通过梯度下降对预训练语言模型的全部或部分参数进行微调得到的。然而，梯度下降的优化复杂度与模型规模成正比，随着预训练模型规模的急剧增长，其优化成本也显著增加，成为实际落地中的一大困难。针对这一问题，我们在过去工作（Black-Box Tuning, ICML 2022）的基础上提出了 BBTv2，使用深层 prompt 代替原有的输入层 prompt，并提出一种基于分治的无梯度优化方法对其进行交替优化，在多个少样本学习任务上仅优化千分之三的参数取得了和全参数微调相仿的性能。

7 Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer?

作者：徐凝雨，桂韬，马若恬，张奇，叶婧婷，张梦翰，黄萱菁

类别：Main Conference

摘要：多语言 BERT (Multilingual BERT, mBERT) 展示出了较强的跨语言句法能力，能够有效地实现句法知识的零样本跨语言迁移 (zero-shot cross-lingual transfer)。这种迁移在某些语言之间有更好的效果，但目前尚不清楚导致这种差异的原因，以及它是否正确地反映了语言间的差异。在这项工作中，我们针对 24 种类型迥异的语言，研究了 mBERT 得到的依存句法关系表示的分布。我们证明了不同语言分布之间的距离与语言间的形式句法差异高度一致。这种 mBERT 通过自监督学习得到的语言间句法结构的差异对零样本迁移效果有着决定性的影响，并可以利用语言间的形态句法（morphosyntactic）属性差异进行预测。据此，我们可以在不需要数据集的情况下，基于语言的形态句法属性来选择最佳的零样本迁移的源语言。这些结果表明，mBERT 以一种符合语言多样性的方式正确地对不同语言进行了编码，并为跨语言迁移的机制提供了新的见解。

8 Efficient Adversarial Training with Robust Early-Bird Tickets

作者：奚志恒*，郑锐*，桂韬，张奇，黄萱菁

类别：Main Conference

摘要：对抗训练是提升预训练语言模型鲁棒性最有效的方法之一。然而，这种方法通常比传统的微调更加昂贵，因为它需要通过投影梯度下降生成对抗样本。深入研究对抗训练的优化过程，我们发现在训练的早期阶段（通常是0.15~0.3个epochs，远在参数收敛之前），鲁棒的网络连接模式就浮现了。受到这一发现的启发，我们提取出鲁棒早鸟彩票（即子网络）来实现一种高效的对抗训练方法：（1）在对抗训练早期阶段寻找具有结构化稀疏度的鲁棒彩票；（2）在剩余时间内对鲁棒彩票进行微调。为了尽早提取鲁棒彩票，我们使用了一个彩票收敛指标来自动终止搜索过程。实验表明，与最先进的对抗训练方法相比，我们所提出的方法可以提升7倍~13倍的训练速度，同时保持可比的、甚至更好的鲁棒性。

9 TextFusion: Privacy-Preserving Pre-trained Model Inference via Token Fusion

作者：周鑫，陆劲竹，桂韬，马若恬，费子楚，王宇然，丁勇，张轶博，张奇，黄萱菁

类别：Main Conference

摘要：最近，越来越多的企业发布基于预训练语言模型的云服务，这些云服务允许缺乏计算资源的用户将数据上传到云端，借助云端强大的模型进行推理，以完成下游任务。因为纯文本可能包含私人信息，所以用户更愿意在本地进行部分可接受的计算，并将中间表示上传到云端进行后续推理。然而，最近的研究表明，中间表示也容易被还原为纯文本，因此隐私泄露的风险仍然存在。为了防止隐私泄漏，我们提出了 TextFusion，一种保存端云协同推理阶段隐私的新方法。具体来说，我们训练一个融合预测器来动态地融合词表示，它将多个可能含有隐私的词表示融合为一个难以识别的词表示。此外，我们还采用了一种误导性的训练方案来使这些表示进一步被干扰。这样一来，云端只接收到不完整的和被干扰的表示，隐私攻击者难以将其准确地恢复为完整的文本。我们在句子级别和词级别的分类任务上进行了实验，实验结果表明我们的方法可以有效地保护推理隐私，并且对性能的影响较小。

Findings of EMNLP 2022

10 Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with User Simulator

作者：程沁源*，李林阳*，权国风，高峰，牟晓峰，邱锡鹏

类别：Findings of EMNLP 2022

摘要：任务型对话系统 (TOD) 在最近的研究中引起了越来越多的关注。当前的方法主要侧重于构建预训练模型或者微调策略，然而 TOD 系统的评测却受到策略不匹配问题的限制。在评测期间，用户语句来自标注数据集，而不是和之前系统回复的动态交互，而这些系统回复在实际评测中可能与标注数据不同。因此，在本工作中，我们提出了一个用于 TOD 的交互式评测框架。首先基于预训练模型构建了一个面向用户目标的用户模拟器，然后使用用户模拟器与对话系统交互以生成对话，并在交互式评测中引入了句子级和会话级分数来衡量对话的流畅度和连贯性。实验结果表明，基于构建的用户模拟器进行强化学习训练后的 TOD 系统在我们提出的评测框架下可以达到接近 98% 的通知率和成功率，并且提出的句子级和会话级分数可以衡量句子的流畅度和会话的连贯性。我们希望我们的工作将鼓励在 TOD 任务上进行交互式评测，更准确地衡量 TOD 系统的性能。

11 DORE: Document Ordered Relation Extraction based on Generative Framework

作者：郭琦鹏*，杨雨晴*，颜航，邱锡鹏，张铮

类别：Findings of EMNLP 2022

摘要：近年来，基于生成框架的信息抽取工作涌现，这部分工作可以更直接地利用预训练语言模型，并有效地捕捉输出中的依赖关系。然而，过去使用自然语言表示的生成方法并不适合存在多个实体和关系事实的文档级关系抽取 (DocRE) 任务。本文中，我们发现现有生成式 DocRE 模型性能不佳的根本原因是训练范式的问题，而非模型能力。我们提出了从关系矩阵中生成一个符号化的有序序列的范式，该序列是确定的，使模型更容易学习。此外，我们设计了一种平行行生成 (parallel row generation) 的方法来处理过长的目标序列。另外，我们还引入了几种负采样策略来利用更平衡的信号提高模型性能。在四个数据集上的实验结果表明，我们提出的方法可以提高生成式 DocRE 模型的性能。

12 Soft-Labeled Contrastive Pre-Training for Function-Level Code Representation

作者：李孝男*，郭达雅*，宫叶云，林云，谌叶龙，邱锡鹏，姜大昕，陈伟柱，段楠

类别：Findings of EMNLP 2022

摘要：最近，代码对比预训练在很多代码相关的任务上取得了显著进展。在这篇文章中我们提出了 SCodeR ，一种基于软标签训练方式的代码对比预训练框架，来学习函数级的代码表示。考虑到代码的特性，大规模代码语料中的两段代码可能存在着潜在的相关性，如降序排序和升序排序，或者拥有一样的功能，我们提出的软标签对比预训练框架能够通过一种迭代对抗的方式，获得代码之间细粒度的软标签分数，利用他们来学习更好的代码表示。同时，我们也提出了一种基于代码上下文和抽象语法树的正样例构造方法 ASST 来帮助模型能够更好地捕获代码中的语义特征。实验结果表明，在四种常见的代码表示任务中，SCodeR 均取得显著改善。同时，后续的分析实验也说明了 SCodeR 各个模块的有效性。

13 Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts

作者：刘向阳，孙天祥，黄萱菁，邱锡鹏

类别：Findings of EMNLP 2022

摘要：Prompt Tuning 在嵌入层插入连续的提示向量，并通过优化这些提示向量来驱动预训练模型。尽管它在参数效率上达到了极致且对模型部署非常友好，但是它的性能却远低于其他更先进的参数高效方法（如基于适配器的调优方法）。而且，相比于微调，虽然它在很大程度上减少了需要优化的参数数量，但是在训练成本上并没有太大改进。本工作探索了 Prompt Tuning 性能较弱的原因，并发现在标签信号到提示向量的传播距离和提示向量影响模型输出的能力之间有一个权衡。基于此发现，我们提出了Late Prompt Tuning (LPT)，它使用 late prompt 来更好更高效地驱动预训练模型。具体来说，我们将提示向量插入在预训练模型的最中间层，而不是嵌入层或者所有层。为了充分利用提示向量插入层之前的隐藏状态，我们引入了一个提示生成器来利用这些隐藏状态为每个样例生成独立的提示向量。通过在10个分类任务和3个 PTMs 上的大量实验结果表明，在全量数据和小样本场景下，LPT 能够取得很有竞争力的结果，同时具有更快的训练速度和更低的内存成本。

14 Weight Perturbation as Defense against Textual Adversaries

作者：徐健涵，李林阳，张稷平，郑骁庆，Kai-Wei Chang，Cho-Jui Hsieh，黄萱菁

类别：Findings of EMNLP 2022

摘要：文本对抗样本在目前已被广泛研究，同时也有很多针对自然语言处理 (NLP) 模型的对抗攻击方法。对抗训练作为最成功的防御方法之一，通过在原始输入文本中添加一些随机或有意的扰动，使模型对扰动样本具有鲁棒性。在本研究中，我们探索了通过在参数空间而不是输入特征空间进行扰动来提高 NLP 模型对抗鲁棒性的可行性。模型权重扰动有助于在权值空间中找到最优解，使对抗性损失最小化。我们发现，当权重扰动与输入嵌入空间中的扰动相结合时，可以显著提高 NLP 模型的鲁棒性，从而在不同数据集的原始样本和对抗样本中获得最高预测准确率。

* 为共同第一作者

未标注文章也可能存在共同第一作者，具体详见每篇论文的最终录用原文

责任编辑：窦士涵

📝论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix：针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章