ACL 2022论文盘点出炉！NLP好文一口气读完

科技

2022-05-05 04:05

©PaperWeekly 原创 · 作者 | 王馨月

单位 | 四川大学

研究方向 | 自然语言处理

机器翻译

1.1 CSANMT

论文标题：

Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation

论文链接：

https://arxiv.org/abs/2204.06812

项目地址：

https://github.com/pemywei/csanmt

监督神经机器翻译（neural machine translation, NMT）的主要任务是学习从一组平行句子对中生成以源输入为条件的目标句子，从而产生一个能够泛化到未见实例的模型。然而，模型的泛化能力很大程度上受训练使用的并行数据量的影响。这篇文章的作者提出了一种新的数据增强范式，称为连续语义增强（Continuous Semantic Augmentation, CSANMT），它为每个训练实例增加了一个邻接语义区域，该区域可以覆盖相同含义下的充足的文字表达变体。作者对多语言和不同资源设置下进行实验，结果表明，CSANMT 相比现有的增强技术大幅提升了性能。

上图是 CSANMT 的框架。

为了将模型推广到未见实例，作者提出了两个问题：1）如何优化语义编码器，使其为每个观察到的训练对产生一个有意义的邻接语义区域；2）如何从邻接语义区域中高效且有效地获取样本。针对这两个问题，作者提出了对应的解决方案。

切线对比学习（Tangential Contrastive Learning）：如上图所示。

MGRC 采样 (Mixed Gaussian Recurrent Chain Sampling)：如上图所示。

1.2 PCKMT

论文标题：

Efficient Cluster-Based k-Nearest-Neighbor Machine Translation

论文链接：

https://arxiv.org/abs/2204.06175

项目地址：

https://github.com/tjunlp-lab/PCKMT

最近提出的 k- 最近邻机器翻译（k-Nearest-Neighbor Machine Translation，kNN-MT）作为神经机器翻译（NMT）中域适应的非参数解决方案。它旨在通过与由域内数据构建的附加 token 级基于特征的检索模块协调来缓解高级 MT 系统在翻译域外句子时的性能下降。先前的研究证明，非参数 NMT 甚至优于对域外数据进行微调的模型，但 kNN 检索是以高延迟为代价的，特别是对于大型数据存储。

为了实用性，这篇文章的作者探索了一种更有效的 kNN-MT，并提出使用聚类来提高检索效率。作者首先提出了一种基于集群的紧凑网络，以对比学习的方式进行特征缩减，将上下文特征压缩为 90+% 的低维向量。然后，使用基于集群的剪枝解决方案来过滤大型数据存储中 10%~40% 的冗余节点，同时保持翻译质量。作者提出的方法在几个 MT 基准上与先进的非参数 MT 模型相比，实现了更好或相当的性能，同时减少了高达 57% 的推断延迟。实验结果表明，所提出的方法保留了原始数据存储中最有用的信息，并且紧凑网络在未见域上表现出良好的泛化性。

上图是本文提出方法的示意图，C-X("#") 表示 token “#” 的第 X 个簇。首先，基于集群的紧凑网络用于降低原始数据存储的密钥维数，并重建一个新的数据存储。然后应用基于集群的剪枝来减少数据存储的大小。

上图是紧凑网络的示意图。

上图是基于集群的剪枝算法。

1.3 Human Evaluation for Machine Translation

论文标题：

Toward More Effective Human Evaluation for Machine Translation

论文链接：

https://arxiv.org/abs/2204.05307

机器翻译等文本生成技术的改进需要更昂贵和耗时的人工评估程序，本文作者提出了一种通过减少必须注释的文本段数量来降低成本的简单方法。使用抽样方法，作者证明与纯随机抽样基线相比，来自文档成员和自动度量的信息可以帮助改进估计。通过利用分层抽样和控制变量，作者实现了高达 20% 的平均绝对误差增益。

如上图所示，作者研究了两种用于减少相对于基线的方差的经典无偏策略：分层抽样和控制变量。

基于实验观察，作者提出以下建议：

使用文档成员等先验信息将项目划分为箱，然后使用等式分层抽样选择项目，并按比例分配。
使用与人类分数相关的自动度量或其他特征作为控制变量。此步骤在采样完成后执行，与所使用的采样方法无关。如果有多个指标可用，则通过平均或应用在样本上学习的平滑回归器将它们组合成一个变量。

对话系统

2.1 DSGFNet

论文标题：

Dynamic Schema Graph Fusion Network for Multi-Domain Dialogue State Tracking

论文链接：

https://arxiv.org/abs/2204.06677

对话状态跟踪（Dialogue State Tracking，DST）旨在跟踪用户在对话过程中的意图。在 DST 中，对域和槽之间的关系进行建模通常在以下方面存在不足：(1) 明确融合先前的槽域成员关系和对话感知动态槽关系，以及（2）推广到未见的域。

为了解决这些问题，这篇文章的作者提出了一种动态模式图融合网络（Dynamic Schema Graph Fusion Network，DSGFNet），它生成一个动态模式图来显式地融合先前的槽域成员关系和对话感知动态槽关系。它还使用模式来促进知识向新领域的转移。DSGFNet 由对话话语编码器、模式图编码器、对话感知模式图演化网络和模式图增强对话状态解码器组成。在 SGD、MultiWOZ2.1 和 MultiWOZ2.2 的实验结果表明 DSGFNet 优于现有方法。

上图是 DSGFNet 的架构，包含对话话语编码器、模式图编码器、模式图演化网络和对话状态解码器。

上图是 SGD 上的 DSGFNet 和 Seq2Seq-DU 的示例。槽值是从对话上下文中提取的具有相同颜色的。黄色高光槽对的关系被预测为共同参考。红色下划线槽对的关系被预测为共同更新。粗体字槽对的关系被预测为共现。红色突出显示的槽值是错误预测的值。

2.2 KGC

论文标题：

There Are a Thousand Hamlets in a Thousand People's Eyes: Enhancing Knowledge-grounded Dialogue with Personal Memory

论文链接：

https://arxiv.org/abs/2204.02624

基于知识的对话（Knowledge-grounded conversation，KGC）在构建有趣且知识渊博的的聊天机器人方面显示出巨大潜力，而知识选择是其中的关键因素。然而，以往的知识选择方法只关注知识与对话上下文之间的相关性，而忽略了对话者的年龄、爱好、教育和生活经历对其个人偏好相对于外部知识有更大影响这一事实。如果不考虑个性化问题，就很难选择合适的知识并产生与角色一致的响应。

这篇文章的作者将个人记忆引入 KGC 的知识选择中，以解决个性化问题。作者提出了一种变分方法来模拟一个人的个人记忆与其知识选择之间的潜在关系，并设计了一种学习方案，其中从个人记忆到知识的正向映射及其逆向映射包含在一个闭环中，以便他们可以互相教学。实验结果表明，本文提出的方法在自动评估和人工评估方面都显著优于现有的 KGC 方法。

上图分别是：（a）仅基于对话上下文无法确定知识选择。（b）没有个人记忆，知识概率分布平坦，难以选择合适的知识。（c）个人记忆增强，知识概率分布更清晰。

上图是本文提出方法的图示。核心是五个概率模型来计算 Zp、Zk 的先验和后验分布以及 Zp 的辅助分布。

上图是本文提出的学习算法。

2.3 Rewards from Language

论文标题：

Inferring Rewards from Language in Context

论文链接：

https://arxiv.org/abs/2204.02515

项目地址：

https://github.com/jlin816/rewards-from-language

在经典指令遵循中，诸如“我想要 JetBlue 航班”之类的语句会映射到操作（例如，选择该航班）。然而，语言也传达了有关用户潜在奖励功能的信息（例如，对 JetBlue 的一般偏好），这可以允许模型在新的上下文中执行所需的操作。

本文作者提出了一个从语句中推断奖励的模型：推断说话者如何选择话语，不仅是为了引发期望的动作，而且能揭示有关他们偏好的信息。在使用自然语言的新交互式航班预订任务中，与过去首先将语言映射到动作（指令遵循）然后将动作映射到奖励（逆强化学习）的工作相比，本文的模型能更准确地推断出奖励并预测未见的环境中的最佳动作。

如上图所示，模型通过推断说话者如何选择观察到的话语来推断奖励：既要引发正确的行动 ()，又要描述他们的奖励 ()。

上图是在观察给定的话语和选项后，每个模型的奖励后验的真实示例。特征的真实奖励值用红线标记，特征的后验均值用蓝线标记。

2.4 MISC

论文标题：

MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation

论文链接：

https://arxiv.org/abs/2203.13560

项目地址：

https://github.com/morecry/MISC

将现有方法应用于情感支持对话（为有需要的人提供有价值的帮助）有两个主要限制：（a）现有方法通常使用对话级别的情感标签，该标签过于粗略，无法捕捉用户的即时心理状态；（b）现有方法大多专注于在回应中表达同理心，而不是逐渐减少用户的痛苦。

为了解决这些问题，作者提出了集成 COMET 的混合策略感知模型（MIxed Strategy-Aware Model Integrating COMET，MISC），它首先推断用户的细粒度情绪状态，然后使用混合策略巧妙地做出响应。基准数据集上的实验结果证明了方法的有效性，并揭示了细粒度情感理解和混合策略建模的好处。

上图是情感支持对话的示例。

上图是 MISC 的概览，由一个心理状态增强编码器、一个混合策略学习模块和一个多因素感知解码器组成。

上图是 MISC 与其他模型生成回应的对比。

作者在文末对于这项工作的潜在伦理影响进行了总结，值得参考。

预训练模型

3.1 XDBERT

论文标题：

XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding

论文链接：

https://arxiv.org/abs/2204.07316

多模态 transformer 在视觉语言任务中非常有效，本文作者探索从预训练的多模态 transformer 中提取视觉信息到预训练的语言编码器。作者改变了学习目标以迎合 NLU 的语言密集型特征，经过少量额外适应步骤的训练和微调后，所提出的 XDBERT（cross-modal distilled BERT）在 GLUE、对抗性生成（SWAG）以及可读性基准的情况下优于预训练的 BERT。作者分析了 XDBERT 在 GLUE 上的性能，表明改进可能是视觉上的。

上图是 transformer 从左到右经历了三个阶段的训练过程。Pretraining 阶段对 BERT 和 CLIP-T 进行预训练，然后将两者用于 Adaption 阶段并与跨模态编码器连接，仅在语言编码器上执行 Finetuning。

3.2 ExplagraphGen

论文标题：

Explanation Graph Generation via Pre-trained Language Models: An Empirical Study with Contrastive Learning

论文链接：

https://arxiv.org/abs/2204.04813

项目地址：

https://github.com/swarnaHub/ExplagraphGen

预训练的 Seq2Seq 模型在许多 NLU 任务中取得了广泛的成功，然而分析它们生成结构化输出（如图形）的能力方面的工作相对较少。这篇文章的作者研究了以端到端方式生成解释图的预训练语言模型，并分析了它们学习此类图的结构约束和语义的能力。

作者表明，在监督有限的情况下，预训练的语言模型通常会生成违反约束或语义不一致的图。因此作者提出了一种简单有效的图扰动方法，通过节点和边编辑操作导致结构和语义上的正图和负图。接着，走着在具有 Max-Margin 和 InfoNCE 损失的不同对比学习模型中利用这些图。实验结果显示，本文提出的方法显著提高了解释图的结构和语义准确性，并可以推广到其他类似的图生成任务。最后，作者表明人为错误是对比学习的最佳负面因素，并且自动生成更多类似人类的负面图可以导致进一步的改进。

上图是解释图的两个示例。虚线节点代表常识节点，虚线边是不正确的边。第一张图在结构上不正确，第二张在语义上不正确。

上图是本文提出的基于 T5 的对比学习框架，用于使用正扰动图和三种负扰动图生成图。

原文的附录中作者提供了更多示例，可以进一步了解。

3.3 PERFECT

论文标题：

PERFECT: Prompt-free and Efficient Few-shot Learning with Language Models

论文链接：

https://arxiv.org/abs/2204.01172

项目地址：

https://github.com/rabeehk/perfect

当前对预训练掩码语言模型（PLMs）进行少量微调的方法需要为每个新任务设计 prompt 和 verbalizer，以将示例转换为 PLM 可以评分的完形填空格式。这篇文章的作者提出了 PERFECT，这是一种无需依赖任何手工设计的微调模型，只需 32 个数据点。

PERFECT 做出了两个关键的设计选择：首先，手动设计的任务提示可以替换为任务特定的 adapter，这些 adapter 可以实现样本高效的微调，并将内存和存储成本分别降低大约 5 倍和 100 倍。其次，作者使用的不是手工制作的 verbalizer，而是在微调期间学习新的多标记标签嵌入，这与模型词汇表无关，并且允许我们避免复杂的自回归解码。这些嵌入不仅可以从有限的数据中学习，而且可以使训练和推理速度提高近 100 倍。对各种小样本 NLP 任务的实验表明，PERFECT 在简单高效的同时，也优于现有的最先进的小样本学习方法。

上图是 PERFECT 的图示。首先将每个输入转换为其掩码语言建模（MLM）输入，然后为每个 token 训练一个分类器并优化每个掩码位置上的平均多类 hinge loss。模型包含三个主要组件：a）无模式任务描述，使用特定于任务的 adapter告诉模型给定任务；b）多标记标签嵌入作为学习标签表示的有效机制；c）基于原型网络概念的有效推理策略，取代了先前的迭代自回归解码方法。

作者在附录中展示了更多的实验细节，感兴趣的读者可以进一步阅读原文。

3.4 RL-Guided MTL

论文标题：

Reinforcement Guided Multi-Task Learning Framework for Low-Resource Stereotype Detection

论文链接：

https://arxiv.org/abs/2203.14349

随着以无监督方式对大量数据进行训练的大型预训练语言模型（PLM）变得越来越普遍，识别文本中的各种类型的偏差已成为焦点。现有的“刻板印象检测”数据集主要采用针对大型 PLM 的诊断方法。先前的研究表明现有基准数据集存在重大的可靠性问题。注释可靠的数据集需要准确理解刻板印象如何在文本中体现的细微差别。

这篇文章的作者注释了一个针对“刻板印象检测（Stereotype Detection）”的重点评估集，通过解构文本中刻板印象表现的各种方式来解决这些缺陷。此外，作者提出了一个多任务模型，该模型利用大量数据丰富的邻近任务，如仇恨言论检测、攻击性语言检测、厌女检测等，以提高“刻板印象检测”的经验性能。然后，作者提出了一个强化学习代理，它通过学习从相邻任务中识别对目标任务最有帮助的训练示例来指导多任务学习模型。作者表明，所提出的模型在所有任务的现有基线上都取得了显著的经验收益。

上图是本文提出的具有相关相邻任务的低资源分类任务的强化引导多任务学习模型。

上图是模型对应的算法。

机器阅读理解

4.1 S2DM

论文标题：

Learning Disentangled Semantic Representations for Zero-Shot Cross-Lingual Transfer in Multilingual Machine Reading Comprehension

论文链接：

https://arxiv.org/abs/2204.00996

多语言预训练模型能够在机器阅读理解（MRC）中将知识从资源丰富的语言零样本迁移到低资源语言。然而，不同语言中固有的语言差异可能会使零样本迁移预测的答案跨度违反目标语言的句法约束。这篇文章的作者提出了一种全新的多语言 MRC 框架，该框架配备了连体语义分离模型（Siamese Semantic Disentanglement Model, S2DM），以在多语言预训练模型学习的表示中将语义与语法分离。

为了明确地将语义知识转移到目标语言，作者提出了两组专门针对语义和句法编码和解缠的损失。三个多语言 MRC 数据集（即 XQuAD、MLQA 和 TyDi QA）的实验结果证明了作者提出的方法对基于 mBERT 和 XLM-100 的模型的有效性。

上图是答案跨度和句法成分之间的关系。（a）XQuAD 的一个例子，其中真实答案是句法成分。（b）的一个案例，其中模型预测的答案从英语转换为汉语违反了目标语言的句法成分边界。

上图为多语言 MRC 提出的零样本跨语言迁移框架图。（a）我们的多语言 MRC 框架概述。（b）S2DM 的架构，由两个具有源语言和目标语言共享参数的孪生网络组成。一旦经过训练，只有源语言 MLP 网络的输出被馈送到线性输出层。（b）中的下标 s 和 t 分别代表源语言和目标语言。CRL：跨语言重建损失。SDL：语义歧视损失。WPL：词位置损失。POS：词性损失。STL：语法树损失。

4.2 POI-Net

论文标题：

Lite Unified Modeling for Discriminative Reading Comprehension

论文链接：

https://arxiv.org/abs/2203.14103

项目地址：

https://github.com/Yilin1111/poi-net

作为机器阅读理解（MRC）的一个广泛和主要类别，判别式 MRC 的一般目标是根据给定材料预测答案。然而，各种区分性 MRC 任务的重点可能足够多样化：多选择 MRC 需要模型来突出和整合全局所有潜在的关键证据；而抽取式 MRC 则侧重于更高的局部边界精确度以进行答案抽取。在之前的工作中，缺乏针对整体判别性 MRC 任务的统一设计。

为了填补上述空白，这篇文章的作者提出了一种轻量级的 POS-Enhanced Iterative Co-Attention Network（POI-Net），作为具有针对性的统一建模的首次尝试，以同步处理不同的判别 MRC 任务。几乎没有引入更多参数，作者通过统一设计编码器和解码器组件实现了显著改进。四个判别 MRC 基准的评估结果一致表明模型的具有一般有效性和适用性。