近200篇文章汇总而成的机器翻译非自回归生成最新综述，揭示其挑战和未来研究方向

2022-06-24 10:06

每天给你送来NLP技术干货！

作者：杜林鸽

学校：苏州大学人工智能实验班

方向：自然语言处理

论文标题：A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond
论文链接：https://arxiv.org/abs/2204.09269

概要

以Transformer为基础的自回归生成（auto-regressive generation，AR）模型，已经被广泛应用到各类机器学习和自然语言处理任务，并取得了令人振奋的效果。

然而，由于在推理过程中逐步解码的特性，导致推理的速度较慢，在现实工业应用中展露弊端。为了加快解码的速度，非自回归生成（non-autoregressive generation，NAR）采用并行解码，推理时只需要过一遍模型就可以得到目标结果，大大提升了推理的效率。其首次在神经机器翻译(neural machine translation，NMT) 中崭露头角，大大提升了翻译的速率，随后被广泛应用到各类生成任务。

然而，这种解码速度的提升往往伴随着生成质量的降低，和传统的自回归生成的效果存在一定差距。为了减小这个差距，提升生成序列的质量，许多新的方法和模型架构被提出来缓解非自回归的质量缺陷。

在这篇论文中，作者对近年来NAR的发展做了全面的调研和系统的梳理，首先从多个角度（训练目标，模型结构和推理策略）比较了AR和NAR的差别，进一步分析了导致NAR生成质量降低的原因（在推理过程中仅仅依赖源端文本序列的信息，缺乏目标端文本序列信息的支撑），接着以NMT工作为例总结了改进NAR模型生成质量的相关工作，具体可分为以下几个方面：数据操纵（data manipulation）、建模方法（modeling methods）、训练准则（training criteria）、解码算法（decoding ways）以及利用预训练模型（benefit from pre-training）。

除此以外，作者简要回顾了NAR生成模型在机器翻译任务之外的其他应用，如对话生成、文本摘要、语法纠错、语义分析、语音合成和自动语音识别等。最后，该论文讨论了NAR未来探索的潜在方向，包括减少对知识蒸馏（knowledge distillation，KD）的依赖性、动态解码长度预测、NAR的预训练和更广泛的应用等。

关键挑战

作者通过对比AR和NAR模型在训练目标、模型结构、推理策略等方面的联系和不同，将NAT模型的主要挑战归结为“难以建模目标端文本序列内部的依赖信息”。由训练目标来讲，AR模型对于每一个目标位置的文本，同时建模了源端文本信息和目标端当前位置的历史文本信息的关系，NAR模型仅仅建模了源端文本信息与目标端整个序列的关系。

由模型结构相比，主要差别体现在注意力机制（attention module）上，AR模型需要避免当前位置的文本与后面位置文本信息的关联，而NAR模型则并不需要。由推理策略来讲，也是体现推理速率差别的地方所在。AR模型由于建模方法的特点，在推理时过一次模型仅生成后一个位置的文本，依次生成整个序列，而NAR模型则单步推理，整个序列生成只要过一次模型。由此可以看到，NAR模型在推理时所有位置的文本都仅仅依赖于源端信息，并没有目标端的文本信息的支持，也就是上文提到的“难以建模目标端文本序列内部的依赖信息”，导致了生成质量的降低。

非自回归生成方法分类

如下图所示，作者主要从以下角度对现在有的非自回归生成方法进行整理，主要分为:

(1) 数据操纵（data manipulation）,由于NAR模型的训练难度，研究者拟采用蒸馏数据作为训练集合来降低训练数据的复杂性，或提出一些辅助技巧来改善模型的学习水平，如针对特殊词的选择，模型学习的策略等，缓解NAT模型学习难度，提升NAT模型的效果；

(2) 建模方法（modeling methods）,单纯建模源端文本信息与目标端整个序列的关系往往不是最优的，研究者提出了包括迭代生成模型，隐变量模型和其他增强模型的方案来改善NAR模型的建模方法，其中迭代生成模型建模源端文本信息与特定部分目标端文本的关系，推理的每一次迭代中，将上一轮迭代的结果作为目标端的提示信息，而隐变量模型通过特定隐变量帮助建模，推理时可以将隐变量作为目标端的提示信息；

(3) 训练准则（training criteria）,针对传统的交叉熵损失函数做出改进，提出了包括基于CTC、n-gram、以及引入顺序无关的损失函数，来更好地匹配训练过程中模型生成结果和真实结果之间的对齐和位置关系，补充了传统的交叉熵损失函数中缺失的全局信息，使得训练准则更好地匹配NAR模型的建模特点，实现对NAR模型更好地优化；

(4) 解码算法（decoding ways）,包括NAR模型的长度预测模块改进，以及对完全NAR模型单步解码改进。首先NAR模型在推理时需要提前预测目标语句的长度，然而在这个过程中容易产生长度的偏差，研究提出了不同的预测方案和改进策略。其次针对单次解码，研究者提出了半自回归解码，迭代解码，混合解码等多种方案，可以在一定程度上缓解生成的难度；

(5) 利用预训练模型（benefit from pre-training）,包括利用AR模型和利用大规模预训练语言模型的方法，其中，AR模型的训练难度比NAR模型小，而且结果普遍会优于NAR模型，但是结构是相似的，于是研究者借助AR模型来帮助NAR模型的训练，比如引入额外监督信息，基于课程学习的迁移学习方法，共享参数等。

代表性方法汇集

如下表所示，作者汇集和整理了代表性方法的分类、特点、解码方案、速度和性能等信息。读者从中快速获取到相关模型的信息，进一步根据自己需求来选择相应的模型作进一步的探索和改进。

非自回归方法质量趋势

如下图所示，从中获取相关NAR模型在NMT任务上随着时间发展生成质量的变化，包括完全NAR模型（Fully NAT，单步解码）以及迭代NAR模型（Iterative NAT，多步解码），可以看出，由于迭代NAR模型的解码过程中可以获得上一轮迭代的结果作为目标信息，同时期迭代NAR模型的效果普遍优于完全NAR模型，但是迭代会降低推理效率。同时，迭代NAR模型在近年来的提升实际并不明显，反观完全NAR模型获得进一步的提升，并与迭代NAR模型的差异越来越小，由此可见完全NAR模型的潜力还很大。

NAT模型总览

正如我们所讨论的 NAT 模型难以对目标端依赖进行建模，因此为了解决该问题前人已经提出了各种方法来通过减少不同级别的目标token的依赖来缓解这个问题，从而提高了 NAT 模型的能力。为了对这些方法有一个清晰的了解，我们在图中展示了各种 NAT 模型的总体框架和数据流，如下图所示。

代表性方法汇集非自回归方法性能比较

如下图所示，作者比较了相关NAR模型在NMT任务上两个重要性能（推理速度和翻译质量）的关系，其中图中右上角的区域应该是性能发挥较好的模型，即相比较传统AR模型，解码速度有10倍以上的提升，且翻译质量较高。同时有一些迭代NAR模型的效果已经超过了Transformer基础模型，速度方面仍然有接近4倍提升，一些完全NAR模型也可获得类似的效果。可以看出NAR模型的发展潜力很大，值得后续研究和改进。