NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion：基于自回归扩散的文本生成

2023-09-28 04:09

扩散模型因其卓越的性能在图像生成领域引起了广泛关注。最近，它们的成功被扩展到文本生成，通过同时生成序列中的所有 token。然而，与图像相比，自然语言展现出更为明显的顺序依赖性，而现有大多数语言模型都是通过从左到右的自回归方法进行训练的。为了考虑自然语言固有的顺序特性，我们引入了自回归扩散（AR-DIFFUSION）。

AR-DIFFUSION 确保右侧 token 的生成依赖于左侧生成的 token，这一机制是通过使用根据 token 位置变化的动态去噪步骤数来实现的。这使得左侧的 token 经历的去噪步骤较少，从而使它们能够更早地生成并随后影响右侧 token 的生成。在各种文本生成任务上的一系列实验中，包括文本摘要、机器翻译和常识生成，AR-DIFFUSION 明显表现出其优越性，且在实现可比较的结果时速度可提高 100 倍至 600 倍。

论文标题：

AR-DIFFUSION: Auto-Regressive Diffusion Model for Text Generation

论文地址：

https://arxiv.org/pdf/2305.09515.pdf

代码地址：

https://github.com/microsoft/ProphetNet/tree/master/AR-diffusion

Introduction

文本生成是自然语言处理（NLP）领域中的一个基本任务。像 GPT-4、LLaMA 和 Alpaca 这样的预训练语言模型以其生成流畅且类似人类的文本内容的能力引起了广泛关注。这些模型利用自回归（AR）Transformer 解码器，按照从左到右的顺序逐个生成 token。通过利用位置依赖性的力量，AR 模型能够增强生成文本的自然性、连贯性和遵循人类语言规范。

最近的研究表明，扩散模型在图像生成方面表现出卓越的性能，激发了研究人员将扩散方法扩展到文本生成领域的动力。通过引入时间步，这些方法逐步调节原始 token 与高斯噪声之间的插值，然后迭代地进行去噪以进行文本生成。在每个时间步，基于扩散的文本生成器遵循非自回归（NAR）原则同时预测所有 token，相较于 AR，具有更快的解码速度。然而，它也继承了 NAR 的缺点，即牺牲了 token 之间的位置依赖性和生成性能下降。

▲ 图 1：在一个二维坐标系统上展示模型的行为，其中水平轴代表位置，垂直轴表示扩散时间步。

在推断阶段，不同的模型将表现不同。（a）对于典型的 Diffusion-LM，每个 token 共享相同的运动速度：

。（b）从扩散模型的角度来看，AR 模型根据原始 token 和高斯噪声之间的插值程度具有两种状态：待解码（在时间步）和已解码（在时间步）。

具体而言，我们有和。（c）在 AR-DIFFUSION 中，是锚点的坐标。不同位置的 token 展示出不同的运动速度，例如当时，

。

为了进行全面的分析，我们引入了一个二维坐标系统来跟踪位于不同位置的 token 的扩散时间步。如图 1 所示，该系统将 token 位置分配给水平轴，将扩散时间步分配给垂直轴。图 1（a）展示了 Diffusion-LM，这是现有基于扩散的文本生成模型所采用的方法。它为所有 token 分配了统一的时间步。

相反，图 1（b）中的 AR 模型在生成步骤内展示了不同的时间步（）token。例如，位置上已解码的 token 具有时间步，而位置上待解码的 token 具有时间步。这种方法有效地捕捉了顺序依赖性。受到这一观察的启发，我们引入了 AR-DIFFUSION，一种自回归扩散方法，以适应 token 位置的差异和顺序 token 识别的原则。

在 AR-DIFFUSION 中，我们提出了一种多级扩散策略，包括句子级和 token 级的扩散。我们随机选择一个句子级的时间步长，并通过确定每个 token 的位置敏感 token 级时间步长来分配动态运动速度。这使得句子左侧的 token 能够更快地从随机高斯噪声转化为 token 嵌入，而句子右侧的 token 则经历较慢的移动，以更好地利用先前去噪的 token 的信息。

在推断过程中，为了减少 Diffusion-LM、SeqDiffSeq 和 GENIE 等模型所需的大量推断步骤（例如 2,000 步），我们引入了一个 Skipping 机制，与多级扩散策略协作以加速该过程。