生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪

2022-07-24 12:07

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

到目前为止，笔者给出了生成扩散模型 DDPM 的两种推导，分别是《生成扩散模型漫谈：DDPM = 拆楼 + 建楼》中的通俗类比方案和《生成扩散模型漫谈：DDPM = 自回归式 VAE》中的变分自编码器方案。两种方案可谓各有特点，前者更为直白易懂，但无法做更多的理论延伸和定量理解，后者理论分析上更加完备一些，但稍显形式化，启发性不足。

▲ 贝叶斯定理（来自维基百科）

在这篇文章中，我们再分享 DDPM 的一种推导，它主要利用到了贝叶斯定理来简化计算，整个过程的“推敲”味道颇浓，很有启发性。不仅如此，它还跟我们后面将要介绍的 DDIM 模型 [1] 有着紧密的联系。

模型绘景

再次回顾，DDPM 建模的是如下变换流程：

其中，正向就是将样本数据逐渐变为随机噪声的过程，反向就是将随机噪声逐渐变为样本数据的过程，反向过程就是我们希望得到的“生成模型”。

正向过程很简单，每一步是

或者写成

。在约束之下，我们有

从而可以求出

，其中，而。

DDPM 要做的事情，就是从上述信息中求出反向过程所需要的，这样我们就能实现从任意一个出发，逐步采样出，最后得到随机生成的样本数据。

请贝叶斯

下面我们请出伟大的贝叶斯定理 [2]。事实上，直接根据贝叶斯定理我们有

然而，我们并不知道的表达式，所以此路不通。但我们可以退而求其次，在给定的条件下使用贝叶斯定理：

这样修改自然是因为

都是已知的，所以上式是可计算的，代入各自的表达式得到：

推导：上式的推导过程并不难，就是常规的展开整理而已，当然我们也可以找点技巧加快计算。首先，代入各自的表达式，可以发现指数部分除掉因子外，结果是：

它关于是二次的，因此最终的分布必然也是正态分布，我们只需要求出其均值和协方差。不难看出，展开式中项的系数是

所以整理好的结果必然是

的形式，这意味着协方差矩阵是。另一边，把一次项系数拿出来是

，除以后便可以得到

这就得到了的所有信息了，结果正是式（6）。

去噪过程

现在我们得到了，它有显式的解，但并非我们想要的最终答案，因为我们只想通过来预测，而不能依赖是我们最终想要生成的结果。接下来，一个“异想天开”的想法是：

如果我们能够通过来预测，那么不就可以消去中的，使得它只依赖于了吗？

说干就干，我们用来预估，损失函数为。训练完成后，我们就认为

在中，代表原始数据，代表带噪数据，所以这实际上在训练一个去噪模型，这也就是 DDPM 的第一个 “D” 的含义（Denoising）。

具体来说，

意味着，或者写成，这启发我们将参数化为

此时损失函数变为

省去前面的系数，就得到 DDPM 原论文所用的损失函数了。可以发现，本文是直接得出了从到的去噪过程，而不是像之前两篇文章那样，通过到的去噪过程再加上积分变换来推导，相比之下本文的推导可谓更加一步到位了。

另一边，我们将式（11）代入到式（10）中，化简得到

这就是反向的采样过程所用的分布，连同采样过程所用的方差也一并确定下来了。至此，DDPM 推导完毕～（提示：出于推导的流畅性考虑，本文的跟前两篇介绍不一样，反而跟 DDPM 原论文一致。）

推导：将式（11）代入到式（10）的主要化简难度就是计算

预估修正

不知道读者有没有留意到一个有趣的地方：我们要做的事情，就是想将慢慢地变为，而我们在借用近似时，却包含了“用来预估 ”这一步，要是能预估准的话，那就直接一步到位了，还需要逐步采样吗？

真实情况是，“用来预估 ”当然不会太准的，至少开始的相当多步内不会太准。它仅仅起到了一个前瞻性的预估作用，然后我们只用来推进一小步，这就是很多数值算法中的“预估-修正”思想，即我们用一个粗糙的解往前推很多步，然后利用这个粗糙的结果将最终结果推进一小步，以此来逐步获得更为精细的解。

由此我们还可以联想到Hinton三年前提出的《Lookahead Optimizer: k steps forward, 1 step back》[3]，它同样也包含了预估（k steps forward）和修正（1 step back）两部分，原论文将其诠释为“快（Fast）-慢（Slow）”权重的相互结合，快权重就是预估得到的结果，慢权重则是基于预估所做的修正结果。如果愿意，我们也可以用同样的方式去诠释 DDPM 的“预估-修正”过程～