生成扩散模型漫谈：一般框架之SDE篇

2022-08-14 13:08

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在写生成扩散模型的第一篇文章时，就有读者在评论区推荐了宋飏博士的论文《Score-Based Generative Modeling through Stochastic Differential Equations》[1]，可以说该论文构建了一个相当一般化的生成扩散模型理论框架，将 DDPM、SDE、ODE 等诸多结果联系了起来。诚然，这是一篇好论文，但并不是一篇适合初学者的论文，里边直接用到了随机微分方程（SDE）、Fokker-Planck 方程、得分匹配等大量结果，上手难度还是颇大的。

不过，在经过了前四篇文章的积累后，现在我们可以尝试去学习一下这篇论文了。在接下来的文章中，笔者将尝试从尽可能少的理论基础出发，尽量复现原论文中的推导结果。

随机微分

在 DDPM 中，扩散过程被划分为了固定的步，还是用《生成扩散模型漫谈：DDPM = 拆楼 + 建楼》的类比来说，就是“拆楼”和“建楼”都被事先划分为了步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。

为此，我们用下述 SDE 描述前向过程（“拆楼”）：

相信很多读者都对 SDE 很陌生，笔者也只是在硕士阶段刚好接触过一段时间，略懂皮毛。不过不懂不要紧，我们只需要将它看成是下述离散形式在时的极限：

再直白一点，如果假设拆楼需要天，那么拆楼就是从到的变化过程，每一小步的变化我们可以用上述方程描述。至于时间间隔，我们并没有做特殊限制，只是越小的意味着是对原始 SDE 越好的近似，如果取，那就对应于原来的，如果是则对应于，等等。也就是说，在连续时间的 SDE 视角之下，不同的是 SDE 不同的离散化程度的体现，它们会自动地导致相似的结果，我们不需要事先指定，而是根据实际情况下的精确度来取适当的 T 进行数值计算。

所以，引入 SDE 形式来描述扩散模型的本质好处是“将理论分析和代码实现分离开来”，我们可以借助连续性 SDE 的数学工具对它做分析，而实践的时候，则只需要用任意适当的离散化方案对 SDE 进行数值计算。

对于式（2），读者可能比较有疑惑的是为什么右端第一项是的，而第二项是的？也就是说为什么随机项的阶要比确定项的阶要高？这个还真不是那么容易解释，也是 SDE 比较让人迷惑的地方之一。简单来说，就是一直服从标准正态分布，如果随机项的权重也是，那么由于标准正态分布的均值为、协方差为，临近的随机效应会相互抵消掉，要放大到才能在长期结果中体现出随机效应的作用。

逆向方程

用概率的语言，式（2）意味着条件概率为：

简单起见，这里没有写出无关紧要的归一化因子。按照 DDPM 的思想，我们最终是想要从“拆楼”的过程中学会“建楼”，即得到，为此，我们像《生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪》一样，用贝叶斯定理：

不难发现，当足够小时，只有当足够接近时，才会明显不等于 0，反过来也只有这种情况下才会明显不等于 0。因此，我们只需要对与足够接近时的情形做近似分析，为此，我们可以用泰勒展开：

注意不要忽略了项，因为实际上是“ 时刻随机变量等于的概率密度”，而实际上是“ 时刻随机变量等于的概率密度”，也就是说实际上同时是和的函数，所以要多一项的偏导数。代入到式（4）后，配方得到：

当时，不起作用，因此：

即近似一个均值为

、协方差为的正态分布，取的极限，那么对应于 SDE：

这就是反向过程对应的 SDE，最早出现在《Reverse-Time Diffusion Equation Models》[2] 中。这里我们特意在处标注了下标，以突出这是时刻的分布。

得分匹配

现在我们已经得到了逆向的 SDE 为（8），如果进一步知道，那么就可以通过离散化格式：

来逐步完成“建楼”的生成过程【其中】，从而完成一个生成扩散模型的构建。

那么如何得到呢？时刻的就是前面的，它的含义就是时刻的边缘分布。在实际使用时，我们一般会设计能找到解析解的模型，这意味着：

是可以直接求出的，比如当是关于的线性函数时，就可以解析求解。在此前提下，有：

于是：

可以看到最后的式子具有“ 的加权平均”的形式，由于假设了有解析解，因此上式实际上是能够直接估算的，然而它涉及到对全体训练样本的平均，一来计算量大，二来泛化能力也不够好。因此，我们希望用神经网络学一个函数，使得它能够直接计算。

很多读者应该对如下结果并不陌生（或者推导一遍也不困难）：

也就是说，要让等于的均值，只需要最小化的均值。同样地，要让等于的加权平均【即】，则只需要最小化

的加权平均，即：

分母的只是起到调节 Loss 权重的作用，简单起见我们可以直接去掉它，这不会影响最优解的结果。最后我们再对积分（相当于对于每一个都要最小化上述损失），得到最终的损失函数：

这就是“（条件）得分匹配”的损失函数，之前我们在《从去噪自编码器到生成模型》推导的去噪自编码器的解析解，也是它的一个特例。得分匹配的最早出处可以追溯到 2005 年的论文《Estimation of Non-Normalized Statistical Models by Score Matching》[3]，至于条件得分匹配的最早出处，笔者追溯到的是 2011 年的论文《A Connection Between Score Matching and Denoising Autoencoders》[4]。

不过，虽然该结果跟得分匹配是一样的，但其实在这一节的推导中，我们已经抛开了“得分”的概念了，纯粹是由目标自然地引导出来的答案，笔者认为这样的处理过程更有启发性，希望这一推导能降低大家对得分匹配的理解难度。