生成扩散模型漫谈：最优扩散方差估计（下）

2022-10-10 05:10

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在上一篇文章《生成扩散模型漫谈：最优扩散方差估计（上）》中，我们介绍并推导了 Analytic-DPM 中的扩散模型最优方差估计结果，它是直接给出了已经训练好的生成扩散模型的最优方差的一个解析估计，实验显示该估计结果确实能有效提高扩散模型的生成质量。

这篇文章我们继续介绍 Analytic-DPM 的升级版，出自同一作者团队的论文《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》[1]，在官方 Github 中被称为“Extended-Analytic-DPM”，下面我们也用这个称呼。

结果回顾

上一篇文章是在 DDIM 的基础上，推出 DDIM 的生成过程最优方差应该是

其中是分布的方差，它有如下的估计结果（这里取“方差估计2”的结果）：

事后来看，其实估计思路也不算难，假设

已经准确预测了分布的均值向量，那么根据定义可以得到协方差为

两端对求平均，以消除对的依赖

最后，对角线元素取平均，使其变为一个标量（或者说协方差是单位阵的倍数），即，便可得到估计式（2）。

如何改进

在正式介绍 Extended-Analytic-DPM 之前，我们可以先想想，Analytic-DPM 还有什么改进空间？

其实稍加思考就可以发现很多，比如 Analytic-DPM 假设用来逼近的正态分布协方差矩阵设计为为，即对角线元素相同的对角阵，那么一个直接的改进就是允许对角线元素互不相同了，即，这里约定向量的乘法都是基于 Hadamard 积进行，比如。对应的结果就是只考虑的对角线部分，所以从式（5）出发，可以得到相应的估计是

其中是维全 1 向量。还有一个更进一步的改进是保留的依赖关系，即考虑，这就跟类似，需要用一个以为输入的模型来学习它。

那么可不可以考虑完整的呢？理论上可以，实际上基本不可行，因为完整的是一个矩阵，对于图片场景来说，是图片的总像素个数，即便是对于 cifar10 来说也已经有了，更不用说更高分辨率的图片。所以结合实验背景，矩阵在储存和计算上的成本都过大了。

除此之外，可能有一个问题不少读者都没意识到，就是前面的解析解推导都依赖于

，事实上是由模型学习出来的，它未必能够精确等于均值，这就是 Extended-Analytic-DPM 的论文标题所提到的 Imperfect Mean 的含义。如果在 Imperfect Mean 下改进估计结果，更加有实践意义。

最大似然

假设均值模型已经事先训练好，那么待定分布的参数就只剩下了，对应的负对数似然为

可以解得取最小值正好由

它的特点是未必是准确的均值结果，因此式（4）的第二个等号不成立，只能成立第一个等号。将式（3）代入，得到

当然，这里只分析了协方差矩阵为的简单情形，我们也可以考虑更一般的对角阵协方差，即

，对应的结果是

条件方差

如果想要得到带条件的协方差，那么就相当于每个分量独立计算，结果是免除了这一步平均：

其中。跟上一篇文章一样，利用

得到

这就是 Extended-Analytic-DPM 中学习条件方差的 “NPR-DPM” 方案。另外，原论文还提了个 “SN-DPM” 方案，它是基于 Perfect Mean 假设而不是 Imperfect Mean 的。然而论文的实验结果却是 SN-DPM 要优于 NPR-DPM，也就是说论文号称自己在解决 Imperfect Mean 问题，结果实验显示 Perfect Mean 假设的方案更好，这就反过来说明 Perfect Mean 假设其实很贴合实践情况，换句话说 Imperfect Mean 问题可以视为不存在了。

两个阶段

可能读者有疑问，一开始不是说《Improved Denoising Diffusion Probabilistic Models》[2] 的可学习方差增加了训练难度吗？那 Extended-Analytic-DPM 为啥又重新去做可训练的方差模型呢？

我们知道，DDPM 提供了方差的两种方案和，这两种简单方案的效果其实已经相当不错了。这侧面说明，更精细地调整方差对生成结果的影响不大（至少对于完整的步扩散是这样），主要的还是的学习，方差只是“锦上添花”的作用。如果将方差视为可学习参数或者模型，跟均值模型一同学习，那么随着训练过程变化的方差就会严重干扰均值模型的学习过程，违反了“ 为主、方差为辅”的原则。

Extended-Analytic-DPM 的聪明之处在于，它提出了两阶段的训练方案，即用原始固定方差的测试训练好均值模型，然后固定该模型，并重用该模型的大部分参数来学一个方差模型，这样一来反而“一举三得”：

一、降低了参数量和训练成本；

二、允许重用已经训练好的均值模型；

三、训练过程更加稳定。

个人思考

到这里，Extended-Analytic-DPM 的介绍就基本完成了。有心的读者可能会感觉到，如果说上一篇 Analytic-DPM 的结果给人“惊艳”之感，那么这一篇 Extended-Analytic-DPM 就显得中规中矩，没什么太动人心弦的地方。可以说，Extended-Analytic-DPM 就是 Analytic-DPM 的平凡推广，尽管实验结果显示它还是能带来不错的提升，但总体而言给人的感觉就是很平淡了。当然，大体上是因为 Analytic-DPM “珠玉在前”，对比之下才显得它暗淡一些，本身也算是一篇比较扎实的工作。

此外，前面我们已经提到，实验结果显示，基于 Perfect Mean 假设的 SN-DPM，效果要比基于 Imperfect Mean 假设的 NPR-DPM 要好，同时这一结果也使得原论文的标题有点“名不副实”了——既然实验显示 Perfect Mean 假设的方案更好，反过来意味着 Imperfect Mean 问题可以视为不存在了。原论文并没有对此结果做进一步的分析和评价，笔者想会不会跟方差估计的有偏性有关？大家知道，直接用 “除以 ” 的公式去估计方差是有偏的，而 NPR-DPM 正是基于它来操作的，相比之下 SN-DPM 则是直接取估计二阶矩，二阶矩的估计是无偏的。总感觉有点道理，但也不能完全说通，有点迷～

最后，不知道读者会不会跟笔者一样有个疑问：在给定的前提下，为什么不直接用像式（7）的负对数似然为损失函数来学习方差，而是要重新设计 NPR-DPM 或 SN-DPM 这两种 MSE 形式的 loss？MSE 形式的 loss 有什么特别的好处吗？笔者暂时也没想到答案。