梯度流（Gradient Flow）：探索通往最小值之路

2023-07-06 15:07

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在这篇文章中，我们将探讨一个被称为“梯度流（Gradient Flow）”的概念。简单来说，梯度流是将我们在用梯度下降法中寻找最小值的过程中的各个点连接起来，形成一条随（虚拟的）时间变化的轨迹，这条轨迹便被称作“梯度流”。在文章的后半部分，我们将重点讨论如何将梯度流的概念扩展到概率空间，从而形成“Wasserstein 梯度流”，为我们理解连续性方程、Fokker-Planck 方程等内容提供一个新的视角。

梯度下降

假设我们想搜索光滑函数的最小值，常见的方案是梯度下降（Gradient Descent），即按照如下格式进行迭代：

如果关于是凸的，那么梯度下降通常能够找到最小值点；相反，则通常只能收敛到一个“驻点”——即梯度为 0 的点，比较理想的情况下能收敛到一个极小值（局部最小值）点。这里没有对极小值和最小值做严格区分，因为在深度学习中，即便是收敛到一个极小值点也是很难得的了。

如果将记为，将，那么考虑的极限，那么式（1）将变为一个 ODE：

求解这个 ODE 所得到的轨迹，我们就称为“梯度流（Gradient Flow）”，也就是说，梯度流是梯度下降在寻找最小值过程中的轨迹。在式（2）成立前提下，我们还有：

这就意味着，只要，那么当学习率足够小时，梯度下降总能往让变小的方向前进。

更多相关讨论，可以参考之前的优化算法系列，如《从动力学角度看优化算法：从SGD到动量加速》、《从动力学角度看优化算法：一个更整体的视角》等。

最速方向

为什么要用梯度下降？一个主流的说法是“梯度的负方向是局部下降最快的方向”，直接搜这句话就可以搜到很多内容。这个说法不能说错，但有点不严谨，因为没说明前提条件——“最快”的“最”必然涉及到定量比较，只有先确定比较的指标，才能确定“最”的结果。

如果只关心下降最快的方向的话，梯度下降的目标应该是：

假设一阶近似够用，那么有

等号成立的条件是

可以看到，更新方向正好是梯度的负方向，所以说它是局部下降最快的方向。然而，别忘了这是在约束条件下得到的，其中是欧氏空间的模长，如果换一个模长的定义，或者干脆换一个约束条件，那么结果就不一样了。所以，严谨来说应该是“在欧氏空间中，梯度的负方向是局部下降最快的方向”。

优化视角

式（4）是一个带约束优化，推广和求解起来都会比较麻烦。此外，式（4）的求解结果是式（6），也不是原始的梯度下降（1）。事实上，可以证明式（1）对应的优化目标是

也就是说，将约束当成惩罚项加入到优化目标，这样就不用考虑求解约束，也容易推广。当足够小时，第一项占主导，因此需要足够小时第一项才会变得足够小，即最优点应该是很接近的，于是我们可以在处将展开，得到

此时只是一个二次函数最小值问题，求解结果正是式（1）。

很明显，除了模长平方外，我们还可以考虑别的正则项，从而形成不同的梯度下降方案。比如，自然梯度下降（Natural Gradient Descent）使用的是 KL 散度作为正则项：

其中是某个与相关的概率分布。为了求解上式，同样在处进行展开，同样展开到一阶，但是 KL 散度比较特殊，它展开到一阶还是零（参考这里），所以至少要展开到二阶，总的结果是

这里的是 Fisher 信息矩阵 [1]，计算细节就不展开了，过程也可以参考这里。现在上式本质上也是二次函数的最小值问题，结果为

这就是所谓的“自然梯度下降”。

泛函入门

式（7）不仅可以将正则项一般化，还可以将求解目标一般化，比如推广到泛函。

“泛函”看起来让人“犯寒”，但事实上对于本站的老读者来说应该接触多次了。简单来说，普通多元函数就是输入一个向量，输出一个标量，泛函则是输入一个函数，输出一个标量，比如定积分运算：

对于任意一个函数，的计算结果就是一个标量，所以就是一个泛函。又比如前面提到的 KL 散度，它定义为

这里积分默认为全空间积分，如果固定，那么它就是关于的泛函，因为是一个函数，输入一个满足条件的函数，将输出一个标量。更一般地，《f-GAN简介：GAN模型的生产车间》所介绍的 f 散度，也是泛函的一种，这些都是比较简单的泛函，更负责的泛函可能包含输入函数的导数，如理论物理的最小作用量 [2]。

下面我们主要关注的泛函的定义域为全体概率密度函数的集合，即研究输入一个概率密度、输出一个标量的泛函。

概率之流

假如我们有一个泛函，想要计算它的最小值，那么模仿梯度下降的思路，只要我们能求出它的某种梯度，那么就可以沿着它的负方向进行迭代。

为了确定迭代格式，我们沿着前面的思考，考虑推广式（7），其中自然是替换为，那么第一项正则应该替换成什么呢？在式（7）中它是欧氏距离的平方，那么很自然想到这里也应该替换为某种距离的平方，对于概率分布来说，性态比较好的距离是 Wasserstein 距离（准确来说是“2-Wasserstein距离”）：

关于它的介绍，这里就不详细展开了，有兴趣的读者请参考《从Wasserstein距离、对偶理论到WGAN》。如果进一步将式（7）中的欧氏距离替换为 Wasserstein 距离，那么最终目标就是

很抱歉，笔者没法简明给出上述目标的求解过程，甚至笔者自己也没完全理解它的求解过程，只能根据《Introduction to Gradient Flows in the 2-Wasserstein Space》[3]、《{Euclidean, Metric, and Wasserstein} Gradient Flows: an overview》[4] 等文献，直接给出它的求解结果为

或者取极限后得到

这就是 “Wasserstein 梯度流（Wasserstein Gradient Flow）”，其中是的变分导数，对于定积分泛函来说，变分导数就是被积函数的导数：

一些例子

根据《f-GAN简介：GAN模型的生产车间》，散度的定义为

将固定，设，那么得到

其中。根据《测试函数法推导连续性方程和Fokker-Planck方程》[5] 的内容，上式具备连续性方程的形式，所以通过 ODE

可以实现从分布中采样，而根据前面的讨论，式（20）是最小化的散度的 Wasserstein 梯度流，当时散度为零，即，所以时，上述 ODE 实现了从分布采样。不过，这个结果目前来说只有形式上的意义，并没有实际作用，因为这意味着我们要知道分布的表达式，还要从式（20）中解出的表达式，然后才能算出 ODE 右端式子，从而完成采样，这个计算难度非常大，通常是没法完成的。

一个相对简单的例子是（逆）KL 散度，此时，代入式（20）得到