CVPR 2022 | 量化网络的反向求导拟合方法

公众号新闻

2022-11-10 06:11

©作者 | 刘泽春

单位 | Meta

研究方向 | 神经网络压缩与加速

今天来分享一个冷知识：量化网络的反向求导拟合方法。详细推导可以在我们今年的 CVPR 论文中找到：

论文标题：

Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via Generalized Straight-Through Estimation

论文链接：

https://arxiv.org/pdf/2111.14826.pdf

代码连接：

https://github.com/liuzechun/Nonuniform-to-Uniform-Quantization

Straight-through estimator（STE）是 quantization 中常见的求导方式。原因是 quantization 是一个离散的方程，无法计算它的导数，所以 STE 就简单粗暴地直接把输出的导数作为了对输入的导数：

▲ 图1

这个求导方式足够简单，效果也非常好，以至于它统治 quantization 领域很多年。我们今天就来深度理解一下这个 STE 求导背后的原理，看似简单的 STE 其实包含了概率统计的原理。为什么这么说呢，我们就从二值 quantization 切入。

如图 2 所示，二值 quantization，把实数值量化成只用 {-1, 1} 两个值表示。通常二值化函数有两种量化模式：deterministic quantization（确定量化）和 stochastic quantization（随机量化）

Eq(1) 确定量化就是当实数值超过某个阈值（比如 0）时量化成 1，不到阈值时量化成 -1。

Eq(2) 随机量化就是在区间内（比如 [-1,1]）以到区间两端的距离为概率，量化成 1 或者 -1。

这是正向传播过程，计算导数的时候，我们会发现这两种方式的导数其实变成了一样的。

确定量化用的是 STE，即在 [-1,1] 区间内，是一个直通函数：

而随机量化的导数则是把随机量化的概率期望作为反向传播时候的求导对象：

然后我们发现，这两者其实是是一样的。那么我们也就理解了 STE 为什么能行得通，因为 STE 本质上就是把概率量化的平均值作为确定量化的反向求导函数。

那么问题来了：这个有意思的发现能帮我们干什么呢？

我们在 N2UQ 论文中发现当我们把二值量化拓展到更高比特量化的时候，这个特性就可以帮我们推导出一些更 general 的 STE 方法。我们一直在思考的一个问题是，为什么 quantization 函数有那么多 levels，却只用一个 STE 显得不是很合理，如果把这些 level 分别对应一个 STE 会发生什么呢？