Redian新闻
>
CVPR 2022 | 量化网络的反向求导拟合方法

CVPR 2022 | 量化网络的反向求导拟合方法

公众号新闻

©作者 | 刘泽春

单位 | Meta

研究方向 | 神经网络压缩与加速


今天来分享一个冷知识:量化网络的反向求导拟合方法。详细推导可以在我们今年的 CVPR 论文中找到:

论文标题:

Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via Generalized Straight-Through Estimation

论文链接:

https://arxiv.org/pdf/2111.14826.pdf

代码连接:

https://github.com/liuzechun/Nonuniform-to-Uniform-Quantization


Straight-through estimator(STE)是 quantization 中常见的求导方式。原因是 quantization 是一个离散的方程,无法计算它的导数,所以 STE 就简单粗暴地直接把输出的导数作为了对输入的导数:


▲ 图1

这个求导方式足够简单,效果也非常好,以至于它统治 quantization 领域很多年。我们今天就来深度理解一下这个 STE 求导背后的原理,看似简单的 STE 其实包含了概率统计的原理。为什么这么说呢,我们就从二值 quantization 切入。

▲ 图2

如图 2 所示,二值 quantization,把实数值量化成只用 {-1, 1} 两个值表示。通常二值化函数有两种量化模式:deterministic quantization(确定量化)和 stochastic quantization(随机量化)


Eq(1) 确定量化就是当实数值超过某个阈值(比如 0)时量化成 1,不到阈值时量化成 -1。

Eq(2) 随机量化就是在区间内(比如 [-1,1])以到区间两端的距离为概率,量化成 1 或者 -1。

这是正向传播过程,计算导数的时候,我们会发现这两种方式的导数其实变成了一样的。

确定量化用的是 STE,即在 [-1,1] 区间内,是一个直通函数:


而随机量化的导数则是把随机量化的概率期望作为反向传播时候的求导对象:


然后我们发现,这两者其实是是一样的。那么我们也就理解了 STE 为什么能行得通,因为 STE 本质上就是把概率量化的平均值作为确定量化的反向求导函数。

那么问题来了:这个有意思的发现能帮我们干什么呢?

我们在 N2UQ 论文中发现当我们把二值量化拓展到更高比特量化的时候,这个特性就可以帮我们推导出一些更 general 的 STE 方法。我们一直在思考的一个问题是,为什么 quantization 函数有那么多 levels,却只用一个 STE 显得不是很合理, 如果把这些 level 分别对应一个 STE 会发生什么呢?

▲ 图3

在 N2UQ 中我们就把量化函数看做了多段二值化函数的总和,从而,每一个二值化函数都可以用对应的概率量化的平均值计算确定量化反向求导的函数。

▲ 图4

通过这样一个非常符合直觉和数学推导的改进,我们可以轻松实现量化区间单独可学的量化方程,并且保证输出依旧是 uniform quantization(均匀量化),从而可以享有均匀量化的硬件友好性。这种更灵活的量化方式带来了更高的量化精度,(目前应该还是 state-of-the-art)。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2022彭博中国区量化大赛冠军风采:申万宏源金创量化衍拓队 | 策略分享CVPR 2022 | 清华&港中大提出:Glow模型助力黑盒对抗攻击只需一次向前推导,深度神经网络可视化方法来了!(ECCV Workshops 2022)广州科技创新母基金公布8家拟合作GP美丽与野性共存的冰川国家公园(2)高线步道的美丽,野性与挑战深入浅出详解张量自动求导机制2022彭博中国区量化大赛精彩回顾:中国农业银行知行致远团队量化选股策略与糖共舞—26传统招聘失灵,给HR的反向启示?Hinton最新研究:神经网络的未来是前向-前向算法|NeurIPS 2022特邀演讲停!风靡网络的 5 个产后瘦肚子动作,可能让你的肚子越来越大BatchFormer: 一种简单有效、即插即用的探索样本关系通用模块 (CVPR2022)上海交大副教授五年参禅:神经网络的简单偏好王啸@北京航空航天大学:图神经网络的“共性”与“个性”AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展CVPR 2022 Oral | LAS-AT: 一种基于可学习攻击策略的对抗训练新范式一种基于神经网络的策略,可增强量子模拟ECCV 2022 ScanRefer Challenge冠军方法!山大&美团联合提出端到端“火腿”网络, 性能首次突破40%!神经网络的简单偏好NeurIPS 2022 | Dropout中丢掉的位置真的都有助于缓解过拟合吗?CVPR 2022|达摩院开源低成本大规模分类框架FFC欧盟网络安全局发布《2022年网络安全威胁全景》报告【信息安全三分钟】2022.11.12TPAMI 2022 | 利用子图同构计数提升图神经网络的表达能力Dropout中丢掉的位置真的都有助于缓解过拟合吗?李易峰丁丁历险记触摸美国 55 游艇梦TPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器放弃大厂Offer,我在巴西孵化网红EMNLP 2022 | 基于视角转换的反事实数据增强方法放弃大厂Offer!我在巴西孵化网红十五的月亮十六圆(歌)新州政府被指应对Delta疫情不足,保密要求导致决策延误!悉尼遭高传染性变种入侵,社区未及时得到支持!解决神经网络的百年难题,MIT新模型Liquid CfC让模拟大脑动力学成为可能CVPR 2022 | LAS-AT:一种基于可学习攻击策略的对抗训练新范式Hinton 最新研究:神经网络的未来是前向-前向算法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。