Redian新闻
>
大规模神经网络优化:神经网络损失空间“长”什么样?

大规模神经网络优化:神经网络损失空间“长”什么样?

公众号新闻

©作者 | 郑奘巍

单位 | 新加坡国立大学

研究方向 | 高效机器学习、神经网络优化



We should use the special structure properties of f(for example f is a given by a neural network)to optimize it faster, instead of purely relying on optimization algorithms. 

― Yuanzhi Li


Adam 虽然称作”通用“优化算法,虽然在大语言模型等 Transformer 架构上表现的好,但它也并不是万能的,在视觉模型的泛化性,以及一些凸问题上收敛的表现都没有 SGD 要好。正如本篇开头所引,我们要关注特殊网络结构的特殊性质(比如 Transformer)。


如何刻画网络的优化性质呢?在优化相关的论文中,通常通过分析 Hessian 矩阵及其特征值,或者将损失函数进行一维或二维的可视化来分析网络的优化性质。我们希望这些指标能够帮助我们更好的理解网络损失的 landscape,优化器优化轨迹的性质等等。我们希望将这些指标刻画的性质与优化器的设计关联起来。我们也希望找到合适的指标来反应随着网络参数、数据量、批量大小等参数的变化,网络的优化性质如何变化「R1」。


本文讨论的方向如果有新的动向,也会持续更新。如果有任何错误/问题/讨论,欢迎在评论区留言。



Hessian 阵

大量对神经网络损失空间的研究都是基于 Hessian 阵的。Hessian 阵是损失函数的二阶导数。由于 Hessian 阵是实对称矩阵,可以应用特征分解。它的特征值和特征向量可以帮助我们理解损失函数的 landscape。这里我们不太严谨的介绍一些优化文章中常见的概念。

1.1 常见概念

Curvature 曲率:数学定义为一点处密切圆弧的半径的倒数,它刻画了函数与直线的差距。在梯度为 0 的点时,Hessian 阵行列式为曲率。


Eigenvalue 特征值:Hessian 阵的特征值越大,对应的特征向量(Eigenvector)方向就越陡(凸性越强)。最大特征值对应的方向为最大曲率的方向。如果考虑以特征向量对应方向的单位向量作为基张成的空间,该空间称为特征空间 Eigenspace,对应的单位向量为 Eigenbasis。


Conditioning number 条件数:Hessian 阵的最大特征值与最小特征值的比值。条件数越大,系统越不稳定。


Axis-aligned 坐标轴对齐:Hessian 阵的特征向量是否与坐标轴平行。


Smoothness 光滑(一般指 Lipschitz 梯度条件)如果是二阶可导凸函数,则有 。即 Smoothness 限制了 Hessian 阵特征值的大小(和变化幅度的上限),不能大于

Strong Convexity 强凸性:虽然神经网络一般都是非凸优化,但这里我们引入凸性用以和光滑对应,以便于理解。强凸性的定义为 。即 Strong Convexity 限制了 Hessian 阵特征值的大小(和变化幅度的下限),不能小于 m。

Sharpness / Flatness 平坦程度:对 Hessian 特征谱分布情况的描述。Sharp 指 Hessian 阵特征值含有大量大值,Flat 指 Hessian 阵特征值含有大量小值(绝大部分接近 0)。另一种定义方法是直接将 Sharpness 定义为最大的特征值 。Hessian 阵退化(degenerate)/ 奇异(singular)/ 低秩 / 线性相关是 Flat 的一种表现。通常收敛点平坦有利于泛化性能(Hessian 阵是实对称矩阵,特征值和奇异值相等)。

常见地形(terrain, landscape):


驻点(stationary point),临界点(critical point): 


  • 鞍点:H 非正定的驻点

  • plateaus:平坦地,拥有小曲率的平面

  • basins:盆地,局部最优点的集合

  • wells:井,鞍点的集合


局部的泰勒展开到二阶:

1.2 费雪信息

Fisher information matrix 费雪信息:

  • 费雪信息总是对称半正定阵。由于 ,所以 Fisher information (二阶矩)衡量了不同样本对应导数的方差()。
  • ,所以 Fisher information 同时是使用 log-likelihood 衡量的函数的 Hessian 阵的期望。证明可参考此处:https://mark.reid.name/blog/fisher-information-and-log-likelihood.html

  • 分类模型建模的分布是 。在训练初期,网络的输出 与真实分布的差距很大。如果根据网络输出的标签采样,可以得到对应分布的 Hessian 阵(半正定)但并不是我们关心的真实分布的 Hessian 阵。
  • 当模型分布与真实分布的差距很小时,Fisher information 可以近似为 Hessian 阵的期望。

1.3 Gauss-Newton 阵

Gauss-Newton decomposition:记神经网络输出为 ,其中 为损失函数,则网络的黑塞阵有如下分解。以一维 f 为例,高维可参考此处:

https://andrew.gibiansky.com/blog/machine-learning/gauss-newton-matrix/

通过链式法则即可证明。这里的第一项被称作 Gauss-Newton 阵,它衡量了由于网络特征 的变动贡献的 Hessian 阵值。第二项则是由于输入值的变动贡献的 Hessian 阵值。由于第二项通常很小,所以我们可以近似认为黑塞阵由 Gauss-Newton 阵决定。通过变形,我们可以得到 Gauss-Newton 阵的另一种形式,衡量了样本的带权二阶矩。可见 Gauss-Newton 阵与 Fisher information 有着密切的联系。



临界点的数量与性质

为了更直观的理解,不会介绍太多理论推导。讨论网络优化性质的文章往往观点鲜明,不少文章得出的结论甚至是相互矛盾。从今天的视角往前看,我们主要介绍目前被广泛接受的观点。但也要注意,部分结论是在 CNN,MLP,LSTM 上用监督学习进行,对应的是 over-paramterized 网络(参数量远大于数据量)。目前的 LLM 则一定程度是 under-parameterized 网络。


1. 局部最优点的数量随着网络参数的增加而指数级增加,但不同局部最优点的训练损失相差不大


[AHW96] 用单神经元网络说明了局部最优点的数量随着网络参数的增加而指数级增加。LeCun 引领的一系列工作 [CHM+14,CLA15,SGA15,K16] 使用 spin-glass 物理模型阐释了简化的神经网络中差局部最优解随着模型参数增大指数级减小,以及局部最优解附近相当平坦。[DY16] 则证明了多层神经网络中相似的结论。


[SEG+18] 中提到,在全连接层中交换任意两个神经元可以得到等价的神经网络。这个性质让随机初始化的网络可能收敛到非常不同的局部最优值。[DVS18] 则用过实验发现,不同的局部最小值之间可以通过平坦的路径相连。[KWL+20] 同样支持了这点:任意两个局部极小值之间都可以通过一条不会太”扭曲“的路径相连,这条路径上的损失最多比局部最优处的损失高一点。

2. 鞍点的数量比上局部最优点的数量随着网络参数的增加而指数级增加


[DPG+14] 理论分析了鞍点数量和局部最优点数量的比例随着网络参数的增加而指数级增加,同时鞍点通常被 plateaus 所包围。[LSJ+16] 则通过理论分析补充,训练时不会陷入鞍点,但是会减慢速度。[CHM+14] 同意该看法,并认为训练神经网络的过程可以看作避开鞍点,并通过选择鞍点的一端从而打破“对称性”的过程。在鞍点处优化器的选择会影响到最终收敛点的性质。


3. Hessian 的低秩性质


[SBL17,SEG+18] 通过计算 CNN 网络训练时的特征谱,发现 Hessian 阵特征值谱分布特点:


  • 在训练初期,Hessian 特征值以 0 为中心对称分布。随着训练进行不断向 0 集中,H 退化严重。训练末期极少量小于 0。
  • 接近收敛时 Hessian 特征谱分为两部分,大量接近 0,离群点远离大部分特征值,离群点的数量接近于训练数据中的类别数量(或聚类数量)。即 Hessian 阵此时是低秩的。
  • 数据不变的情况下,增大参数仅仅使 Hessian 阵接近 0 的部分更宽;参数不变的情况下,数据量的变化会改变 Hessian 阵特征谱的离群点。
  • 参数量越大,批量大小越小,训练结束时 Hessian 阵特征值的负值越多(但总体比例都很小。[BKX19] 补充,在训练早期 Hessian 阵就会变得基本没有负值。


[DVS18,BKX19] 同样发现了离群点数量(近似 Hessian 阵的秩)与分类任务中的类别数量相关。最近的一篇工作 [SHS23] 则说明,CNN 中 Hessian 阵的秩随着参数增加而增大。[SKV20] 分析了每层的 Hessian 特征值谱,发现与整个网络的 Hessian 特征值谱相似。


[GRD18] 则进一步描绘了整个训练过程中的低秩现象:Hessian 最大的几个特征值对应的特征向量张成的子空间尽管会变化,但变化程度不大。训练的梯度会很快的进入到这个子空间中,但在这个子空间中并没有什么规律。故整个神经网络的训练似乎是发生在一个低维的子空间上的。


4. Gauss-Newton 阵可以近似 Hessian 阵


[SEG+18,SKV20] 都指出了这一点。实验如图所示。Sophia 等二阶优化器正是利用了这点进行对角黑塞阵的计算。[LGZ+19,P19] 则验证了梯度的二阶矩的大特征值与 Hessian 阵的大特征值近似。

▲ [LGZ+19] 不同层以及整个网络 Hessian 阵与 Gauss-Newton 阵特征值分布对比

5. 平坦的收敛点具有更好的泛化性,大的批量容易收敛到 sharp 的收敛点


[KMN+17] 指出 Flat minima 有利于泛化,大批量训练容易收敛到 sharp minima,小批量训练容易收敛到 flat minima。[SEG+18] 同意这一点,但反对 [KMN+17] 中认为 flat minima 和 sharp minima 被 well 分割开。通过实验证明能够从 sharp minima 平坦的“走”到 flat minima。[YGL+18] 分析了不同批量大小收敛点的 Hessian 特征谱,发现了相同的结论。


一般认为平坦的损失空间,既有利于优化算法的梯度下降,得到的收敛点性质也会更好。故很多文章从该角度解释网络设计的成功原因。譬如残差链接,BN,更宽的网络(over-paramterized)都有助于让损失空间更平滑。



优化路径性质

这里先介绍两篇近期的工作,之后有机会再补充。


[LBZ+21] 沿着前人的工作,探讨了初始权重与训练完成后的权重,两者插值得到的一系列权重的性质。可以看到不同初始化的网络权重往往收敛到同一个盆地。虽然与训练路径不同,插值路径也是单调递减,没有凸起的现象。

[GGG+21] 讨论了好的优化路径(通过模型设计如增加 BN 或者选择好的优化超参)应该让优化器快速进入到平坦的区域,从而能够使用较大的学习率。本文选择观察 即最大的特征值以衡量网络的 sharpness。文章发现网络初始化方法,Warmup,BatchNorm 等方法都有效的减小了 ,从而可以使用更高的学习率。作者通过实验发现,SGD 算法能够稳定收敛的条件是 和学习率的乘积应该小于 2。(由于 Hessian 最小的值接近 0,所以控制 也可以看做控制 Hessian 阵的条件数)

▲ [GGG+21] 左:不同学习率下不同方法的表现;右:最大特征值和学习率的变化

[PL23] 工作则是将优化器每步进行分解。根据局部泰勒展开,作者定义 gradient correlation 和 directional sharpness 两项:

▲ [PL23] 函数的单次更新的泰勒展开


作者发现,不同的优化器的 direction sharpness 的表现很不相同。Sharpness 刻画的是一个点局部的平坦程度,而 directional sharpness 则刻画了优化方向上的平坦程度。在语言模型上,作者发现 SGD 优化器的 direction sharpness 显著高于 Adam 优化器。作者认为这是 Adam 优化器收敛速度快的原因。作者还通过梯度的值裁剪进一步减小 Sharpness 程度,从而加速收敛。

▲ [PL23] 不同方法的 directional sharpness 对比

我们已经知道收敛点是需要越平坦泛化性越好的。但从这两篇文章中可以看到,我们希望优化路径始终能够在平坦的区域探索。以往的文章会认为这些区域可能会导致优化陷入鞍点,但目前看来,优化空间中存在大量这样平坦的空间,优化器应该在这些较为平坦的空间中“大踏步”的进行探索。



Transformer 优化性质

前面的分析都是比较泛化的,为了更好的设计针对 Transformer 的优化器,我们还需要分析 Transformer 的特殊性质。比如文章 [LLG+20] 就指出了 Transformer 训练时的一些困难。同样的,Adam 在 Transformer 上表现显著好于 SGD,也暗示了 Transformer 的优化性质与 CNN 等网络不同。


Transformer 的分析文章很多都是对模型设计的分析,如果有机会,我会单独写一篇文章进行介绍。这里只介绍一篇最近的工作 [LYB+23],以补完本节的完整性。


该工作用大量实验揭示了非常直接但有趣的一个现象:Transformer 架构的激活层非常的稀疏。在 T5-Base 中,只有 3% 的神经元被激活了(ReLU 输出值非 0)。并且增大模型会使其更加稀疏,以及和数据似乎无关。无论使用视觉还是语言,甚至是随机数据,以及不重复的数据,都有该现象出现。作者简单的讨论了这种现象可能和优化动力学相关。笔者认为这个现象可能会给 Transformer 的优化器设计一些启示。

▲ [LYB+23] 激活值的稀疏性现象


参考文献

[AHW96] Exponentially many local minima for single neurons

[CHM+14] The Loss Surfaces of Multilayer Networks
[CLA15] Open Problem: The landscape of the loss surfaces of multilayer networks
[SGA15] Explorations on High Dimensional Landscapes
[DY16] No bad local minima: Data independent training error guarantees for multilayer neural networks
[K16] Deep Learning without Poor Local Minima
[SEG+18] Empirical Analysis of the Hessian of Over-Parametrized Neural Networks
[DVS18] Essentially No Barriers in Neural Network Energy Landscape
[DPG+14] Identifying and attacking the saddle point problem in high-dimensional non-convex optimization
[LSJ+16] Gradient Descent Converges to Minimizers
[SBL17] Eigenvalues of the Hessian in Deep Learning: Singularity and Beyond
[KWL20] Explaining Landscape Connectivity of Low-cost Solutions for Multilayer Nets
[GRD18] Gradient Descent Happens in a Tiny Subspace
[SKV20] A Deeper Look at the Hessian Eigenspectrum of Deep Neural Networks and its Applications to Regularization
[LGZ+19] Hessian based analysis of SGD for Deep Nets: Dynamics and Generalization
[P19] Measurements of Three-Level Hierarchical Structure in the Outliers in the Spectrum of Deepnet Hessians
[SHS23] The Hessian perspective into the Nature of Convolutional Neural Networks
[KMN+17] On large-batch training for deep learning generalization gap and sharp minima
[YGL+18] Hessian-based Analysis of Large Batch Training and Robustness to Adversaries
[GGG+21] A Loss Curvature Perspective on Training Instability in Deep Learning
[PL23] Toward Understanding Why Adam Converges Faster Than SGD for Transformers
[LLG+20] Understanding the Difficulty of Training Transformers
[LYB+23] The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers
[LBZ+21] Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头图神经网络(GNN)经典论文与代码讲解课程!科研上新 | 语言-音乐对比预训练;查找表实现的神经网络推理;大模型时代重新定义搜索框架让建筑“长”满真菌,竟然能防火网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展“自发热内裤”什么鬼?火了!3秒驱寒升温,姨妈痛都没了!Python实战 | 使用 Python 和 TensorFlow 构建卷积神经网络(CNN)进行人脸识别特斯拉官方解释:FSD不使用高清地图,靠的是神经网络和海量数据Npj Comput. Mater.: 释放神经网络的力量:解决声子输运问题Nature:神经网络“举一反三”能力甚至超人类极致性能优化:前端SSR渲染利器Qwik.js马斯克机器人大进化!全新技能解锁,启用端到端神经网络图神经网络的底层数学原理总结“​喵星人长得很潦草是什么体验??”什么灵魂画手!一百四十八 秋韵港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐6013 血壮山河之随枣会战 南昌之战 699%依赖神经网络!特斯拉FSD重大更新,V12到底有什么不一样?游绍兴东湖Npj Comput. Mater.: 生成式对抗神经网络:逆向设计金属玻璃NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法TransformerScience:神经再生获突破,脊髓损伤瘫痪后重新行走成为可能能找神经网络Bug的可视化工具,Nature子刊收录北京大学黄铁军、杜凯团队在《自然·通讯》发表生物神经网络精细仿真算法并证明理论最优!NECAA百家论坛之四十二|田松 : 哈佛图书馆的Culture Shock : 是学术空间,也是文化空间,生活空间。预训练通用神经网络CHGNet,实现基于电荷的原子模拟1分钟搞懂这“国家队”什么来头!一百四十七 元旦AIoT+Web3=DePIN,共建机器间大规模协作网络的网络深度神经网络压缩与加速技术「简报」Shapiro 州长访问卡耐基梅隆大学——人工智能的诞生地,签署关于生成式人工智能的行政命令;拓展:以新方式建模神经元第九章第四节 地方警察司法系统的运作35年首次证明!NYU重磅发现登Nature:神经网络具有类人泛化能力,举一反三超GPT-4TPAMI 2023 | 图神经网络在分布外图上的泛化kaiming初始化很好,但我准备用新招!权重选择:用大神经网络的权重初始化小神经网络
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。