Redian新闻
>
CVPR 2023 | 清华大学提出GAM:可泛化的一阶平滑优化器

CVPR 2023 | 清华大学提出GAM:可泛化的一阶平滑优化器

公众号新闻

近年来,神经网络收敛位置的平滑性 (flatness) 被证明与模型泛化能力有直接的联系,而现有对平滑性的定义仍局限于sharpness-aware minimization (SAM) 及其变体的零阶平滑性 (zeroth-order flatness),即收敛位置邻域域内最大损失值与当前损失值的差。

清华大学崔鹏教授的CVPR 2023 Highlight论文”Gradient norm aware minimization seeks first-order flatness and improves generalization”发现零阶平滑性有一定的局限性,所以提出了一阶平滑性的概念,并进一步提出了可以约束一阶平滑性的优化器GAM,大量实验证明GAM相比于现有优化器有更强的泛化能力。


论文链接:

https://arxiv.org/abs/2303.03108

代码链接:

https://github.com/xxgege/GAM


神经网络的泛化能力与收敛位置平滑性


现今大型神经网络的参数规模急剧增大,模型在训练过程中对训练数据的拟合能力也大幅变强,但充分拟合训练数据并不一定代表模型在测试数据上表现可靠。如图1所示,模型在训练数据上持续优化甚至可能导致其在测试数据上的表现下降。而在绝大多数场景中,模型在测试场景下的表现才是更重要的。


▲ 图1 神经网络的泛化误差
近年来,很多工作试图探索影响深度模型泛化能力的因素。如图2所示为使用使用残差连接的网络与不使用残差连接的网络 loss landscape(模型参数取值于其loss关系的可视化) 对比。当模型不使用残差连接时,其loss landscape明显更加陡峭,有很多尖锐的凸起和凹陷,而使用残差连接的模型loss landscape会显著平滑,收敛位置(极小值点)也相对更加平缓。联想到残差连接极大提升了深度模型可扩展性和泛化性,很多后续工作开始研究收敛位置平滑性与模型泛化性的关系。

▲ 图2 使用残差连接的网络与不使用残差连接的网络loss landscape对比


▲ 图3 平滑极值点的泛化误差大于尖锐极值点的泛化误差
Nitish Shirish等人[2]通过实验证明平滑的极小值点(flat minima)的泛化能力强于尖锐的极小值点(sharp minima),直觉性的示例如图3所示,更平滑的极值点相比于尖锐极小值点的测试误差(如红色虚线所示)更小。


模型参数收敛位置的零阶平滑性与一阶平滑性


sharpness-aware minimization(SAM)[3]理论证明了平滑极值点在测试数据上的泛化误差低于尖锐极值点,并进一步提出了优化零阶平滑性,即收敛位置邻域半径(perturbation radius, )内最大损失值与当前损失值的差,如公式1所示。

▲ 公式1 零阶平滑性


SAM及其大量后续工作取得了非常好的实践效果,可以显著提升模型的泛化能力。但我们发现零阶平滑性在较大(可以覆盖多个极值点)或在较小(仅覆盖一个极值点)时均存在无法正确识别极值点平滑性的问题。


如图4(a)所示,当可以覆盖多个极值点时,左侧极值点附近和右侧极值点附近的零阶平滑性是相同的(如图中ZOF所示),而实则右侧极值点周围更加平滑;如图4(b)所示,当内仅有一个极值点时,由于零阶平滑性关注的是最大损失数值与当前点的比较,而无法捕捉到上升趋势的差异,所以在一些局域内最大损失值较小而上升趋势较大的波谷中零阶平滑性容易出现判断错误的问题。

▲ 图4 零阶平滑性(zeroth-order flatness, ZOF)vs 一阶平滑性(first-order flatness, FOF)


基于以上的观察,我们提出一阶平滑性(first-order flatness, FOF)的概念,如公式2所示。相比于零阶平滑性,一阶平滑性关注的是参数邻域内最大的梯度的范数,所以更能捕捉loss的变化趋势。在图4所示的示例中,一阶平滑性可以正确区分左右两侧的波谷附近的平滑性。进一步,由于loss在当前参数邻域内的变化会被邻域内最大的梯度控制,所以保证了一阶平滑性即可以一定程度上控制零阶平滑性。

▲ 公式2 一阶平滑性


GAM:一阶平滑性优化器

基于一阶平滑性,我们提出了GAM(Gradient norm Aware Minimization)优化算法,GAM在训练过程中同时优化预测误差和邻域内最大梯度的范数。由于邻域内最大的梯度范数无法直接求解,我们通过一次梯度上升来近似该值,近似过程如公式3所示。最终结果可以用Pytorch或Tensorflow中的vector-Hessian products(vhp)进行计算。
▲ 公式3 GAM梯度及对一阶平滑性的近似


GAM的完整优化过程如算法1所示。


▲ 算法1 GAM优化过程
由于一阶平滑性直接约束邻域内最大梯度范数,所以在损失函数二阶近似下我们很容易得到一阶平滑性与Hessian最大特征值的关系,如公式4所示。Hessian的最大特征值被公认为衡量收敛位置平滑性、曲度的指标,但由于其无法直接优化,所以很多现有工作将其视为平滑性的评价指标,而GAM可以近似约束Hessian的最大特征值。

▲ 公式4 一阶平滑性与Hessian最大特征值


进一步地,我们可以给出GAM的泛化误差上界,如公式5所示。公式5表明,模型在测试数据上的泛化误差会被其在训练数据上的损失与一阶平滑性控制,所以同时对其进行优化(GAM)即可控制模型的泛化误差。


▲ 公式5 GAM的泛化误差上界


我们还可以给出GAM的收敛性质,如公式6所示,GAM的梯度会随着时间T的增加而减小,并逐渐趋近于0。


▲ 公式6 GAM的收敛性质,其中C1与C2为常数


实验结果


我们分别在CIFAR,ImageNet,Stanford Cars,Oxford_IIIT_Pets等数据集上验证GAM的泛化能力。部分结果如表1与表2所示。与SGD和AdamW相比,GAM可以显著提升模型的泛化能力,如与SGD相比,GAM可将PyramidNet110在CIFAR-100上的准确率提升2.17%;与AdamW相比,GAM可将Vit-B/32 在ImageNet上的top-1准确率提升2.43%。


另外,与SAM结合后GAM可以进一步提升SAM的泛化能力,这或许是由于SAM和GAM都是用了一系列近似操作(例如泰勒展开)来估计零阶/一阶平滑性,所以SAM和GAM的结合或可以起到互补的作用,降低彼此由于近似估计带来的误差。



▲ 表2 GAM在CIFAR10/100 上的结果


▲ 表1 GAM在ImageNet上的结果

为了进一步研究GAM对收敛位置平滑性的影响,我们分析了收敛位置Hessian的最大特征值与迹,如图5所示。相比于SGD和SAM,GAM可在训练过程中显著约束Hessian的最大特征值与迹(均为公认平滑性指标),即帮助模型收敛到更加平滑的极值点。



▲ 图5 SGD、SAM、GAM Hessian矩阵的最大特征值与迹对比


在CIFAR-100上SGD、SAM、GAM收敛位置的可视化如图6所示,GAM可以显著提升收敛位置的平滑程度,即提升模型的泛化能力。


▲ 图6 SGD、SAM、GAM 收敛位置可视化


参考文献


[1] Zhang, Xingxuan, et al. "Gradient norm aware minimization seeks first-order flatness and improves generalization." In CVPR 2023, highlight.
[2] Keskar, Nitish Shirish, et al. "On large-batch training for deep learning: Generalization gap and sharp minima." In ICLR 2017
[3] Foret, Pierre, et al. "Sharpness-aware minimization for efficiently improving generalization." In ICLR 2021, spotlight.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​ICLR 2023 | 分布外泛化(OOD)中的优化困境​一文速览CVPR 2023掩码图像建模领域最新研究进展清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架2023 唱坛母亲节快闪【谁言寸草心】合辑UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测有人讨论 中国西湖大学的 2023 暑假PROGRAM吗?炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTACVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023最佳论文候选出炉,12篇上榜!武大、港中文、商汤等国内机构多篇入选回家今天买到T陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型直到她去世孩子們才偷看奶奶的日記家庭隱私的邊界/麥迪遜縣的橋樑比Adam快2倍!斯坦福提出Sophia:大模型预训练新优化器,成本减半!ICML 2023 | 清华团队提出使用低维优化求解器求解高维/大规模优化问题CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术一张图,就能「接着舞」,SHERF可泛化可驱动人体神经辐射场的新方法CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023Doris Day/Que sera, seraCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模为了纪念的回忆——王光美的特务问题和我父亲的冤案 任小彬 2023idealism biggest driving forces through challenging times and heCVPR 2023 | ​微软亚洲研究院提出TinyMIM,用知识蒸馏改进小型ViTCVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集ACL 2023 | GLUE-X:基于分布外泛化的自然语言理解模型测试集CVPR 2023|All in UniSim:统一的自动驾驶仿真平台CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRESCVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选CVPR 2023 Highlight丨GAM:可泛化的一阶平滑优化器CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架当AIGC遇到GAN和Diffusion,CVPR 2023论文大盘点※※ 2023 唱坛5.4快闪【路过青春:闪亮青春 VS 狗血青春】合辑 + 母亲节活动【谁言寸草心】通知 ※※CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernel关于耶稣
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。