Redian新闻
>
ICML 2022 | 基于特殊激活函数与额外跳跃连接的稀疏网络训练改进算法

ICML 2022 | 基于特殊激活函数与额外跳跃连接的稀疏网络训练改进算法

科技

©PaperWeekly 原创 · 作者 | GlobalTrack


已有很多研究关注于使用网络剪枝算法寻找可以部署于一般硬件的稀疏神经网络。一般的方法获得稀疏掩码后使用于一般密集网络训练相同的策略训练剪枝后的稀疏网络。现在还不清楚似乎是否针对密集神经网络设计的训练策略对训练稀疏神经网络是最优的。
与之前大部分剪枝算法关注于寻找最优的稀疏掩码不同(主要观点是好的稀疏掩码训练的更好),本文关注于改善稀疏神经网络的训练过程。之前研究发现稀疏学习可能会遇到较差的梯度流动和混乱的优化轨迹,为了解决这两个问题,本文指出设计新的稀疏学习策略是必要的。

论文标题:

Training Your Sparse Neural Network Better with Any Mask

论文链接:

https://proceedings.mlr.press/v162/jaiswal22a/jaiswal22a.pdf

代码链接:

https://github.com/VITA-Group/ToST




方法


本文给出两个策略:幽灵软神经元(Ghost Soft Neuron,GSw)与幽灵跳跃连接(Ghost Skip Connection,GSk)。

1.1 软神经元策略

稀疏度较高的稀疏学习由于移除了大部分连接,容易遇到层崩坏(Layer Collapse)问题。这使得稀疏网络由于梯度不能有效后传,网络几乎不能训练。 

本文指出一个可能的原因是常用的 ReLU 激活层是针对密集网络设计的。ReLU 激活函数的梯度会突然降到 0。ReLU 激活函数的这种不平滑特性是稀疏学习的一种阻碍。 

针对 ReLU 不适合稀疏学习的问题,本文提出将 ReLU 暂时替换为 Swish 和 Mish 激活函数的策略。Swish 和 Mish 是光滑非单调的激活函数。非单调属性允许了小的负输入的梯度,可以得到更稳定的梯度流。

1.2 跳跃连接策略
层崩坏也可能是梯度流动的阻碍。跳跃连接常用于避免梯度消失的问题。受此启发,本文提出在稀疏训练时通过添加临时跳跃连接。


新加的跳跃连接输入在 3*3 卷积前,输出位于激活函数前。

另外一个问题是是否需要将改变激活函数策略和添加跳跃连接策略保留到训练完成。实验中发现可以略微提升精度。但这回改变原始骨干网络的结构并会增加额外的硬件延迟。本文的实验中坚持原先模型的结构。

1.3 其他调整

重缩放初始化:本文指出之前提出的初始化策略不适合稀疏学习的要求。本文的初始化策略受 Gradinit: Learning to initialize neural networks for stable and efficient training 启发采用保留原始稀疏掩码的初始化,仅仅通过一个学习得到的尺度系数重缩放。本文指出受益于 BatchNorm 层,本文的重缩放初始化策略不会损害原始的初始化过程。

标签平滑:标签平滑(Label Smoothing, LS)改变标签为均匀分布硬标签的混合是平滑系数。本文方法将标签平滑嵌入稀疏掩码训练过程中。


实验

表 2 给出了各种剪枝算法与本文 ToST 算法组合后在 ResNet-32、ResNet-56 模型与 CIFAR 数据集上的性能比较。这里选择了初始化剪枝经典算法 SNIP, Grasp, SynFlow,基于 IMP 的彩票假说算法 LTH 与随机剪枝算法。稀疏度范围 {90%,95%,98%}。本文提出的 ToST 算法在所有稀疏度和数据集条件下都超过了所有比较的剪枝算法。


表 3 给出了在 TinyImageNet 数据集上与 SNIP 和 LTH。稀疏度范围 {85%, 90%, 95%}。在 95% 稀疏度情况下,本文方法比 SNIP 提升超过 2%,比 LTH 提升超过 1.5%。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型毛主席大“党领导一切”, 在不同的时候含义不同, 未必非得是党员来代表党组织又一家巨头物联网业务被“蛇吞象”收购!仅专注连接的平台都会陷入困境?业界首个适用于固体系统的神经网络波函数,登上Nature子刊CVPR 2022 Oral | LAS-AT: 一种基于可学习攻击策略的对抗训练新范式创业50:一个指数与它刻画的时代拒绝提前放假的武汉大学,为什么敢于特立独行?“围术期TEE训练营(基础班)基于病例的高强度仿真模拟训练”,报名通道已开启~重磅!中澳机票突然暴跌!惊现¥1516元回国机票!“报复式”旅游席卷全澳!出国人数与疫情前持平!Hinton最新研究:神经网络的未来是前向-前向算法|NeurIPS 2022特邀演讲毕马威:2022年全球著名电竞城市产业发展指数与排行报告NeurIPS 2022 | 基于激活值稀疏化的内存高效迁移学习从亨廷顿的预言到特朗普的MAGA(六)NeurIPS 2022 | 仅用256KB就实现单片机上的神经网络训练NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++报考特殊要求 | 2023年体育单招院校报考特殊要求汇总仅用256KB就实现单片机上的神经网络训练秋行南意—小村的故事(2)墨尔本有人高考24分当律师,有人高中辍学搞IT,看看这些真实的分数与人生…CVPR 2022 | LAS-AT:一种基于可学习攻击策略的对抗训练新范式NeurIPS 2022 | 训练速度100倍提升!基于PyTorch实现的可微逻辑门网络开源白纸坦荡荡ICLR 2022 | DBD:基于分割后门训练过程的后门防御方法就业加速器!奥克维尔将建15座塔楼连接的超现代建筑群!酒店,住宅,办公楼,长期护理中心全涵盖其中!2022 湾区公立/私立高中 UCB 录取率排名【全程直播+回放】围术期TEE训练营(基础班)基于病例的高强度仿真模拟训练基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?2022 USNEWS发布美国薪酬最高行业TOP25近万人围观Hinton最新演讲:前向-前向神经网络训练算法,论文已公开NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架5%季度返现卡激活提醒:来激活2023 Q1啦!外媒突传普京大消息,什么情况?A股猛涨,港股意外跳水!中国驻美大使馆重磅发布美国宾州葛底斯堡国家军事公园, 一览无余基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 20237 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面提升生活品质“花钱不手软”、不执着于特价商品——在我眼中,加拿大人“豁达”的金钱
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。