Redian新闻
>
NeurIPS 2022 | 参数集约型掩码网络:探索有限数量随机数的表征能力

NeurIPS 2022 | 参数集约型掩码网络:探索有限数量随机数的表征能力

公众号新闻


©作者 | 机器之心编辑部

单位 | 机器之心


美国东北大学,罗切斯特理工等研究者提出参数集约型掩码网络,探索有限数量随机数的表征能力并提升神经网络储存和传输效率。


为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。

来自美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。

通过这种探索性实验,作者自然地提出使用一组有限数量随机数作为 prototype,结合一组 mask 来表达一个神经网络。因为有限数量的随机数和二值的 mask 占用很少的储存空间,作者以此来提出一种新的思路来进行网络压缩。文章已被 NeurIPS 2022 接受。代码已开源。


论文题目:
Parameter-Efficient Masking Networks

论文链接:

https://arxiv.org/abs/2210.06699

代码链接:

https://github.com/yueb17/PEMN



相关研究
MIT 研究人员提出彩票假说 Lottery Ticket Hypothesis (ICLR’19):在一个随机初始化网络中,存在一个彩票子网络(winning ticket)在被单独训练的情况下达到很好的效果。

彩票假说探索了随机稀疏网络的可训练性。Uber 研究人员提出 Supermask (NeurIPS’19):在一个随机初始化网络中,存在一个子网络,可以直接用来做推断而不需要训练。Supermask 探索了随机稀疏网络的可用性。华盛顿大学研究人员提出 Edge-Popup (CVPR’20):通过反向传播学习子网络的 mask,大幅提升了随机稀疏网络的可用性。



研究动机 / 流程
以上相关研究从不同角度探索了随机稀疏网络的潜力,如可训练性和可用性,其中可用性也可以理解为表征能力。在此工作中,作者感兴趣的是由随机数生成的神经网络在不训练权重的情况下有多强的表征能力。随着对该问题的探索,作者提出了 Parameter-Efficient Masking Networks (PEMN)。自然地,作者运用 PEMN 为网络压缩提供了一种新的思路,并作为一个例子对 PEMN 的潜在应用场景进行探索。



探索随机数构成的神经网络的表征能力

给定一个随机网络,作者选择 Edge-Popup 算法在其中选择子网络来探索其表征能力。不同的是,相对于对整个网络进行随机初始化,作者提出了三种参数集约型的网络生成策略来使用一个 prototype 构建随机网络。

  • One-layer: 选择网络中重复结构的权重作为 prototype 来填充其他的与之结构相同的网络层。
  • Max-layer padding (MP): 选择参数量最多的网络层作为 prototype 并且截断相应的参数量来填充其他网络层。

  • Random vector padding (RP): 选择一定长度的随机向量作为 prototype 并对其进行复制来填充整个网络。


三种不同的随机网络生成策略把网络中不重复参数值(unique values)的数量逐步变小,我们基于不同策略得到的随机网络来选择子网络,从而探索了有限数量随机数生成的随机网络的表征潜力。


上图展示了使用 ConvMixer 和 ViT 网络 CIFAR10 图像分类的实验结果。Y 轴为准确率,X 轴为使用不同策略得到的随机网络。随之 X 轴的变大,随机网络中不重复随机数数量逐渐变小 (RP 后的数字表示相比较于 MP,RP 中不重复随机数数量的比例)。

根据实验结果,我们观察到即使随机网络只有非常有限的不重复随机数(比如 PR_1e-3),依然可以很好的维持选择出来的子网络的表征能力。至此,作者通过不同的随机网络生成策略,探索了有限数量随机数构成的神经网络的表征能力并观察到即使不重复随机数非常有限,其对应的随机网络依然可以很好地对数据进行表征。

同时作者基于这些随机网络生成策略,结合所得到的子网络掩码,提出了 Parameter-Efficient Masking Networks(PEMN)这种新的神经网络类型。




一种新的网络压缩思路
本文选择了神经网路压缩为例来拓展 PEMN 的潜在应用。具体来说,文中所提出的不同随机网络生成策略可以高效的使用 prototype 来代表完整的随机网络,尤其是最细粒度的 random vector padding (RP)策略。

作者使用 RP 策略中的随机向量 prototype 和与之对应的一组子网络掩码来表示一个随机网络。在其中 prototype 需要保存浮点数格式,而掩码只需要保存成二值格式。因为 RP 中的 prototype 长度可以很短(因为有限数量的不重复随机数仍有很强的表征能力),所以表示一个神经网络的开销会变得很小,即储存一个长度有限的浮点数格式的随机向量和一组二值格式的掩码。

相比较于传统的稀疏网络储存子网络的浮点值,本文提出了一种新的网络压缩思路用来高效的储存和传输神经网络。


在上图中,作者使用 PEMN 对网络进行压缩并与传统的网络剪枝方法进行对比。实验使用 ResNet 网络在 CIFAR 数据集做图像分类任务。我们观察到,新的压缩方案表现普遍优于传统的网络剪枝,尤其是在很高的压缩率下,PEMN 仍然可以维持较好的准确率。



结论
本文受近来随机网络展现出来的潜力所启发,提出不同种参数集约策略来构建随机神经网络,进而探索了在只有有限的不重复随机数的情况下所生成的随机神经网络的表征潜力,并提出参数集约型掩码网络 Parameter-Efficient Masking Networks (PEMN)。

作者将 PEMN 应用到网络压缩的场景中探索了其在实际应用方面的潜力并且为网络压缩提供了一种新的思路。作者提供了广泛的实验,表明即使随机网络中只有非常有限的不重复随机数,通过子网络的选择,其依然有较好的表征能力。此外,相比较于传统剪枝算法,实验表明新提出的方法可以取得更好的网络压缩效果,验证了 PEMN 在该场景下的应用潜力。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3清华作者排名第一,多人中稿超十篇:NeurIPS 2022统计数据出炉TPAMI 2022 | 利用子图同构计数提升图神经网络的表达能力NeurIPS 2022 | 如何提高存储、传输效率?参数集约型掩码网络效果显著NeurIPS 2022 | 将通信带宽降低至十万分之一,上海交大提出新一代协作感知方法NeurIPS 2022 | DetCLIP:开放域检测新方法,推理效率提升20倍!NeurlPS 2022 | 用于医学图像分割的类感知生成对抗TransformerNeurlPS 2022 | 全新大模型参数高效微调方法:仅需训练0.3M的参数「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet不结婚也能生娃! 下月施行, 不限数量, 不与入户入学挂钩, 三胎概念股大涨NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别SIGGRAPH Asia 2022 | 人脸神经辐射场的掩码编辑方法—NeRFFaceEditingNeurIPS 2022 | 利用多光照信息的单视角NeRF算法,可恢复场景几何与材质信息NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++AI居然「暗中」捣乱?港中大深圳联合西安交大发布后门学习新基准|NeurIPS 2022NeurIPS 2022 | 仅用256KB就实现单片机上的神经网络训练NeurIPS 2022 | 知识蒸馏中如何让“大教师网络”也教得好?NeurIPS 2022 | 用离散对抗训练提高视觉模型的鲁棒性和泛化能力从NeurIPS 2022看域泛化:大规模实验分析和模型平均NeurIPS 2022 | 用变分编码器生成周期图,时间、空间复杂度最低三文鱼回流高峰期NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索Benchmark外乡人 - 又被抓获NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息Hinton最新研究:神经网络的未来是前向-前向算法|NeurIPS 2022特邀演讲躺歪歪讀本閑書我偷渡中的三个女人(十五)NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022NeurIPS 2022 | 量子算法用于采样对数凹分布和估计归一化常数一个奇怪的现象NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越NeurIPS 2022|图对比学习的结构公平性初探从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNetNeurIPS 2022 | 基于精确差异学习的图自监督学习
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。