Redian新闻
>
微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型

微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型

公众号新闻
机器之心专栏

作者: 陈天翼-微软西雅图-高级研究员

OTO 是业内首个自动化、一站式、用户友好且通用的神经网络训练与结构压缩框架。


在人工智能时代,如何部署和维护神经网络是产品化的关键问题考虑到节省运算成本,同时尽可能小地损失模型性能,压缩神经网络成为了 DNN 产品化的关键之一。


DNN 压缩通常来说有三种方式,剪枝,知识蒸馏和量化。剪枝旨在识别并去除冗余结构,给 DNN 瘦身的同时尽可能地保持模型性能,是最为通用且有效的压缩方法。三种方法通常来讲可以相辅相成,共同作用来达到最佳的压缩效果。


然而现存的剪枝方法大都只针对特定模型,特定任务,且需要很强的专业领域知识,因此通常需要 AI 开发人员花费大量的精力才能将这些方法应用于自己的场景中,非常消耗人力物力成本。


OTO 概述
 
为了解决现存剪枝方法的问题并给 AI 开发者提供便利,微软团队提出了 Only-Train-Once OTO 框架。OTO 是业内首个自动化、一站式、用户友好且通用的神经网络训练与结构压缩框架,系列工作陆续发表于 ICLR2023 和 NeurIPS2021。

通过使用 OTO,AI 工程师可以方便地训练目标神经网络,一站式地取得高性能且轻量化的模型。OTO 最小化了开发者的工程时间精力的投入,且全程无需现有方法通常需要的非常耗时的预训练和额外的模型微调。


  • 论文链接:
  • OTOv2 ICLR 2023: https://openreview.net/pdf?id=7ynoX1ojPMt
  • OTOv1 NeurIPS 2021:https://proceedings.neurips.cc/paper_files/paper/2021/file/a376033f78e144f494bfc743c0be3330-Paper.pdf
  • 代码链接:

    https://github.com/tianyic/only_train_once


框架核心算法

理想化的结构剪枝算法应该做到:针对通用神经网络,自动化地一站式地从零开始训练,同时达到高性能且轻量化的模型,并无需后续微调。但因为神经网络的复杂性,实现这一目标是一件极其有挑战性的事情。为了实现这一最终目的,下面的三个核心问题需要被系统性地解决:

  • 如何找出哪些网络结构可以被移除?
  • 如何在移除网络结构的过程中,尽可能不损失模型性能?
  • 如何能自动化地完成如上两点?

微软团队设计并实现了三套核心算法,首次系统性地,全面性地解决这三个核心问题。

自动化 Zero-Invariant Groups (零不变组) 分组

由于网络结构的复杂性和关联性,删去任意网络结构可能会导致剩余的网络结构无效。因此自动化网络结构压缩的一个最大的问题之一是如何找到必须要被一起剪枝的模型参数,使得余下的网络依然有效。为了解决该问题,微软团队在 OTOv1 中提出了零不变组 Zero-Invariant Groups  (ZIGs)。零不变组可以理解为一类最小的可移除单元,使得该组对应的网络结构移除后剩余网络依然有效。零不变组的另一大特性是,如果一个零不变组等于零,那么无论输入值是什么,输出值永远是零。在 OTOv2 中,研究者进一步提出并实现了一套自动化算法来解决通用网络的零不变组的分组问题。自动化分组算法是由一系列图算法精心设计组合而成,整套算法非常高效,具有线性的时间空间复杂度。


双半平面投影梯度优化算法 (DHSPG)

当划分目标网络所有的零不变组后,接下来的模型训练和剪枝任务需要找出哪些零不变组是冗余的,哪些又是重要的。冗余的零不变组对应的网络结构需要被删除,重要的零不变组需要保留并保证压缩模型的性能。研究者公式化这个问题为一个结构性稀疏化问题,并提出全新的 Dual Half-Space Projected Gradient  (DHSPG) 优化算法来解决。


DHSPG 可以非常有效地找出冗余的零不变组并将其投影成零,并持续训练重要的零不变组来取得跟原始模型相媲美的性能。

与传统稀疏优化算法相比,DHSPG 具有更强更稳定地稀疏结构探索能力,且扩展了训练搜索空间并因此通常要获得更高的实际表现效果。


自动化构建轻量压缩模型

通过使用 DHSPG 对模型进行训练,我们会得到一个服从于零不变组的高结构稀疏性的解,即该解里有很多被投影成零的零不变组,此外该解还会具有很高的模型性能。接下来,研究者把所有对应与冗余零不变组的结构删去来自动化地构建压缩网络。由于零不变组的特性,即如果一个零不变组等于零,那么无论输入值是什么,输出值永远是零,因此删去冗余的零不变组不会对网络产生任何影响。所以通过 OTO 得到的压缩网络和完整网络会有相同的输出,无需传统方法所需要的进一步模型微调。


数值实验

分类任务

表 1:CIFAR10 中的 VGG16 及 VGG16-BN 模型表现。

在 CIFAR10 的 VGG16 实验中,OTO 将浮点数减少了 86.6%,将参数量减少了 97.5%,性能表现令人印象深刻。

表 2:CIFAR10 的 ResNet50 实验。

在 CIFAR10 的 ResNet50 实验中,OTO 在没有量化的情况下优于 SOTA 神经网络压缩框架 AMC 和 ANNC,仅使用了 7.8% 的 FLOPs 和 4.1% 的参数。

表 3. ImageNet 的 ResNet50 实验。

在 ImageNet 的 ResNet50 实验中,OTOv2 在不同结构稀疏化目标下,展现出跟现存 SOTA 方法相媲美甚至更优的表现。

表 4: 更多结构和数据集。

OTO 也在更多的数据集和模型结构上取得了不错的表现。

Low-Level Vision 任务

表 4:CARNx2 的实验。

在 super-resolution 的任务中,OTO 一站式训练压缩了 CARNx2 网络,得到了跟原始模型有竞争力的性能且压缩了越 75% 的运算量和模型大小。 

语言模型任务


此外,研究者还在 Bert 上针对核心算法之一,DHSPG 优化算法,进行了对比试验,验证了其相较于其他稀疏优化算法的高性能性。可以发现在 Squad 上,利用 DHSPG 进行训练所得到的参数量减小和模型性能要远远优于其他稀疏优化算法。

结论

微软团队提出了一个名为 OTO(Only-Train-Once)的 自动化一站式神经网络训练结构剪枝框架。它可以将一个完整的神经网络自动化地压缩为轻量级网络,同时保持较高的性能。OTO 大大简化了现有结构剪枝方法复杂的多阶段流程,适合各类网络架构和应用,且最小化了用户的额外工程投入,具有通用性,有效性和易用性。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型ICML 2022 | 基于特殊激活函数与额外跳跃连接的稀疏网络训练改进算法微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致怎样让ChatGPT在其内部训练神经网络?先让它想象自己有4块3090一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了Angew. Chem. :利用结构融合策略开发新型受体分子,获得高性能三元有机太阳电池ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构Npj Comput. Mater.: 多主元素合金硬度—集成神经网络模型ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet中国学者引领图神经网络技术的重要突破,再次刷新了蛋白质性能预测榜单记录可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了王慧文收购国产AI框架OneFlow,为中国版ChatGPT疯狂抢人抢基建面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成K12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?“睡了七天,说分手就分手”GNN如何建模时空信息?伦敦玛丽女王大学「时空图神经网络」综述,简明阐述时空图神经网络方法CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术唤醒10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本前美团联合创始人王慧文 “正在收购” 国产开源深度学习框架OneFlow在目前流行的奥密克戎亚系背景下免疫功能低下患者预防和治疗 SARS-CoV-2 感染的最新信息-美国CDC如果您是西城人,这些事儿您肯定门清儿!ChatGPT自己会选模型了!浙大和微软提出:HuggingGPT李开复「关门弟子」创业!AI自动化助手一站式搞定,入局大模型的另一种选择CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架何时起,“骰子”不读shǎi,改读tóu了?中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)怎样让ChatGPT在其内部训练神经网络?CVPR2023 | 微软提出高效率大规模图文检索模型​NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架革命化春节:我们曾经革了春节的命 (ZT)SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。