Redian新闻
>
ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构

ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构

科技

©PaperWeekly 原创 · 作者 | 陈天翼
单位 | 微软
研究方向 | 模型压缩


大型神经网络 DNN 对资源的巨大需求限制了其在现实世界的部署,如何在尽可能小地损失性能的前提下,压缩神经网络是 DNN 产品化的关键。


剪枝是最常见的 DNN 压缩方法之一,旨在减少冗余结构,给 DNN 模型瘦身的同时保持模型性能。然而,现有的剪枝方法通常指针对特定模型,特定任务,并需要 AI 工程师投入大量的工程和时间精力来应用这些方法到自己的任务上。

为了解决这些问题,微软团队提出了 OTOv2 框架,并发表于 ICLR 2023。OTOv2 是业内首个自动化一站式用户友好,且通用的神经网络训练与结构压缩框架。通过使用 OTOv2,AI 工程师可以非常方便地训练目标神经网络,一站式地取得高性能且轻量化的模型。OTOv2 最小化了开发者额外的工程时间精力的投入,且全程无需现有方法通常需要的非常耗时的预训练和额外的模型微调。

论文链接:
https://openreview.net/pdf?id=7ynoX1ojPMt

代码链接:

https://github.com/tianyic/only_train_once




该研究的主要贡献概括如下:


1. 一站式自动化神经网络结构剪枝架构。研究者提出了一个名为 OTOv2(Only-Train-Once)的 one-shot 训练和剪枝框架。它可以将一个完整的神经网络压缩为轻量级网络,同时保持较高的性能。OTO 大大简化了现有剪枝方法复杂的多阶段流程,适合各种架构和应用,且最小化了用户的额外工程投入,因具有通用性,有效性和易用性。

2. 自动化 Zero-Invariant Groups(零不变组)分组。由于网络结构的复杂性和关联性,删去任意网络结构可能会导致剩余的网络结构无效。因此自动化网络结构压缩的一个最大的问题之一是如何找到必须要被一起剪枝的模型参数,使得余下的网络依然有效。


为了解决该问题,研究者提出神经网络的可移除单元和零不变组 Zero-Invariant Groups(ZIGs)。零不变组可以理解为一类最小的可移除单元,使得该组对应的网络结构移除后剩余网络依然有效。研究者进一步提出并实现了一套自动化算法来解决通用网络的 ZIGs 分组问题。

3. 双半平面投影梯度优化算法(DHSPG)。接下来的模型训练和剪枝需要找出冗余的和重要的零不变组。这个问题可以归纳为一个结构稀疏化问题,研究者提出 Dual Half-Space Projected Gradient(DHSPG)优化算法来解决该问题。DHSPG 可以非常有效地找出冗余的零不变组并将其投影成零,并持续训练重要的零不变组来取得跟原始模型相媲美的性能。

4. 自动化构建轻量压缩模型。研究者自动化地删除冗余的零不变组所对应的网络单元来构建轻量化网络。该轻量化由于零不变组的特性会返回跟完整模型一样的输出,因此无需进一步模型微调。




实验效果


▲ 表1:CIFAR10 中的 VGG16 及 VGG16-BN 模型表现


在 CIFAR10 的 VGG16 实验中,OTOv2 将浮点数减少了 86.6%,将参数量减少了 97.5%,性能表现令人印象深刻。


▲ 表2:CIFAR10 的 ResNet50 实验


在 CIFAR10 的 ResNet50 实验中,OTOv2 在没有量化的情况下优于 SOTA 神经网络压缩框架 AMC 和 ANNC,仅使用了7.8% 的 FLOPs 和 4.1% 的参数。


▲ ResNet50 on ImageNet.


在 ImageNet 的 ResNet50 实验中,OTOv2 在不同结构稀疏化目标下,展现出跟现存 SOTA 方法相媲美甚至更优的表现。


▲ 表3:更多结构和数据集


OTOv2 也在更多的数据集和模型结构上取得了不错的表现。


总体而言,OTOv2 在所有的压缩基准实验中获得了 SOTA 或相媲美结果,并且实现了端到端的自动化,对通用网络进行一站式训练压缩,且最小化了用户额外的工程时间投入,为 AI 开发者提供了一款易用的网络压缩工具,加速各类人工智能产品的部署与落地。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究何时起,“骰子”不读shǎi,改读tóu了?王慧文收购国产AI框架OneFlow,为中国版ChatGPT疯狂抢人抢基建《农历新年》新《農曆新年》旧java更轻量级的权限管理框架:jcasbin无惧大规模GNN,用子图也一样!中科大提出首个可证明收敛的子图采样方法 | ICLR 2023 Spotlight微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型前美团联合创始人王慧文 “正在收购” 国产开源深度学习框架OneFlow国际要闻简报,轻松了解天下事(03ChatGPT自己会选模型了!浙大和微软提出:HuggingGPT李开复「关门弟子」创业!AI自动化助手一站式搞定,入局大模型的另一种选择CVPR2023 | 微软提出高效率大规模图文检索模型ICLR 2023 | 阿里达摩院开源人脸检测新框架DamoFD一年结束了,明年会更好。。真香!一个轻量级的日志追踪框架,10 分钟即可接入!转:2023 回国探亲(5)ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE机器学习与因子模型实证:怎么进行模型训练?K12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?4 道做法简单颜值爆棚的年菜微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型AI驱动运筹优化「光刻机」!中科大等提出分层序列模型,大幅提升数学规划求解效率|ICLR 2023年关将至可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了​NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了ICLR 2023 | HomoDistil:蒸馏和剪枝在知识传递上的有机结合2023 春 祝姐妹们周末快乐!Eruope 2023ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023人体器官移植的真实故事2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一ICLR 2023 | UniKGQA: PLM+KG新架构,同时适配检索和推理!ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。