Redian新闻
>
NeurIPS22|改进何恺明 MAE!GreenMIM:整合Swin与MAE,训练速度大幅提升!

NeurIPS22|改进何恺明 MAE!GreenMIM:整合Swin与MAE,训练速度大幅提升!

公众号新闻

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

转载自 | 极市平台

作者 | 杨静

来源| 量子位

自何恺明MAE横空出世以来,MIM(Masked Image Modeling)这一自监督预训练表征越来越引发关注。

但与此同时, 研究人员也不得不思考它的局限性。

MAE论文中只尝试了使用原版ViT架构作为编码器,而表现更好的分层设计结构(以Swin Transformer为代表),并不能直接用上MAE方法。

于是,一场整合的范式就此在研究团队中上演。

代表工作之一是来自清华、微软亚研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的应用。

但与MAE相比,它在可见和掩码图块均有操作,且计算量过大。有研究人员发现,即便是SimMIM的基本尺寸模型,也无法在一台配置8个32GB GPU的机器上完成训练。

基于这样的背景,东京大学&商汤&悉尼大学的研究员,提供一个新思路。

论文链接:

https://arxiv.org/abs/2205.13515

GitHub链接(刚刚开源):

https://github.com/LayneH/GreenMIM

不光将Swin Transformer整合到了MAE框架上,既有与SimMIM相当的任务表现,还保证了计算效率和性能——将分层ViT的训练速度提高2.7倍,GPU内存使用量减少70%。

来康康这是一项什么研究?


1

『当分层设计引入MAE』

这篇论文提出了一种面向MIM的绿色分层视觉Transformer。

即允许分层ViT丢弃掩码图块,只对可见图块进行操作。

具体实现,由两个关键部分组成。

首先,设计了一种基于分治策略的群体窗口注意力方案。

将具有不同数量可见图块的局部窗口聚集成几个大小相等的组,然后在每组内进行掩码自注意力。

其次,把上述分组任务视为有约束动态规划问题,受贪心算法的启发提出了一种分组算法。

它可以自适应选择最佳分组大小,并将局部窗口分成最少的一组,从而使分组图块上的注意力整体计算成本最小。


2

『表现相当,训练时间大大减少』

结果显示,在ImageNet-1K和MS-COCO数据集上实验评估表明,与基线SimMIM性能相当的同时,效率提升2倍以上。

而跟SimMIM相比,这一方法在所需训练时间大大减少,消耗GPU内存也小得多。具体而言,在相同的训练次数下,在Swin-B上提高2倍的速度和减少60%的内存。

值得一提的是,该研究团队在有8个32GB V100 GPU的单机上进行评估的,而SimMIM是在2或4台机器上进行评估。

研究人员还发现,效率的提高随着Swin-L的增大而变大,例如,与SimMIM192相比,速度提高了2.7倍。

实验的最后,提到了算法的局限性。其中之一就是需要分层次掩码来达到最佳的效率,限制了更广泛的应用。这一点就交给未来的研究。

而谈到这一研究的影响性,研究人员表示,主要就是减轻了MIM的计算负担,提高了MIM的效率和有效性。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI求解偏微分方程新基准登NeurIPS,发现JAX计算速度比PyTorch快6倍,LeCun转发:这领域确实很火麻了!GRE太低,被港中文要求再考!这些专业没考GRE可能直接拒!?NeurIPS 2022|知识蒸馏想要获得更好的性能?那就来一个更强的教师模型吧!NeurIPS 2022 | 如何正确定义测试阶段训练?顺序推理和域适应聚类方法台湾是不是中国的还要进行辩论女儿女婿为中餐馆义务打工何恺明团队新作FLIP:MAE助力CLIP更快更高精度!川味回锅肉,减肥的秘密NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器台积电更多计划曝光:3nm、2nm和1nmNeurIPS 2022 | DetCLIP:开放域检测新方法,推理效率提升20倍!NeurlPS 2022 | 全新大模型参数高效微调方法:仅需训练0.3M的参数NeurIPS 2022|探明图对比学习的“游戏规则”:谱图理论视角NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍NeurIPS 2022 | 阿里浙大提出利用更典型的特征来提升分布外检测性能钱学森的传闻NeurIPS 2022 | ConvMAE:当Masked卷积遇见何恺明的MAE从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNetNeurIPS 2022 | 利用子图和结点的对称性提升子图GNNNeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!bāo huā shēng?bō huā shēng?训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQNeurlPS2022推荐系统论文集锦AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能【捡漏现房】【Greenhouse高级公寓招室友】【NEU/NEC/Berklee】【1B1.5B最好隔断户型】卧室/客厅可选重磅福利!今天起,澳洲最低工资标准大幅提升!数十万澳人将获加薪!每周多赚40刀!首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNetNeurIPS 2022|图对比学习的结构公平性初探【无中介费】【Greenhouse高级公寓】【NEU/NEC/Berklee】【冬季房源还可以排位】【接受本科生】3行代码建模,训练速度提升200%?这款时序开源神器PaddleTS太强了!VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022七夕NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。