Redian新闻
>
NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!

NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

转载自:AIWalker

2021年末,何恺明团队提出MAE在CV届引起极大轰动,自上传到arxiv之后,各种"YYDS", "Best Paper预定"等,关于MAE的介绍可参考以下两个介绍:

何恺明一作最新工作!MAE:简单实用的自监督学习方案,高达87.8%准确率!仅用ImageNet-1K

一起来动手实现 MAE吧 : https://zhuanlan.zhihu.com/p/439554945

2022年5月,恺明团队对MAE进行了扩展,将其用于视频表达学习,再一次表达MAE的优异性:最优Mask比例高达90%,在可以学习到强表达能力的同时在空时方面具有almost no inductive bias特性。总而言之,Masked AtuoEncoding(如BERT、MAE等)是一种统一的具有最小领域知识表达学习方法

Masked Autoencoders As Spatiotemporal Learners

恺明的paper最精彩的有两点:(1) idea足够简单;(2) 实验足够充分。所以本文仅为抛转引玉之述,更精彩的实验部分请移步原文: https://arxiv.org/abs/2205.09113

代码(已开源):https://github.com/facebookresearch/SlowFast/tree/main/projects/mae

本文方案为MAE的一个简单的扩展,即将图像领域的MAE向视频领域扩展。其目的在于:在尽可能少的领域知识下,研发一种广义且统一的框架

上图给出了本文所提出方案的整体架构示意图,它主要包含以下几点技术点:

  • Patch Embedding : 类似ViT,给定视频片段,我们将其沿空时维度拆分为无重叠的规则的网格块(grid),然后将这些网格块进行flatten并经由线性投影层进行处理。此外,对每个网格快还添加了位置嵌入信息。注:这里的块与位置嵌入过程只仅有的空时感知处理

  • Masking : 我们对前述所得块嵌入信息进行随机采样,这里的随机采样类似于BERT和MAE。注1:这里的随机采样具有空时不可感知性

MAE一文的研究表明:最优Mask比例与数据的信息冗余相关。加持上非结构化随机Mask,BERT的15%与MAE的75%表明:相比语言,图像具有更强的信息冗余。本文的研究(高达90%的Mask比例)进一步支撑了该假设,上图给出了90%与95%Mask比例的MAE在未知验证集上重建结果。

相比结构感知采样策略(如上图b-d),本文的空时不可知采样策略(见上图a)更加高效。由于近邻块在空时维度上的相关性,结构感知采样策略的最优Mask比例往往比较低。相反,空时不可知采样策略可以更好的利用有限数量的可见块(visible patches),进而达成更高的Mask比例

  • AutoEncoding : 延续MAE方案,本文的编码器ViT仅作用于可见块嵌入。这种设计有助于减少内存占用与推理耗时,达成更实用的方案。高达90%的Mask比例可以将编码器的计算复杂减少到 10%以下。类似MAE,解码器同样采用了ViT架构,且比编码小还要小。尽管解码器作用于全部的token,但其复杂度比编码器小。在默认配置下,自编码器的整体复杂度比标准自编码器方案(即输入端不进行Mask)小7.7x

Experiments

上表给出了Kinetics-400(K400)数据集上的性能对比,可以看到:相比SOTA方案,本文方案极具竞争力。本文方案是仅有的vanilla ViT方案,其他方案均为分层架构或转为视频而设计的架构。

上表给出了AVA数据集上的性能对比,可以看到:仅需,所提方案取得了与MaskFeat(其输入分辨率更高)相当的性能。更重要的是,该方案采用了PlainViT架构,无需在检测任务上表现更好的分层特征。

上表给出了SSv2数据集上的性能对比,可以看到:仅需输入的VanillaViT方案具有与输入的MaskFeat方案相当的性能


上面论文和代码下载


后台回复:何恺明视频MAE即可下载论文和代码


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2022 | AutoMTL:第一个自动化多任务学习编程框架!NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法NeurIPS 2022 | 基于精确差异学习的图自监督学习AI居然「暗中」捣乱?港中大深圳联合西安交大发布后门学习新基准|NeurIPS 2022「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022何恺明团队新作FLIP:MAE助力CLIP更快更高精度!NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?现在的中国就是现在的中国政府Neural Eigenmap: 基于谱学习的结构化表示学习NeurIPS22|改进何恺明 MAE!GreenMIM:整合Swin与MAE,训练速度大幅提升!NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet大脑如何驾驭我们说双语或多语(ZT)NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022博士答辩的一些趣事层叠时空,艺览循臻:CINDY CHAO艺术珠宝2022大师系列新作亮相ART021你知道这些Attack(发作)吗?ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务NeurIPS 2022 | 首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准NeurIPS 2022 | 基于最优子集的神经集合函数学习方法EquiVSetNeurIPS 2022|图对比学习的结构公平性初探Steam喜加一!《双人成行》团队新作TGA上公开!基建游戏特卖要来了!NeurIPS 2022|探明图对比学习的“游戏规则”:谱图理论视角【开心时刻】文学城里一道靓丽的风景线(图· 歌)NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?NeurIPS 2022 | ConvMAE:当Masked卷积遇见何恺明的MAEACM MM 2022 Oral | PRVR:全新的文本到视频跨模态检索子任务通用汽车首次将Super Cruise扩展至全尺寸SUVNeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSet
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。