Redian新闻
>
NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!

NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群


在CVer微信公众号后台回复:SiamMAE,可以下载本论文pdf,学起来!


转载自:新智

【导读】只需一个简单操作扩展MAE,即可实现自监督学习新sota!


在计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。


最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders以学习视频中的视觉对应关系。


论文链接(收录NeurIPS 2023 Oral):

https://siam-mae-video.github.io/resources/paper.pdf

主页:https://siam-mae-video.github.io/


先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。


通过对未来帧中的大部分(95%)图像块进行掩码,同时保持过去帧(past frame)图像不变,SiamMAE促使网络专注于物体运动,并学习以物体为中心的表征。



尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。


SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。


孪生掩码自编码器


研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将掩码自编码器(MAE)模型扩展到视频数据中。



Patchify


给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。


与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。


最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。


Masking


像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。

为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机掩码了75%的图像patch,视频数据的掩码率提升到90%,并且对每帧都使用相同的掩码率。


这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。


研究人员认为,不对称的掩码可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。


所以对于采样的两个视频帧,对第一帧选择不掩码,对第二帧选择掩码95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。



为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。


编码器


研究人员探索了两种不同的编码器配置来处理输入帧。


联合编码器(joint encoder)是图像MAEs在一对视频帧上的扩展,把两帧未掩码的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。


孪生编码器(siamese encoder)是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。


在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。


解码器


编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token


研究人员探索了三种不同的解码器配置:


联合解码器(joint decoder)在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。


交叉自解码器(cross-self decoder)与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。


可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。


交叉解码器(cross decoder)由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。


最后,解码器的输出序列被用来预测掩码图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。


实验结果



视频物体分割


在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。


实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube掩码方案,使得模型无法学习时间上的对应关系。



与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。


并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。



还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机掩码的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。


而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。


因此,对称地处理空间和时间信息可能是次优的。


视频部分分割(Video Part Segmentation)


在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。


与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。


与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。



SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。


SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。


姿势追踪(pose tracking)


在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 [email protected]


在CVer微信公众号后台回复:SiamMAE,可以下载本论文pdf,学起来!

点击进入—>【计算机视觉和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者ransformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别揭秘编码器与解码器语言模型意念操纵机器人成真!李飞飞团队打造,做家务玩游戏样样能行【2023 坛庆】 ※ 烟雨行舟 ※ 夜垂云流缓 清梦醉阑珊顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusionICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题【2023 坛庆】贴首今天吹的笛子【2023 坛庆】《菊花台》NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成玻璃缸里的孙凤 (25)NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%AI「脑补」画面太强了!李飞飞团队新作ZeroNVS,单个视图360度全场景生成NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路李飞飞新书即将发布,Hinton力荐!Jim Fan:2023年最重磅AI著作朱批《毛批三国》 第四回 废汉帝陈留践位 谋董贼孟德献刀NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法温哥华的同性恋游行NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调盆栽蔬菜-container gardeningNeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTANeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务李飞飞团队新作:脑控机器人做家务,让脑机接口具备少样本学习能力NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较齐风讲段子:家访糖尿病补充剂 2023.6.13【2023 坛庆】山之茶​KDD 2023 | MaskGAE:图自编码器背后的掩码机理
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。