一文速览CVPR 2023掩码图像建模领域最新研究进展

科技

2023-05-09 05:05

©PaperWeekly 原创 · 作者 | GlobalTrack

CV领域一般改进

论文标题：

Masked Image Modeling with Local Multi-Scale Reconstruction

论文链接：

https://arxiv.org/abs/2303.05251

代码链接：

https://github.com/Haoqing-Wang/LocalMIM

本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构，以明确指导。具体地，在预训练阶段，上层和下层分别学习细尺度和粗尺度监督信号。

论文标题：

Integrally Pre-Trained Transformer Pyramid Networks

论文链接：

https://arxiv.org/abs/2211.12735

代码链接：

https://github.com/sunsmarterjie/iTPN

本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征，而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。

论文标题：

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

论文链接：

https://arxiv.org/abs/2211.09117

代码链接：

https://github.com/LTH14/mage

本文考虑在同一个自监督框架中学习生成模型和表示学习两个不同的任务。核心思想是使用可变掩码率在统一训练框架下进行生成学习和表示学习。本文 MAGE 方法在输入和输出中使用由向量量化 GAN 学习的语义标记。

MIM与知识蒸馏

论文标题：

TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models

论文链接：

https://arxiv.org/abs/2301.01296

代码链接：

https://github.com/OliverRensu/TinyMIM

本文通过大量实验寻找最适合 MIM 任务的知识蒸馏目标。指出 1）使用令牌关系作为蒸馏目标优于 CLS 令牌和特征图；2）使用中间层作为目标优于使用最后一层。另外本文提出顺序蒸馏思想，即模型规模逐渐缩小的策略。

论文标题：

Generic-to-Specific Distillation of Masked Autoencoders

论文链接：

https://arxiv.org/abs/2302.14771

代码链接：

https://github.com/pengzhiliang/G2SD

本文关注一般的任务导向蒸馏的性能难以令人满意，指出原因是该方法只关注特定任务特征，而忽略了一些有助于提升泛化能力知识。本文方法考虑两个蒸馏过程：任务无关蒸馏和特定任务蒸馏。任务无关蒸馏使用解码器中间层隐藏特征图作为学生模型训练目标。在后续特定任务中直接使用前阶段权重初始化。特定任务蒸馏学生模型将教师模型作为蒸馏目标。

视频领域改进

论文标题：

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

论文链接：

https://arxiv.org/abs/2303.16727

代码链接：

https://github.com/OpenGVLab/VideoMAEv2

本文考虑在模型和数据尺寸层面对 VideoMAE 进行扩展。本文考虑双掩码策略，即在编码器和解码器都使用遮挡部分可见令牌。解码器掩码目标是尽可能多样化立方体以覆盖整个视频信息。模型尺寸上考虑了未探索过的 ViT-g，数据规模上增加到到百万级别大小。

论文标题：

DropMAE: Masked Autoencoders with Spatial-AttentionDropout for Tracking Tasks

论文链接：

https://arxiv.org/abs/2304.00571

代码链接：

https://github.com/jimmy-dq/dropmae

本文是一篇研究用于跟踪任务的视频 MIM 预训练算法。这里考虑使用经典的基于相似度的视频目标跟踪算法。为了在预训练阶段尽可能与追踪网络训练阶段保持一致，本文提出在随机采样两帧的令牌进行掩码的策略。另外考虑到不同帧之间存在的帧间线索可以弥补帧内线索缺失，帧内线索也能弥补帧间线索缺失的问题。

点云领域改进

论文标题：

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

论文链接：

https://arxiv.org/abs/2303.08129

代码链接：

https://github.com/BLVLab/PiMAE

本文研究 3D 与 2D 多模态 MIM 自监督算法。核心步骤是将点云和图像对作为输入，使用两个分支的 MAE 框架学习模态嵌入，之后对齐表示训练 MAE 网络。MAE 框架中编码器包含特定模态编码器和跨模态编码器。前者更好提取特定模态特征，后者执行跨模态特征交互。训练时考虑三种损失函数：点云重建损失，图像重建损失和跨模态重建损失。