一文速览CVPR 2023掩码图像建模领域最新研究进展
©PaperWeekly 原创 · 作者 | GlobalTrack
CV领域一般改进
论文标题:
Masked Image Modeling with Local Multi-Scale Reconstruction
https://arxiv.org/abs/2303.05251
https://github.com/Haoqing-Wang/LocalMIM
本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构,以明确指导。具体地,在预训练阶段,上层和下层分别学习细尺度和粗尺度监督信号。
论文标题:
Integrally Pre-Trained Transformer Pyramid Networks
https://arxiv.org/abs/2211.12735
本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征,而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。
论文标题:
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis
https://arxiv.org/abs/2211.09117
https://github.com/LTH14/mage
本文考虑在同一个自监督框架中学习生成模型和表示学习两个不同的任务。核心思想是使用可变掩码率在统一训练框架下进行生成学习和表示学习。本文 MAGE 方法在输入和输出中使用由向量量化 GAN 学习的语义标记。
MIM与知识蒸馏
论文标题:
TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models
https://arxiv.org/abs/2301.01296
https://github.com/OliverRensu/TinyMIM
本文通过大量实验寻找最适合 MIM 任务的知识蒸馏目标。指出 1)使用令牌关系作为蒸馏目标优于 CLS 令牌和特征图;2)使用中间层作为目标优于使用最后一层。另外本文提出顺序蒸馏思想,即模型规模逐渐缩小的策略。
论文标题:
Generic-to-Specific Distillation of Masked Autoencoders
https://arxiv.org/abs/2302.14771
https://github.com/pengzhiliang/G2SD
本文关注一般的任务导向蒸馏的性能难以令人满意,指出原因是该方法只关注特定任务特征,而忽略了一些有助于提升泛化能力知识。本文方法考虑两个蒸馏过程:任务无关蒸馏和特定任务蒸馏。任务无关蒸馏使用解码器中间层隐藏特征图作为学生模型训练目标。在后续特定任务中直接使用前阶段权重初始化。特定任务蒸馏学生模型将教师模型作为蒸馏目标。
视频领域改进
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
https://arxiv.org/abs/2303.16727
https://github.com/OpenGVLab/VideoMAEv2
本文考虑在模型和数据尺寸层面对 VideoMAE 进行扩展。本文考虑双掩码策略,即在编码器和解码器都使用遮挡部分可见令牌。解码器掩码目标是尽可能多样化立方体以覆盖整个视频信息。模型尺寸上考虑了未探索过的 ViT-g,数据规模上增加到到百万级别大小。
论文标题:
DropMAE: Masked Autoencoders with Spatial-AttentionDropout for Tracking Tasks
https://arxiv.org/abs/2304.00571
https://github.com/jimmy-dq/dropmae
本文是一篇研究用于跟踪任务的视频 MIM 预训练算法。这里考虑使用经典的基于相似度的视频目标跟踪算法。为了在预训练阶段尽可能与追踪网络训练阶段保持一致,本文提出在随机采样两帧的令牌进行掩码的策略。另外考虑到不同帧之间存在的帧间线索可以弥补帧内线索缺失,帧内线索也能弥补帧间线索缺失的问题。
点云领域改进
论文标题:
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection
https://arxiv.org/abs/2303.08129
本文研究 3D 与 2D 多模态 MIM 自监督算法。核心步骤是将点云和图像对作为输入,使用两个分支的 MAE 框架学习模态嵌入,之后对齐表示训练 MAE 网络。MAE 框架中编码器包含特定模态编码器和跨模态编码器。前者更好提取特定模态特征,后者执行跨模态特征交互。训练时考虑三种损失函数:点云重建损失,图像重建损失和跨模态重建损失。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者