Redian新闻
>
​一文速览CVPR 2023掩码图像建模领域最新研究进展

​一文速览CVPR 2023掩码图像建模领域最新研究进展

科技

©PaperWeekly 原创 · 作者 | GlobalTrack




CV领域一般改进

论文标题

Masked Image Modeling with Local Multi-Scale Reconstruction

论文链接:

https://arxiv.org/abs/2303.05251

代码链接:

https://github.com/Haoqing-Wang/LocalMIM


本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构,以明确指导。具体地,在预训练阶段,上层和下层分别学习细尺度和粗尺度监督信号。

论文标题:

Integrally Pre-Trained Transformer Pyramid Networks

论文链接:

https://arxiv.org/abs/2211.12735

代码链接:
https://github.com/sunsmarterjie/iTPN

本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征,而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。

论文标题:

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

论文链接:

https://arxiv.org/abs/2211.09117

代码链接:

https://github.com/LTH14/mage


本文考虑在同一个自监督框架中学习生成模型和表示学习两个不同的任务。核心思想是使用可变掩码率在统一训练框架下进行生成学习和表示学习。本文 MAGE 方法在输入和输出中使用由向量量化 GAN 学习的语义标记。




MIM与知识蒸馏

论文标题:

TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models

论文链接:

https://arxiv.org/abs/2301.01296

代码链接:

https://github.com/OliverRensu/TinyMIM


本文通过大量实验寻找最适合 MIM 任务的知识蒸馏目标。指出 1)使用令牌关系作为蒸馏目标优于 CLS 令牌和特征图;2)使用中间层作为目标优于使用最后一层。另外本文提出顺序蒸馏思想,即模型规模逐渐缩小的策略。

论文标题:

Generic-to-Specific Distillation of Masked Autoencoders

论文链接:

https://arxiv.org/abs/2302.14771

代码链接:

https://github.com/pengzhiliang/G2SD

本文关注一般的任务导向蒸馏的性能难以令人满意,指出原因是该方法只关注特定任务特征,而忽略了一些有助于提升泛化能力知识。本文方法考虑两个蒸馏过程:任务无关蒸馏和特定任务蒸馏。任务无关蒸馏使用解码器中间层隐藏特征图作为学生模型训练目标。在后续特定任务中直接使用前阶段权重初始化。特定任务蒸馏学生模型将教师模型作为蒸馏目标。



视频领域改进

论文标题:

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

论文链接:

https://arxiv.org/abs/2303.16727

代码链接:

https://github.com/OpenGVLab/VideoMAEv2


本文考虑在模型和数据尺寸层面对 VideoMAE 进行扩展。本文考虑双掩码策略,即在编码器和解码器都使用遮挡部分可见令牌。解码器掩码目标是尽可能多样化立方体以覆盖整个视频信息。模型尺寸上考虑了未探索过的 ViT-g,数据规模上增加到到百万级别大小。

论文标题:

DropMAE: Masked Autoencoders with Spatial-AttentionDropout for Tracking Tasks

论文链接:

https://arxiv.org/abs/2304.00571

代码链接:

https://github.com/jimmy-dq/dropmae

本文是一篇研究用于跟踪任务的视频 MIM 预训练算法。这里考虑使用经典的基于相似度的视频目标跟踪算法。为了在预训练阶段尽可能与追踪网络训练阶段保持一致,本文提出在随机采样两帧的令牌进行掩码的策略。另外考虑到不同帧之间存在的帧间线索可以弥补帧内线索缺失,帧内线索也能弥补帧间线索缺失的问题。




点云领域改进

论文标题:

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

论文链接:

https://arxiv.org/abs/2303.08129

代码链接:
https://github.com/BLVLab/PiMAE

本文研究 3D 与 2D 多模态 MIM 自监督算法。核心步骤是将点云和图像对作为输入,使用两个分支的 MAE 框架学习模态嵌入,之后对齐表示训练 MAE 网络。MAE 框架中编码器包含特定模态编码器和跨模态编码器。前者更好提取特定模态特征,后者执行跨模态特征交互。训练时考虑三种损失函数:点云重建损失,图像重建损失和跨模态重建损失。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百篇论文纵览大型语言模型最新研究进展CVPR 2023 Workshop | 华为自研IPT-V2斩获NTIRE挑战赛图像去噪Track冠军​阿里云史上最大规模降价;微软第三财季业绩超预期,盘后股价涨5%;腾讯公布最新机器人研究进展;暴雪回应被网易起诉......一文概述联邦持续学习最新研究进展资本下的全民免费医疗万分昴贵信工所14篇论文被顶级国际会议ACL 2023录用,一文速览!研究速览:TAVI领域7项最新临床研究重磅发布 | EuroPCR 2023CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!OCC 2023丨高血压论坛:聚焦高血压研究进展与管理规范LLM in Medical Domain: 一文速览大语言模型在医学领域的应用CVPR 2023 | 掩码图像建模MIM的理解、局限与扩展CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!什么叫人生赢家。。活到九十九?英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023蔡天凤案重大进展!前公公是军师身份,真正动手的是另外三人江苏90后女教师自曝“丑闻”,内容劲爆毁三观,校领导也牵涉其中炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!AI竞赛再度升级!一文速览4月初10个最具代表性的AI代理与31个新产品喜报 |张锋团队新研究进展、国际饮料协会:阿斯巴甜致癌结论有误导,更全面审查尚在进行今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架CVPR 2023 医学图像分割论文大盘点近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文CVPR 2023 | 基于颜色感知背景的文档图像阴影去除CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!军旅故事原创系列(49)国徽CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023 | 谷歌提出CLIPPO:仅从像素理解图像和语言一周内连发多篇Nature!生命科学领域最新技术,多个顶尖课题组列为重点研究目标CV 又卷起来了!Meta AI 开源万物可分割 AI 模型,11 亿 + 掩码数据集可提取
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。