Redian新闻
>
ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案

ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案

公众号新闻


论文链接:
https://arxiv.org/abs/2302.02318

代码链接:

https://github.com/qizekun/ReCon


介绍一下我们在 3D 表征学习上的新工作,ReCon: Contrast with Reconstruct,通过生成式学习指导对比学习实现高效的 3D 表征,在ScanObjectNN 上实现 91.26% 的 OA,在 ModelNet40 实现 66.8% 的 Zero-Shot 精度,以及多项 SOTA,代码已开源。




引言


我们知道,3D 点云长期遭受着严重的数据缺乏问题,常用的 ModelNet40、ShapeNet 数据集仅包含 ~14k 与 ~51k 的数据,这与 2D 或图文多模态上动辄14M、300M 甚至 5B 的超大规模数据形成巨大对比。因此,如何在有限的数据上高效的提取 3D 表征成为我们的研究动机,我们从 Generative 和 Contrastive 两大主流的自监督框架入手进行分析。

我们首先研究了 MPM(Masked Point Modeling)、CMC(Cross-modal Contrastive)和 SMC(Single-modal Contrastive)等预训练方法对 Pretrain 数据的依赖性,我们在 ShapeNet 上进行预训练,并在 ScanObjectNN 上测试迁移性能,结果在图(a)中展示。我们发现:


  • Contrastive 方法具有 Over-fitting 问题


当缺乏预训练数据(<90%)时,Contrastive 模型无法带来泛化性能,而 Generative 模型仅需大约 25% 的数据就可以给下游任务带来显著的性能提升。这表明,对比学习很容易找到表征捷径来过度拟合有限的数据[1],而生成式模型对数据的依赖程度较低,可以用很少的数据学习到良好的初始化。


  • Generative 方法具有 Data filling 问题


当预训练数据扩大时,对比学习呈现出更好的潜在能力,而生成模型在提供更多数据时只带来较小的性能提升(从 75% 提升到 100% 的数据对下游任务的改善并不明显)。这表明,当预训练数据足够时,对比学习可以为生成模型带来更强的数据扩展能力。在 2D 中,对比学习模型[2]在下游任务的效果超越了扩展能力较弱的生成模型[3]


我们还研究了MPM(Masked Point Modeling)、CMC(Cross-modal Contrastive)在感受野和注意力区域上的区别,类比 2D 中 ViT 的 Average Attention Distance[4],我们根据 3D patch 中心之间的欧式距离和 attention map 权重来生成 3D Average Attention Distance,结果在图(b)中展示。


我们观察到一个模式差异问题,即对比模型的注意力主要集中在全局领域,其注意力距离逐步上升并趋于一个较高值,而生成模型对集中的局部注意力有兴趣,这与 Xie 等人在 2D 的观察结果一致[5]


如何有效地结合 Contrastive 和 Generative 方法,并且规避其在注意力模式上的区别成为我们工作的 motivation。




知识蒸馏——对比式和生成式的统一理论

对比学习通过对统一样本数据的不同 view 进行拉进、不同样本的view进行推远来促使模型学习深层次的知识,这里的 view 可以是单模态[6],也可以是多模态的[7], 其本质上相当于在 feature map 或 logits 上相互提供监督信号来寻找全局语义上的联系,即不同 view 下特征的蒸馏。

生成式模型通过 denoising autoencoder 的方式,对数据样本施加扰动(例如mask),并设置数据样本的某一种 view(例如 pixel[3]、VQ code[8]、HOG 特征[9] 等等)作为 teacher 提供监督信号。其本质在于迫使模型学习局部特征的相互关系来实现对教师特征的对齐。


在知识蒸馏的视角下,我们统一了 Contrastive 和 Generative 两种自监督范式,由此引申出 ReCon 模型,通过多教师蒸馏与学生协同学习下的自监督模型(student-teacher knowledge distillation with student-student assistance)。Local teacher 通过局部语义的复原来使 Local student 学到丰富的局部知识,Local student 向 Global student 提供局部知识以帮助其全局知识的学习。


在细节上,二者使用不同的 Transformer Attention 架构来规避注意力模式的差异。关于生成式学习的形式,可以类似于 BEiT[8]、ACT[10]通过 Tokenizer 生成语义 token 用于重建,即使用 Tokenizer 作为 Teacher 监督,也可以类似于 MAE[3]、PointMAE[11]直接重建源数据,即使用 Identity 作为 Teacher 监督。而关于对比学习的形式,可以类似于 CLIP[7]进行跨模态之间的对比学习,也可以类似于 SimCLR[6]、PointContrast[12]进行单模态的对比学习。




方法

我们在主图展示了 ReCon 的 encoder-decoder 框架,其中 Point Identity 作为Local 3D Point Cloud Encoder 教师,跨模态预训练模型作为 Global 3D Point Cloud Decoder 教师,这种配置在后续的消融实验被验证有最优的效果。


我们使用 timm[13]或 CLIP[7]的视觉编码器作为 ReCon 的 2D Teacher,CLIP 的文本编码器作为 ReCon 的 Text Teacher,并在后续的消融实验发现 freeze parameter 有利于知识的迁移。对于 Local 3D Point Cloud Encoder,我们完全采用 MAE 式的非对称结构,来防止位置编码在点云重建中可能附有的知识泄露。

在模型结构上,我们使用了类似 BART[14]的 encoder-decoder 结构,每个 Stream 在一个 layer 中均包含一个 Attention 层与 FFN 层,其中 encoder 的 inputs embeding 产生 Cross Attention 的 K 与 V,并使用 stop-grad 来防止梯度干扰。由于 global queries 一般仅包含少量的几个 token,在运算效率上并不会比单流网络增加很多。




实验


我们的 ReCon 在点云分类最常用的两个数据集 ScanObjectNN 和 ModelNet40 均取得了 SOTA 的性能,尤其是在 ScanObjectNN 的迁移效果,达到了惊人的 91.26% Overall Accuracy。

此外,我们将 ReCon 分为三种设置,ReCon-T、ReCon-S 和 ReCon,他们的模型结构完全一样,仅有模型维度上的区别。即使使用了更小维度的 ReCon 依然产生了优异的性能,拥有 19M 甚至 11M 参数的 ReCon 依然大幅度优于 PointMAE 等 3D 自监督方法。

如果进一步利用 Pretrain Text Teacher,可以实现 Zero-Shot 分类,下表展示了 ReCon 在 ModelNet40 上的 Zero-Shot 性能,同样远超其他方法。




讨论


1. ReCon优良性能的来源?


我们首先从 loss 的角度进行分析,我们记录了 vanilla CMC(Cross-Modal Contrastive)与我们的经过重建指导的 ReCon-CMC 在 ShapeNet 测试集(未用于预训练)的 loss 曲线,并记录了在 ScanObjectNN 上的相应微调精度。可以看出,我们的 ReCon-CMC 的测试对比损失始终低于普通的 CMC,并且更加稳定地收敛到较低的值,表明我们的 ReCon 带来了更好的预训练对比任务的泛化性能,而不会陷入简单解决方案的捷径,预训练过程中的过拟合问题得到缓解。

此外,我们也对不同 token 的 attention map 进行了可视化分析,包括 Local Student Encoder 的局部 token 与Global Student Decoder 的全局 Query,我们用红色的圆圈将查询 Token 圈出,红色和黄色区域代表注意力的重点区域,青色和紫色区域为注意力的忽视区域。


可以看出,3D 点云中的 Local Token 更多地关注 Token 本身周围的几何结构,而 Global Query 则关注对象的整个部分。甚至,局部表征可能已经学会了对称性的一些几何理解或世界知识。例如,飞机左翼上的 Token 也注意到了右翼。此外,Global Image 和 Text Query 可能学到了一些互补的知识。

2. 是否Pretrained Cross-Modal Teacher is all your need?

为验证模型的收益并不来自教师,而是因为 ReCon 结构是一种优良的  Generative learning 和 Contrastive learning 结合方法,我们在论文的附录 C 中探究了另外两种掩码数据建模和对比学习结合的方法,包括 Vanilla Multi-task Learning Fusion 和 Two-Tower Network,他们都用了包含预训练权重的跨模态教师来做指导。
  • vanilla multi-task 通过添加多个类似于 [cls] Token 的 nn.Parameters() token 用于进行对比学习
  • two-tower network 通过两个单独的 Transformer 训练各自的代理任务

经过实验,简单的将包含预训练权重的跨模态知识进行传递并不会产生效果,我们猜测这是引言所表现出的模式差异所导致的,即 Local-Global 的注意力模式差异与数据缺乏导致的过拟合问题。而这种模式差异正是我们设计 ReCon block 的动机。





ReCon 大幅提升了 3D 表征学习的效果,在点云分类与 Zero-Shot 中均取得了 SOTA 的性能。但我们认为 ReCon 发现并解决的问题并不是在 3D 中特有的,在其他缺乏数据,或相对缺乏数据的模态中依然有可能有效,我们希望有更多 ReCon-Style 的架构在更多领域出现。




相关工作


相关工作包括:
ACT (https://arxiv.org/abs/2212.08320,ICLR’23) 

CLIP-FO3D (https://arxiv.org/abs/2303.04748)


参考文献

[1] Shortcut learning in deep neural networks

[2] CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet

[3] Masked autoencoders are scalable vision learners

[4] An image is worth 16x16 words: Transformers for image recognition at scale

[5] Revealing the dark secrets of masked image modeling

[6] A simple framework for contrastive learning of visual representations

[7] Learning transferable visual models from natural language supervision

[8] Beit: Bert pre-training of image transformers

[9] Masked feature prediction for self-supervised visual pre-training

[10] Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?

[11] Masked autoencoders for point cloud self-supervised learning

[12] Pointcontrast: Unsupervised pre-training for 3d point cloud understanding

[13] PyTorch Image Models

[14] Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
柏林工大也有自己的Döner店了!2023年GCSE与A-level报名趋势解读!数学热度依旧,计算机成为新晋顶流,而语言和艺术类“陷入困境”!往事并不如烟炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!【Y家同款北欧沥水篮】6个组合才9.9包邮,真的好实用啊!家居用品也久看不腻!到底有什么魔力,人人都爱新西兰这座小镇?今天告诉你答案!留学澳洲 院校推荐 | 从迪肯学院到迪肯大学,这里有一个机会,让你加入最优,成为最优!蛋白质领域的ChatGPT,首次使用对比学习准确预测酶功能为什么新能源跌跌不休?舌尖上的杨梅告诉你答案豹子和狼谁吃家畜多?铲屎官来告诉你答案中国希望乌克兰战争怎样结束沪上两位顶尖英美顾问现场连麦答疑,暑期究竟做科研还是玩科创,行业名师给你答案,更有魔都头部校长坐镇线下活动!摩尔线程商业化初见成果,全功能GPU才是最优解?CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别火星“飙车”是种什么体验?他能告诉你答案出国留学究竟值不值?在美十年的我想告诉你一个最真实的答案CVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果归来[电脑] 用攒机来回答两个问题:B760天选用13700k电压还高吗?RTX4080是4k高刷游戏的最优解?带娃跑了3家医院,确诊了!亲身经历告诉你,这件事比学习更重要【科普】想知道伊大毕业生有多成功?让数据来告诉你为什么现在网上购物 不比线下商超便宜了?我来告诉你原因WSDM 2023 | HGCL: 探索推荐系统中的异质图对比学习第三届 冇(Mǎo)国际青年影像周 开始征片啦!国际要闻简报,轻松了解天下事(03往事并不如烟在Woolies这样结账比较便宜?澳女抖音分享男友省钱妙招,网友却劝分手(组图)学会如何学习,比学习本身更重要:这意味着要打破自我的“认知天性”2089 年应该穿什么?adidas 告诉你答案2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一国际要闻简报,轻松了解天下事(03疯狂星期四赢了麦当劳吗,V我50告诉你答案IJCAI 2023放榜!接收率15%:中稿全凭运气?rebuttal没用?审稿人只盯负面评价?“你要显得很难追,才会被对方珍惜!”研究告诉你,这种套路究竟是对还是错?my tasks in terms of their emotional value看看Stanford’s 2023 surgical team的组成,有些出乎意料生活成本持续提高,金融专家来告诉你何为正确加薪!来看看你的工资是否跑赢了通胀!质疑习总携普大帝共创“百年大变局”:海外华人看中国走向应该说more eco-friendly还是eco-friendlier?国际要闻简报,轻松了解天下事(03
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。