Redian新闻
>
NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++

NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++

科技

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

一句话总结

本文通过对模型训练和缩放策略的系统研究重新审视了经典的PointNet++,并提供了两个主要贡献,进而提出PointNeXt,表现SOTA!性能优于PointMLP、Point Transformer等网络,代码已开源(5天 90+ star)!

PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies

单位:KAUST, 微软

代码:https://github.com/guochengqian/pointnext

论文:https://arxiv.org/abs/2206.0467

PointNet++ 是用于点云理解的最有影响力的神经架构之一。尽管 PointNet++ 的准确性已被 PointMLP 和 Point Transformer 等最近的网络在很大程度上超越,但我们发现很大一部分性能提升是由于改进了训练策略,即数据增强和优化技术,以及增加了模型大小而不是架构创新。因此,PointNet++ 的全部潜力还有待探索。

在这项工作中,我们通过对模型训练和缩放策略的系统研究重新审视了经典的 PointNet++,并提供了两个主要贡献。

首先,我们提出了一组改进的训练策略,显著提高了 PointNet++ 的性能。例如,我们表明,在不改变架构的情况下,PointNet++ 在 ScanObjectNN 对象分类上的整体准确率(OA)可以从 77.9% 提高到 86.1%,甚至优于最先进的 PointMLP。

其次,我们将倒置残差瓶颈设计和可分离 MLP 引入 PointNet++,以实现高效且有效的模型缩放,并提出 PointNeXt,即下一版本的 PointNets。

PointNeXt 可以灵活扩展,在 3D 分类和分割任务上都优于最先进的方法。

图一 PointNeXt网络结构。

算法细节

在这一节,我们展示了通过更先进的训练策略以及模型缩放策略提升PointNet++ 的性能。我们从两个小节分别介绍他们:

(1)训练策略现代化;

(2)网络架构现代化。

训练策略现代化

本章节中,我们简述我们的研究方法, 具体的训练策略可见后续的消融实验章节。

数据增强

数据增强是提升神经网络性能的最重要的方法之一,而PointNet++ 使用了简单的数据增强组合如随机旋转,缩放,平移,抖动(jitter)并应用于不同的数据集。最新的一些方法使用了更强的数据增强方法。例如, KPConv在训练时随机的失活(drop)部分颜色信息。在这篇工作中,我们收集了近期方法中用到的常见数据增强方法,并通过叠加实验定量地研究每个数据集上每种数据增强方法的效果。针对每一个数据集,我们提出了一组改进的数据增强方法,其可以大幅度提升了PointNet++ 的性能。

优化策略

优化技术主要包含损失函数(loss function),优化器(optimizer),学习率计划器(learning rate schedulers),和超参数(hyperparmeters)。随着机器学习理论的发展,现代化的神经网络可以被理论上更好的优化器(如AdamW)和更好的损失函数(CrossEntropy with label smoothing)训练。Cosine learning rate decay也在近年被大量使用,因为相比 step decay,它的调参更为简单而且效果不会差。在这篇工作中,我们通过叠加实验量化了每种优化策略对PointNet++的影响。同样的,针对每一个数据集,我们提出了一组改进的优化技术可以进一步提高网络性能。

模型架构现代化:小修改 → 大改进

感受野缩放

在点云网络中,使用不同的ball query radius (查询半径)会影响模型的感受野,进而影响性能。我们发现初始半径对于网络性能有很大程度上的影响,并且不同数据集上最佳查询半径不同。此外,我们发现相对坐标 使得网络优化更难,导致性能下降。因此,我们提出利用相对坐标处以查询半径以实现的归一化:

如果没有归一化,相对坐标的值会非常小(小于半径)。这就要求网络能学习到更大的权重应用于 。这使得优化变得困难,特别是考虑到权重衰减的正则化手段限制了网络权重的大小。

模型缩放

PointNet++ 用于分类和分割的模型规模均小于2M。而现在的网络参数普遍在10M以上[3,4]。有趣的是,我们发现无论是使用更多的SA模块还是使用更大的channel size都不会显著提高准确性,却反而导致thoughput显著下降。这主要是梯度消失和过度拟合导致的。在本小节中,我们提出了Inverted Residual MLP (InvResMLP)模块以实现高效实用的模型缩放。该模块建立在SA模块上,如图一的中部所示。InvResMLP和SA模块的不同点有三个:

  • 在模块的输入和输出之间添加了残差连接, 以缓解梯度消失问题
  • 引入了可分离的MLP 以减少计算量,并增强逐点的特征提取
  • 引入inverted bottleneck的设计,以提高特征提取的能力

在PointNet++基础上结合InvResMLP 和图一所示的宏观架构变化,我们提出了PointNeXt。我们将 stem MLP 的channel大小表示为 C,将 InvResMLP 模块的数量表示为 B。我们 PointNeXt 系列的配置总结如下:

  • PointNeXt-S: C = 32, B = 0
  • PointNeXt-B: C = 32, B = (1, 2, 1, 1)
  • PointNeXt-L: C = 32, B = (2, 4, 2, 2)
  • PointNeXt-XL: C = 64, B = (3, 6, 3, 3)

实验

在S3DIS语义分割上,PointNeXt-XL以mIoU/OA/mACC=74.9%/90.3%/83.0%超越了Point Transformer取得SOTA性能且在推理速度上更快。在ScanObjectNN分类上,PointNeXt-S超越目前的SOTA方法PointMLP,且推理速度快十倍。在ShapeNetPart部分分割上,加宽后的模型PointNeXt-S(C=160)达到87.2 Instance mIoU, 超越SOTA CurNet。

消融实验


上面论文和代码下载


后台回复:PointNeXt即可下载上面的论文和代码


3D点云交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-3D点云 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如3D点云+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​NeurIPS 2022 | 仅需3分钟!开源Transformer快速训练后剪枝框架来了大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022NeurIPS 2022 | 用离散对抗训练提高视觉模型的鲁棒性和泛化能力加速训练定制化BERT,ExtremeBERT工具包助力轻松快速预训练美股IPO市场回暖!太阳能技术公司Nextracker(NXT.US)上市首日涨近27%NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹注意这几点零失败豆腐脑,你可能离吃上豆腐脑只差这么几步​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘TransformerNeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器AAAI 2023 | 基于T5的两阶段的多任务Text-to-SQL预训练模型MIGANeurIPS 2022 | DetCLIP:开放域检测新方法,推理效率提升20倍!NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越NeurIPS 2022 | 如何正确定义测试阶段训练?顺序推理和域适应聚类方法【大蒜高产的要点】蒜头怎么才能长得大?CIKM2022 | 基于文本增强和缩略-恢复策略的缩略词Transformer「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet走资派邓小平是中国最大卖国贼NeurIPS 2022 | 仅用256KB就实现单片机上的神经网络训练惊世三姐妹NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型NeurlPS 2022 | 全新大模型参数高效微调方法:仅需训练0.3M的参数NeurIPS 2022 | 训练速度100倍提升!基于PyTorch实现的可微逻辑门网络开源VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链腾讯发布万亿大模型训练方法:最快256卡1天训完万亿NLP大模型从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNetCVPR 2022 | LAS-AT:一种基于可学习攻击策略的对抗训练新范式YOLOv8来啦 | 详细解读YOLOv8的改进模块!YOLOv5官方出品YOLOv8,必卷!Kubernetes 1.26 版本正式发布:改进 Windows 支持,加强网络安全和管理功能NeurIPS 2022 | 视觉感知质量攻击:NR-IQA模型鲁棒性的试金石NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架佩罗西家老头挨揍的迷思,有没有“阴谋”的可能?估计会有人这么说NeurIPS 2022 | 一句话让3D模型生成逼真外观风格!精细到照片级细节!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。