Redian新闻
>
NeurIPS 2022 | 中科院&图森未来提出FSD:全稀疏的3D目标检测器

NeurIPS 2022 | 中科院&图森未来提出FSD:全稀疏的3D目标检测器

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

作者:明月不谙离苦 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/583008657


介绍一下我们组前段时间的一个微小工作

Fully Sparse 3D Object Detection (NeurIPS 2022)

Authors:Lue Fan, 王峰, 王乃岩,Zhaoxiang Zhang

论文:https://arxiv.org/abs/2207.10035

代码已经开源在:

https://github.com/tusen-ai/SST

长话短说,我们提出了一种基于激光雷达的全稀疏3D物体检测器,在Waymo数据集和Argoverse 2数据集上都达到了不错的精度和速度。下面是一个简要的介绍。

一、导言

目前以SECOND,PointPillars以及CenterPoint为代表的主流一阶段点云物体检测器都或多或少依赖致密特征图(dense feature map)。这些方法基本都会把稀疏体素特征“拍成“dense BEV feature map。这样做可以沿用2D检测器的很多套路,取得了非常不错的性能。但是由于dense feature map的计算量和检测范围的平方成正比,使得这些检测器很难scale up到大范围long-range检测场景中。比如新出的Argoverse 2数据集具有[-200, 200] x [-200, 200] 的理论检测范围,比常用的不超过[-75. 75] x [-75, 75] 的范围大了许多。于是便引出了本文想解决的一个痛点问题:

如何去掉这些dense feature map,把检测器做成fully sparse的,以此高效地实现 long-range LiDAR detection?

这里补一句:全稀疏其实并不是一个新概念,在点云物体检测发展的早期,以PointRCNN为代表的众多纯point-based 方法天生就是全稀疏的。但由于Neighborhood query和FPS的存在,纯point-based方法在大规模点云数据上的效率不是很理想。这就导致纯point-based方法在点云规模较大的benchmark上性能表现不佳(没办法用较大的模型和分辨率。)

而去掉dense feature map的一个直接问题就是会导致物体中心特征的缺失(center feature missing)。这是由于点云常常分布在物体的侧表面,对于大物体尤其如此。在dense detector中,多层的卷积会把物体边缘的有效特征扩散到物体中心,因此这些检测器不存在直接的中心特征缺失问题,可以使用已被证明非常有效的center assignment。下图展示了特征扩散的过程:

为了解决在全稀疏结构下中心特征缺失的问题,我们有一个基本想法:

既然中心特征缺失了,那么就不依靠中心特征做预测,而是依靠物体整体的有效特征做预测。

二、方法

顺着上面的基本想法,一个具体的思路就是先把物体分割出来,再将物体当作一个整体,并用稀疏的方式提取特征。第一步的分割在全稀疏的结构下很好实现,接下来物体特征的提取也可以通过众多成熟的point-based方法实现。那么我们的方法就呼之欲出了:

  1. sparse voxel encoder作为backbone和segmentor来分割物体并预测每个点所对应的物体中心

  2. 对预测出来的众多中心点进行聚类,得到一个一个的instance。这一步类似VoteNet,但我们采用了connected component labeling的方式来聚类,这一点其实对大物体性能挺重要的。

  3. 对于每一个instance用稀疏的方式提取整体特征,并进行该instance外接框的reasoning。

前两步都很简单直接,但第三步稍有麻烦。对instance提取特征最常用的选择就是在instance内部做point-based operation, 但是之前提到这类方法效率较低。因此我们试图规避其中诸如neighborhood query和FPS这种比较耗时的操作。我们的想法是,既然已经得到了一个个instance,何不直接将instance作为一个一个独立neighborhood group,扔掉进一步的ball query或者KNN操作。

这样做实质上是把instance当成了“voxel”来处理,因为instance和voxel本质上都属于对整个点云的一种non-overlapping划分。那么我们就可以直接套用提取单个体素特征那一套方案来提取instance特征,比如Dynamic VFE。具体而言,就是对instance内的每个点做MLP,再做instance-wise的pooling得到instance feature。instance feature又可以重新assign到instance内部的每个point上,这一过程可以不断重复。这本质上是多个简单的PointNet叠加,也可以换成其他更强力的操作。值得强调的是,由于3D空间里instance之间天然不会重叠(正如同voxel),以上的pooling操作可以通过torch中scatter operation来高效地动态实现(无需对每个组进行padding或者设置点数上限)。

得到最终的instance feature之后,直接预测对应instance的外接框和类别即可,我们将整个对instance进行处理的模块称之为 Sparse Instance Recognition (SIR)。

方法总体框架如下图所示:

Overall Pipeline

这其中还包含着一些后续操作,比如对重新分割出比聚类得到的更准确的instance,感兴趣的读者可以查看原文。


三、结果

提出的方法在Waymo的单帧单模型标准赛道上达到了SOTA的性能

Waymo validation 上的性能,截图不全,感兴趣的读者可查看原论文

同时也在新出的Argoverse 2数据集上超越了主流的CenterPoint(虽然还没几个人刷。。)。

值得多提一嘴的是我们的方法在长距离检测上有巨大的效率优势,如下图所示

这是用SST backbone测的,用SparseConv的backbone效果更佳

四、一些特性


  1. 我们的方法不受sparse backbone的类型限制,比如文中我们就使用了sparse transformer和sparse conv两种结构。这一点使得FSD可以作为sparse backbone方面研究的一个strong baseline。

  2. 该方法虽然暂时聚焦在检测任务,但已经有了multi task的影子,可以把segmentation和detection一体化。

  3. 前向速度很快,再加上收敛也极快,Waymo上训练6个epoch就可以达到准sota水平。这在8 x 3090上只需要不到半天时间,其他方法达到相同性能可能需要至少2天的训练时间。这应该会给大家的快速实验迭代提供很大便利。

  4. 我们相信稀疏化是将来的一个趋势。在很多场景下,sparse feature都比相比笨重的dense feature map具有更高的可操作性和灵活性,欢迎大家试用我们的模型。


点击进入—> CV 微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


3D目标检测交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-3D目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如3D目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华提出首个退化可感知的展开式Transformer|NeurIPS 2022危机不断缩减成本,图森未来被曝计划裁撤一半员工,波及700人将通信带宽降低至十万分之一,NeurIPS 2022论文提出新一代协作感知方法首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022中科院大佬带队!目标检测和语义分割训练营来了!全程免费!图森未来暴雷!CEO、董事长突被开除,股价暴跌近50%!遭SEC、FBI连手调查...「宫斗」之后,半年巨亏2.2亿美元!传图森未来拟下周裁掉一半人突发!图森未来CEO侯晓迪被免职中科院化学所、上科大、中科院大学等被列为美国商务部新清单名录7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型NeurIPS 2022 | 一句话让3D模型生成逼真外观风格!精细到照片级细节!NeurIPS 2022 Oral | 离线强化学习新范式!京东科技&清华提出解耦式学习算法NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架让孩子开心就好 ???图森未来内斗加剧:陈默重任董事长 踢走叛乱董事会成员Transformer检测神器!detrex:面向DETR系列的目标检测开源框架NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++图森未来CEO离奇被炒:当事人否认指控,股民集体诉讼在即NeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法图森未来华人CEO突然被炒?遭SEC、FBI联手调查,公开喊冤:我没有任何不正当行为!NeurIPS 2022 | 阿里浙大提出利用更典型的特征来提升分布外检测性能NeurIPS 2022 | FCOS-LiDAR:全卷积单阶段3D目标检测NeurIPS 2022 | 马里兰、北大等机构提出量子算法用于采样对数凹分布和估计归一化常数突发!图森未来CEO侯晓迪被罢免,公司疑遭SEC、FBI联手调查,市值一夜砍半从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet最爱枣泥馅女王去世当天,意外收到她的回信NeurIPS 2022 | 将通信带宽降低至十万分之一,上海交大提出新一代协作感知方法龙卷风健康快递 212NeurIPS 2022 | 清华提出首个退化可感知的展开式TransformerNeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet警察说:晚上睡觉要锁门!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。