Redian新闻
>
AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略

AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散和3D】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文介绍了来自北京大学王选计算机研究所的王勇涛团队与其合作者的研究成果BEV-MAE。针对自动驾驶场景,该篇工作提出了一个高效的LiDAR感知模型预训练策略,可缓解LiDAR感知模型对标记数据的需求,论文已发表在AAAI 2024。

论文标题:BEV-MAE: Bird’s Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios          
论文:https://arxiv.org/abs/2212.05758          
主页:https://github.com/VDIGPKU/BEV-MAE

论文概述

本文提出了BEV-MAE,一种高效的3D点云感知模型预训练算法,可直接使用大量的无标记点云数据对感知模型进行预训练从而降低对点云标记的需求。BEV-MAE首先使用鸟瞰图引导的掩码策略来对3D点云输入进行掩码,该部分被掩盖的点云将被替换为共享的可学习令牌。之后被处理过的点云依次输入到3D编码器和轻量级的解码器中,由轻量级的解码器重建被掩盖的点云并预测被掩盖区域的点云密度。BEV-MAE在自动驾驶感知数据集Waymo上以最低的预训练代价取得了最高的3D目标检测精度提升。同时,基于Transfusion-L检测器,BEV-MAE在自动驾驶感知数据集nuScenes上取得了领先的3D点云目标检测结果。    

研究背景:

3D目标检测是自动驾驶中最基本的任务之一。近年来,由于标注数据集和数据量的增加,基于激光雷达(LiDAR)的3D目标检测算法取得了显著的成功。然而,现有的基于激光雷达的3D目标检测算法通常采用从头开始训练的范式(training from scratch)。这种范式存在两个显著的缺陷。首先,从头开始训练的范式在很大程度上依赖于大量的标注数据,而对于3D目标检测而言,标注准确的物体包围框和分类标签是需要大量人工参与的,且非常昂贵和耗时的。例如,在KITTI数据集上标注一个物体需要大约114秒。其次,在许多实际应用场景中,自动驾驶车辆在行驶过程中可以生成大量无标注的点云数据,而从头开始训练的范式不能很好地将这部分数据利用起来。

方法部分:

针对该问题,作者研究了一种针对自动驾驶场景的 3D 点云自监督预训练方法,提出了一种名为 BEV-MAE 的鸟瞰图掩码自编码器框架,专门用于预训练自动驾驶场景的 3D 目标检测器。具体流程图如下图所示:

   

BEV-MAE首先使用鸟瞰图引导的掩码策略来对3D点云输入进行掩码。然后,这部分被掩盖的点云将被替换为共享的可学习令牌。之后,将处理后的点云依次输入到3D编码器和轻量级的解码器中。最后,轻量级的解码器将重建被掩盖的点云并预测被掩盖区域的点云密度。

a、鸟瞰图掩码策略

在基于激光雷达的3D目标检测中,点云通常被划分为规则的体素块。一种简单的掩码策略是像视觉中的补丁掩码一样,对体素化后的点云进行掩码。然而,这种简单的体素掩码策略没有显式地学习自动驾驶中主流的3D目标检测方法中使用的鸟瞰图特征表示。

为此,作者提出了一种鸟瞰图引导的掩码策略对鸟瞰图平面中的点云进行掩码操作。

具体而言,假设点云被编码和转换后鸟瞰图视角中的特征分辨率为,首先预定义一个大小为的网格状鸟瞰图平面。然后,根据点云的坐标将每个点云投影到预定义平面的相应鸟瞰图网格中。之后,作者将随机选择一部分非空的鸟瞰图网格作为被掩码的网格,并将其余的鸟瞰图网格视为可见网格。最后将所有投影到可见网格中的点云视为掩码后的点云输入到网络中。

b、共享可学习token

常用的基于体素的3D目标检测器的3D编码器通常由多个稀疏卷积操作组成,而稀疏卷积仅会处理非空体素附近的特征,因此,将掩码后的点云作为输入时,3D编码器的感受野将会变小。为了解决这个问题,作者采用一个共享的可学习令牌替换被掩盖的点云。具体来说,作者使用完整点云的坐标作为稀疏卷积的输入索引,并在第一个稀疏卷积层中用共享的可学习令牌替换被掩码点云的特征,同时保持其他稀疏卷积层不变。所提出的共享可学习令牌的唯一目的是将信息从一个点或体素传递到另一个点或体素,以维持感受野大小不变,而不引入任何额外的信息,包括被掩码点的坐标,来降低重建任务的难度。    

c、掩码预测任务

所提出的BEV-MAE由两个任务作为监督,即点云重建和密度预测。对于每个任务,都采用独立的线性层作为预测头来预测结果。

对于点云重建,与之前的工作类似,BEV-MAE通过预测被掩码点云的坐标来重建掩码输入。采用chamfer-distance作为训练损失函数。

对于密度预测,不同于图像、语言和室内点云,自动驾驶场景中室外点云的密度具有随离激光雷达传感器越远而越稀疏的特性。因此,密度可以反映每个点或物体的位置信息。而对于目标检测而言,检测器的定位能力至关重要。因此,点云密度预测任务能够一定程度上指导3D编码器获得更好的定位能力。

具体而言,对于每个被掩码的网格,计算此网格中的点云数量,并通过将点云数量除以其在3D空间中的占用体积来得到对应的密度真值。然后,BEV-MAE使用线性层作为预测头来预测密度。密度预测使用Smooth-L1损失来监督此任务。

实验部分:   

BEV-MAE主要在两个主流的自动驾驶数据集nuScenes和Waymo上进行实验。

在Waymo上,BEV-MAE以较低的预训练代价,取得了更高的3D目标检测性能提升,如下图所示:

在nuScenes上,以BEV-MAE作为预训练算法,能够进一步提升当前最强点云3D目标检测器的性能。以TransFusion-L作为基础3D检测器,外加BEV-MAE的预训练算法,在nuScenes数据集上取得了先进的单模态点云3D目标检测结果。

结论:

本文针对点云预训练问题,提出了BEV-MAE,一种基于掩码模型的LiDAR感知模型预训练策略,在预训练效率和性能上表现出色,可缓解LiDAR感知模型对标记数据的需求。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent2024 房价预期将持续上涨【直播中】2024 CCTV春晚直播ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge从专用到通用-预训练大模型和AI agent,浅谈人工智能的趋势和展望具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」大模型预测,下一个token何必是文字?CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型房东凯(11)焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行长篇小说《太门西》连载54:第18章:峡江夜行(3)CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体国家标准《生成式人工智能预训练和优化训练数据安全规范》征求意见ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准AI早知道|HeyGen推自动剪辑工具;智谱AI文生视频模型预计年内发布dá àn jiē xiǎo 🥳CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构大模型增量预训练新技巧-解决灾难性遗忘Meta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!2024 新一批裁员浪潮,你的公司上榜了吗?ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶黄石公园6日轻奢品质小众团:盐湖城接送+黄石湖自驾小艇+大提顿国家公园漂流+大提顿山缆车+露营5/22-9/11隔周三出发YA654:51:7:台灣政黨政治很自負CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架Niu Niu's A Journey to Overcoming Fear & Forming ConnectionsICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少回乡首记【龙年卜卦】古风 · 甲辰无立春(2024)CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力一个橘子的故事
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。