Redian新闻
>
CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真

CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【3DGS和自动驾驶】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

          

本文介绍了来自北京大学王选计算机研究所的王勇涛团队与其合作者的最新研究成果DrivingGaussian。针对自动驾驶场景,该篇工作提出了一个高效、高质量的动态环视驾驶场景三维重建与仿真框架,在大规模环视动态驾驶场景重建任务上表现出色,论文已被CVPR 2024录用。

论文标题:DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes          
论文:https://arxiv.org/abs/2312.07920          
项目主页:

https://github.com/VDIGPKU/DrivingGaussian

论文概述:

本文提出了DrivingGaussian,一个高效、高质量的动态环视驾驶场景三维重建与仿真框架。对于具有复杂背景和动态物体的室外驾驶场景,DrivingGaussian首先使用增量式3D高斯逐步建模整个场景的复杂静态背景。针对场景中运动的前景物体,DrivingGaussian构建了组合动态高斯图用以表征每个动态前景物体并恢复它们在场景中的准确位置和遮挡关系。DrivingGaussian还首次将LiDAR先验引入3D高斯表征,使用LiDAR点云先验作为初始化以更好地建模大规模环视动态场景的几何结构。DrivingGaussian在环视动态驾驶场景重建任务的表现优于现有方法,能够实现高保真度和多相机一致性的逼真场景重建和环视视图合成。同时在单目驾驶场景的重建任务上DrivingGaussian也表现出了优异的性能,并且能够支持自动驾驶场景的Corner Case仿真生成。

研究背景:

针对复杂动态场景的表征和建模是3D场景感知与理解的基础,并对一系列下游的自动驾驶任务至关重要。同时,对驾驶场景进行重建和可控仿真还能够合成驾驶过程中可能遇到的极端情况(例如corner case),有助于以较低成本验证和增强自动驾驶系统的安全性。另一方面,从稀疏的传感器数据中重建环视动态自动驾驶场景仍然是一个极具挑战性的问题,由于这类场景通常具有大规模的复杂背景和高速移动的动态前景物体,面临多样的光线变化和拓扑结构。因此,研究者们需要一种更加通用且高效的环视动态场景表征与建模方法。

方法介绍:

为了解决这些关键问题,本文提出了DrivingGaussian,一个用于环视动态自动驾驶场景的三维重建方法,以实现具有高保真和多相机一致性的逼真环视视图合成。DrivingGaussian的整体架构如下图所示:   

对于具有大规模静态背景和多动态物体的复杂驾驶场景,DrivingGaussian首先通过增量式3D高斯逐步建模整个场景的静态背景。然后,我们基于组合动态高斯图建模多个运动对象并恢复它们在场景中的准确位置和遮挡关系。我们进一步利用LiDAR先验辅助建模场景表征的几何结构,结合全局渲染合成具有更高细节的场景视图并保证环视多相机的一致性。

a、增量式3D高斯背景重建

DrivingGaussian首先将动态驾驶场景中的静态背景和动态前景物体解耦,并通过增量式3D高斯建模驾驶场景的大规模静态背景。具体而言,增量式静态3D高斯利用自车运动引入的空间透视变化和相邻帧之间的时序关系将大规模场景划分为多个区域,渐进式地重建多个区域的静态背景并依次融合。增量式3D高斯背景重建能够很好地重建出复杂背景的细节信息,并能够以较低的计算代价重建整个大规模场景。

b、组合动态高斯图前景建模

由于自动驾驶场景往往具有大量的动态物体和复杂的遮挡关系,并且由于自车位移和动态对象的运动导致通常只能从有限的视角观测到实例物体。为了克服这些挑战,DrivingGaussian引入了组合动态高斯图,能够在大规模、长时序的自动驾驶场景中动态地表征建模运动实例。具体地,DrivingGaussian首先从静态背景中分离场景中每一个运动的实例物体。接着,我们构建动态高斯图,用多个独立的4D高斯表征动态物体,并用每个节点记录其在整个场景中的空间时序属性。最终,我们通过组合动态高斯图将全部动态实例物体组合进大规模静态背景,利用全局渲染得到高质量、高精度的合成渲染视图。   

c、LiDAR点云先验

自动驾驶的无边界城市场景通常包含多尺度的背景和前景,具有复杂的拓扑结构和几何形状。为了更好地建模环视动态驾驶场景的几何结构,我们首次为3D高斯表征引入了LiDAR点云先验。考虑到动态前景可能会由于拖尾、混叠等现象导致LiDAR先验的误差。因此,我们首先从LiDAR点云中移除动态对象,获取静态LiDAR点云。然后,我们使用多帧聚合将场景的LiDAR点云作为先验来初始化当前可见区域的增量式3D高斯。LiDAR先验的空间坐标进一步通过校准矩阵转换为全局坐标系。相类似地,我们使用时序聚合的LiDAR点云先验进行动态物体的高斯初始化并在之后统一到全局坐标系中。

实验结果:

本方法主要在主流的环视动态自动驾驶数据集nuScenes上进行实验。DrivingGaussian在环视驾驶数据集nuScenes上与现有最先进的方法比较结果如下表所示:

本文所提出的方法在多个评估指标中均表现出了优异的性能,超越现有方法。我们还测试了DrivingGaussian在单目自动驾驶数据集KITTI-360上的性能和现有方法的比较,结果如下表所示:   

实验结果表明DrivingGaussian在单目驾驶场景的重建任务上仍然保持了出色的竞争力。

如下图定性实验结果所示,DrivingGaussian能够合成逼真的、具有完整几何结构和清晰纹理的渲染图像,精准地建模动态对象并恢复出正确的空间遮挡关系。此外DrivingGaussian还保证了环视多相机多视角的一致性。

下图展示了DrivingGaussian能够支持自动驾驶场景的Corner Case仿真模拟,合成现实场景中的突发事件和极端案例,从而生成更具价值的Corner Case数据集用于测试自动驾驶系统的安全性和可靠性。   

结论:

本文提出了DrivingGaussian,一种基于3D高斯的动态环视驾驶场景三维重建与仿真框架,在大规模环视驾驶场景重建与仿真任务上表现出色,同时展现了在更多自动驾驶下游任务中的应用潜力。    

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


3DGS和自动驾驶交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-3DGS和自动驾驶微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如3DGS或者自动驾驶+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步Sabalenka vs. Zheng: Australian Open 2024 women's final马斯克放弃自动驾驶?特斯拉CV负责人被曝离职,马斯克急澄清Niu Niu's A Journey to Overcoming Fear & Forming ConnectionsCVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 Workshop "非接触健康监测",邀你来投稿!CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT美坛活动【Poem Reading Tuesday】My Doggy Ate My Essay by Darren Sardelhé bàng?hé bèng?Sleep Instantly Within 3 Minutes Sleep Music for Babies MozartCVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise《相爱耕织》&《一个俗人》CVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度揭秘2024智能汽车头号黑马:城市NDA+L3自动驾驶行业首秀,智驾全场景互融互通大三本科生在CVPR 2024上发表论文!【活动】Aussie Drinks with the Australian Ambassador to ChinaCVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题2024 新一批裁员浪潮,你的公司上榜了吗?CVPR最佳论文颁给自动驾驶大模型!LLM能突破行业技术“天花板”吗?AI编程正由“辅助驾驶”升级为“自动驾驶”CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024|Adobe提出人像抠图新网络MaGGIeCVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet健康投资项目总结CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型51Sim获5000万元A轮融资,聚焦自动驾驶仿真与合成数据|36氪首发青烟一缕入大漠(二)两个附小《Hush Little Baby》CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式《少年少年祖国的春天》CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。