ICLR 2023 | DIM-SLAM：首个实现神经隐式稠密重建的RGB-SLAM

公众号新闻

2023-02-25 16:02

点击下方卡片，关注“CVer”公众号
AI/CV重磅干货，第一时间送达
点击进入—>【SLAM】微信技术交流群

Paper: Dense RGB SLAM With Neural Implicit Maps

作者：Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Ping Tan

单位：HKUST，Alibaba，SFU

主页：https://poptree.github.io/DIM-SLAM/

Paper：https://openreview.net/forum?id=QUK1ExlbbA

Pipeline

一作老哥一次性挂了三个单位，看起来这博士也读的颠沛流离的。

本篇论文介绍了一种新的密集RGB SLAM方法，采用神经隐式函数来表示地图，相较于之前的方法具有不同之处。与传统的RGB-D SLAM方法不同，我们的方法不需要深度输入，并且不需要任何预训练模型。为了实现这一挑战性的目标，我们引入了一个分层的特征体积来辅助隐式地图解码器，有效地融合不同尺度的形状线索以促进地图重建。同时，我们通过匹配渲染和输入视频帧来同时解决相机运动和神经隐式地图。为了更好地约束相机姿态和场景几何，我们进一步在损失函数中应用了光度曲翘损失。我们在常用的基准测试中，如Replica和TUM上评估了我们的方法，并与现代RGB和RGB-D SLAM系统进行了比较。与之前的方法相比，我们的方法实现了优异的性能，并且甚至超过了一些最新的RGB-D SLAM方法。

本文亮点如下：

第一个使用神经隐式表达实现了稠密重建的RGB-SLAM系统
不需要任何预训练模型，如单目深度估计和光流，就能同时优化场景和相机位姿。
相机位姿的准确度超过了以前的方法并且甚至超过了一些最新的RGB-D SLAM方法。

介绍

传统的RGB-D SLAM方法需要RGB-D相机来获取深度信息，深度相机成本较高，且通常只在室内环境效果较好。因此，发展只使用RGB相机的RGB-SLAM方法变得尤为重要。同时，随着神经隐式函数的发展，如NeRF，其在3D数据处理方面表现出更加优越的性能，因此利用神经隐式函数表示地图在RGBD-SLAM中得到了广泛应用。这种表示方式具有更加紧凑、连续的特点，并且能够预测未观察到的区域，从而有助于路径规划和物体操作等应用。

对比NICE-SLAM，DIM-SLAM在某种程度上在真实场景上能恢复更好的重建结果

难点

基于神经隐式函数的RGB-SLAM方法比传统RGB-D SLAM方法更难实现，因为RGB-SLAM方法需要从视觉输入中同时估计相机姿态和场景的三维结构，而隐式函数必须从有限的视角和像素值中推断出场景的隐式表示。此外，对于大型场景，隐式函数需要具有很高的表达能力和空间分辨率，同时还需要有效的训练和优化方法在有限的时间内收敛。因此，开发一种能够在常规RGB相机上运行的神经隐式函数RGB-SLAM方法是一项具有挑战性的任务。

即使是非常小的物体也能够重建，只需要调整体素的分辨率和边长

算法

神经隐式函数在没有深度输入作为监督的情况下难以收敛，为了克服这个问题，该方法引入了一个分层的特征体素以提高场景表示能力。实验表明这个设计能够在只有RGB作为监督的情况下加速深度的收敛。同时为了能在优化深度的情况下同时优化相机位姿，我们设计了一种基于patch的光度曲翘损失函数来更好地约束相机运动和场景地图。

多尺度的SSIM warping loss，在光流中比较常见

结果

这篇文章在Replica上的相机位姿精度超过了RGBD-SLAM，如NICE-SLAM。同时与当前SOTA的RGB方法，DROID-SLAM，有相似的效果。

Results on Replica

在传统的TUM RGBD数据集上，DIM-SLAM也有与传统RGBD-SLAM方法相媲美的效果。

Results on TUM

DIM-SLAM作为RGB-only的方法，在重建的可视化上效果不逊色与RGB-D的方法，如iMAP。

Visualization on Replica

总结

NeRF based slam是一个非常火热的方向。因为这一类方法对于RGB-only的input，能够直接完成端到端的重建，并且估计出相机的位姿。这篇文章还在openreview上提供了一些video demo。

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：ECCV2022，即可下载ECCV 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

SLAM 交流群成立

扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-SLAM 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如SLAM+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群