CoRL 2022 | 清华&天津大学提出SurroundDepth：自监督环视深度估计网络

2022-10-10 05:10

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：韦祎 | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/565494125

本文是对我们CoRL 2022被接收的文章SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation的介绍。在这个工作中，我们利用transformer融合环视的多视角特征，提升模型性能，并提出SfM预训练和联合位姿估计来实现真实尺度的深度图。很荣幸地，我们的文章被CoRL 2022收录，目前项目代码已开源，欢迎大家试用。

arXiv：https://arxiv.org/abs/2204.03636

Code（已开源）：

https://github.com/weiyithu/SurroundDepth

主页：https://surrounddepth.ivg-research.xyz/

概述

近年来随着人工智能的发展，自动驾驶技术飞速发展。以特斯拉为首的视觉派抛弃激光雷达，只依赖于图像进行三维感知。作为纯视觉感知方案的基石任务，基于图像的三维目标检测天然存在长尾问题。模型很可能会对数据集中没见过的类别物体漏检，而这种漏检往往是致命的。重建出整个三维场景可以作为一种安全冗余，在三维目标检测失效的情况下依然可以实现避障。

作为最简单直接且不需要点云标签的三维场景重建方式，在这个工作中我们重点研究自监督环视深度估计这个任务。自监督深度估计是一个很经典的领域，早在17年就有相关的工作，但大部分工作都是基于单目图像的。与单目图像不同，环视图像的各个视角之间存在overlap，因此可以将多个视角之间的信息进行融合得到更准确的深度图预测。除此之外，自监督单目深度估计存在尺度歧义（scale-ambiguity）问题，换句话说，预测出的深度图会与深度真值差一个尺度系数。这是因为如果位姿和深度图同时乘以一个相同的尺度，会使得光度一致性误差（photometric loss）相同。与单目深度估计不同，假设我们可以知道多个相机之间的外参，这些外参我们可以比较容易的通过标定得到，外参中包含了世界真实尺度的信息，因此理论上我们应该可以预测得到真实尺度的深度图。

我们根据环视视觉的特点提出了SurroundDepth，方法的核心是通过融合环视多视角信息以自监督的方式得到高精度且具有真实尺度的深度图。我们设计了跨视角transformer以注意力机制的形式对多视角的特征进行融合。为了恢复出真实尺度，我们在相邻视角上利用SfM得到稀疏伪点云对网络进行预训练。之后我们提出联合位姿估计去显示地利用外参信息，对深度和位姿估计网络进行联合训练。在DDAD和nuScenes数据集上的实验验证了我们的方法超过了基线方法，达到了当前最佳性能。

方法

1) 跨视角Transformer （CVT）

2) SfM预训练

这一步的目的是为了挖掘外参包含的真实世界尺度信息。一个自然的做法是以外参作为位姿估计结果，在空域上利用photometric loss得到带有真实尺度的深度图。但环视图像之间的overlap比较小，这会使得在训练开始阶段，大部分的像素都会投影到overlap区域外，导致photometric loss无效，无法提供有效的真实尺度的监督。为了解决这个问题，我们用SIFT描述子对相邻视角的图像提取correspondences，并利用三角化转换成具有真实尺度的稀疏深度，并利用这些稀疏深度对深度估计网络进行预训练，使其可以预测带有真实尺度的深度图。但由于环视多视角之间的overlap较小，视角变化较大，因此描述子的准确度和鲁棒性有所降低。为了解决这个问题，我们首先预估出overlap区域，具体为每个视角图像左右1/3部分的图像，我们只在这些区域提取correspondences。进一步地，我们利用对极约束筛掉噪点：

3）联合位姿估计

大部分深度估计方法用PoseNet估计时序上相邻两帧的位姿。拓展到环视深度估计上，一个直接的方法是对每个视角单独预测位姿。但这种方法没有利用视角之间的几何变化关系，因此无法保证位姿之间的多视角一致性。为了解决这个问题，我们将位姿估计分解为两块。首先我们预测全局位姿，具体而言，我们将所有视角图像送入PoseNet encoder，将特征平均之后再送入decoder：

实验结果

我们在DDAD(Dense Depth for Automated Driving) [1]以及nuScenes [2]上均进行了实验，使用了与Monodepth2 [3]相同的backbone网络（ImageNet pretrained ResNet34）与pose estimation网络来构建SurroundDepth。在两个数据集上的实验结果如下：

其中，我们对比了两种最先进的单目深度估计方法（Monodepth2 [3] and PackNet-SfM [4]）以及一种多相机深度估计方法FSM [5]。我们在相同的测试环境下对比了所有的方法，可以看出，SurroundDepth在两个数据集上均取得了最好的性能。

此外，由于利用了环视相机之间的交互，SurroundDepth相比其他方法的一大优势在于可以取得绝对深度估计。针对绝对深度，我们在两个数据集上进行了相关实验。可以发现，仅仅利用spatial photometric loss无法使网络学习到绝对深度。通过我们提出的SfM pretraining方法，网络才能有效地预测绝对深度。

SurroundDepth在DDAD上的可视化结果如下图：

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

深度估计 交流群成立

扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer222，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章