Redian新闻
>
CoRL 2022 | 清华&天津大学提出SurroundDepth:自监督环视深度估计网络

CoRL 2022 | 清华&天津大学提出SurroundDepth:自监督环视深度估计网络

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:韦祎 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/565494125


本文是对我们CoRL 2022被接收的文章SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation的介绍。在这个工作中,我们利用transformer融合环视的多视角特征,提升模型性能,并提出SfM预训练和联合位姿估计来实现真实尺度的深度图。很荣幸地,我们的文章被CoRL 2022收录,目前项目代码已开源,欢迎大家试用。

arXiv:https://arxiv.org/abs/2204.03636

Code(已开源):

https://github.com/weiyithu/SurroundDepth

主页:https://surrounddepth.ivg-research.xyz/


概述

近年来随着人工智能的发展,自动驾驶技术飞速发展。以特斯拉为首的视觉派抛弃激光雷达,只依赖于图像进行三维感知。作为纯视觉感知方案的基石任务,基于图像的三维目标检测天然存在长尾问题。模型很可能会对数据集中没见过的类别物体漏检,而这种漏检往往是致命的。重建出整个三维场景可以作为一种安全冗余,在三维目标检测失效的情况下依然可以实现避障。

作为最简单直接且不需要点云标签的三维场景重建方式,在这个工作中我们重点研究自监督环视深度估计这个任务。自监督深度估计是一个很经典的领域,早在17年就有相关的工作,但大部分工作都是基于单目图像的。与单目图像不同,环视图像的各个视角之间存在overlap,因此可以将多个视角之间的信息进行融合得到更准确的深度图预测。除此之外,自监督单目深度估计存在尺度歧义(scale-ambiguity)问题,换句话说,预测出的深度图会与深度真值差一个尺度系数。这是因为如果位姿和深度图同时乘以一个相同的尺度,会使得光度一致性误差(photometric loss)相同。与单目深度估计不同,假设我们可以知道多个相机之间的外参,这些外参我们可以比较容易的通过标定得到,外参中包含了世界真实尺度的信息,因此理论上我们应该可以预测得到真实尺度的深度图。

我们根据环视视觉的特点提出了SurroundDepth,方法的核心是通过融合环视多视角信息以自监督的方式得到高精度且具有真实尺度的深度图。我们设计了跨视角transformer以注意力机制的形式对多视角的特征进行融合。为了恢复出真实尺度,我们在相邻视角上利用SfM得到稀疏伪点云对网络进行预训练。之后我们提出联合位姿估计去显示地利用外参信息,对深度和位姿估计网络进行联合训练。在DDAD和nuScenes数据集上的实验验证了我们的方法超过了基线方法,达到了当前最佳性能。

方法

1) 跨视角Transformer (CVT)



2) SfM预训练

这一步的目的是为了挖掘外参包含的真实世界尺度信息。一个自然的做法是以外参作为位姿估计结果,在空域上利用photometric loss得到带有真实尺度的深度图。但环视图像之间的overlap比较小,这会使得在训练开始阶段,大部分的像素都会投影到overlap区域外,导致photometric loss无效,无法提供有效的真实尺度的监督。为了解决这个问题,我们用SIFT描述子对相邻视角的图像提取correspondences,并利用三角化转换成具有真实尺度的稀疏深度,并利用这些稀疏深度对深度估计网络进行预训练,使其可以预测带有真实尺度的深度图。但由于环视多视角之间的overlap较小,视角变化较大,因此描述子的准确度和鲁棒性有所降低。为了解决这个问题,我们首先预估出overlap区域,具体为每个视角图像左右1/3部分的图像,我们只在这些区域提取correspondences。进一步地,我们利用对极约束筛掉噪点:



3)联合位姿估计

大部分深度估计方法用PoseNet估计时序上相邻两帧的位姿。拓展到环视深度估计上,一个直接的方法是对每个视角单独预测位姿。但这种方法没有利用视角之间的几何变化关系,因此无法保证位姿之间的多视角一致性。为了解决这个问题,我们将位姿估计分解为两块。首先我们预测全局位姿,具体而言,我们将所有视角图像送入PoseNet encoder,将特征平均之后再送入decoder:



实验结果

我们在DDAD(Dense Depth for Automated Driving) [1]以及nuScenes [2]上均进行了实验,使用了与Monodepth2 [3]相同的backbone网络(ImageNet pretrained ResNet34)与pose estimation网络来构建SurroundDepth。在两个数据集上的实验结果如下:

其中,我们对比了两种最先进的单目深度估计方法(Monodepth2 [3] and PackNet-SfM [4])以及一种多相机深度估计方法FSM [5]。我们在相同的测试环境下对比了所有的方法,可以看出,SurroundDepth在两个数据集上均取得了最好的性能。

此外,由于利用了环视相机之间的交互,SurroundDepth相比其他方法的一大优势在于可以取得绝对深度估计。针对绝对深度,我们在两个数据集上进行了相关实验。可以发现,仅仅利用spatial photometric loss无法使网络学习到绝对深度。通过我们提出的SfM pretraining方法,网络才能有效地预测绝对深度。

SurroundDepth在DDAD上的可视化结果如下图:


点击进入—> CV 微信技术交流群


CVPR 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


深度估计 交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
那些被骗的人Gender Gap in China’s Science Sector Narrowing, Report SuggestsNeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法CoRL 2022 | 清华&天津大学提出SurroundDepth:自监督环视深度估计网络Logitech Z506 Surround Sound Home Theater Speaker SystemCities Offer Huge ‘Group Buying’ Discounts on Unsold PropertiesOusted Luckin Founder Charts Comeback With New Coffee Business你和吴彦祖只差一个下巴?上科大提出SCULPTOR:从骨头开始捏脸更靠谱|SIGGRAPH Asia 2022iPhone SE 2022 64GB White battery health 100% under warrantyICONIQ Growth:顶流富豪家办,SaaS隐形之王VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022享受生活陌上花开875 Be Your Mirror, Your Sword, Your Shield, and Your LoveThe Four Key Issues Facing China at the COP27 Climate Summit谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!2022 Luxury Listings · Hurun Outstanding American Real Estate留学提醒丨驻德国使领馆发布平安留学提醒泰晤士高等教育2023年世界大学排名公布:牛津大学连续七年蝉联榜首,亚洲第一是清华大学!Xi’an Confronts an Unusual Challenge: a Surfeit of Ancient Tombs亮妈蔬法文城绝活,创意新颖诗情画意ACL'22 | 西湖大学提出:面向Aspect情感分析的离散意见树归纳方法100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!仅需10%参数量即超越SOTA!浙大、字节、港中文联合提出「类别级位姿估计」任务新框架|CoRL2022想吃现成的?有个高招顶刊TPAMI 2022封面文章!基于3D骨架的行人重识别:一个具有局部性感知的自监督步态编码框架如何用 DDD 给 DDD 建模,破解 DDD 的魔法?In a Rural Chinese County, Progress Is Measured by the Worm2022 Top10自监督学习模型发布!美中两国8项成果霸榜Prada、DOLCE&GABBANA、BURBERRY等太阳镜最高50%折扣!@ Sunglass Hut漱口水的功效与副作用NeurIPS 2022 | 马里兰、北大等机构提出量子算法用于采样对数凹分布和估计归一化常数The Publisher Who Rekindled China’s Curiosity About the World新加坡Jurong Play Grounds今日开幕,一家老小都能来~NeurIPS 2022 | 基于精确差异学习的图自监督学习自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。