Redian新闻
>
​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架

​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信交流群

本文介绍我们在ICCV 2023中稿的论文《Neural Video Depth Stabilizer》      

成果视频:
https://www.bilibili.com/video/BV1KW4y1d7F8/
论文:https://arxiv.org/abs/2307.08695
Github(已开源): 
https://github.com/RaymondWang987/NVDS
主页链接:

https://raymondwang987.github.io/NVDS/

贡献总结:

(1) 我们提出了第一个即插即用的learning-based的视频深度框架NVDS。可以用于任意的单目图像深度预测模型,去除时域抖动增强帧间一致性。

(2) 我们提出的Video Depth in the Wild(VDW) 数据集,是当前体量最大场景最丰富的自然场景视频深度数据集。

如下图,与之前的视频深度预测方法相比,本文方法NVDS在空间精度,时域平滑性,和推理效率上,均有提升显著。同时,本文提出的Video Depth in the Wild(VDW) 数据集,是当前体量最大场景最丰富的自然场景视频深度数据集。

1. 任务背景与动机   


视频深度预测对许多下游任务(例如视频散景渲染,3D视频合成,视频特效生成等)具有重要的影响。理想的视频深度预测模型需要解决两个问题:(1) 深度的空间准确; (2) 帧间的时域一致。近些年来,单目图像深度预测算法已经显著提升了空间准确性,但如何去除抖动提升帧间时域的一致性仍是一个困难的问题。

主流的视频深度预测方法依赖于Test-time Training。他们在推理时,通过几何约束和相机参数,迫使一个单目图像深度预测模型过拟合当前特定测试视频的时域关系。这样做有两个明显的缺点:(1)鲁棒性差。相机参数在许多视频中往往难以做到准确可靠,而导致CVD,Robust-CVD等方法,产生明显的artifact和完全错误的预测结果; (2)效率很低。以CVD为例,其在四张Tesla M40 GPU上处理一段244帧的视频,需要超过四十分钟的时间。

因此,很自然的一个想法是,我们能否建立learning-based的视频深度预测方法,能够直接在数据集上学习到时域一致性的能力和先验,直接预测得到较好的结果,而不需要Test-time Training。那与所有的深度学习算法一样,设计和实现这样的learning-based的视频深度方法,就需要处理两个核心问题:(1)合理的模型设计,能够建模帧间依赖关系,提升预测结果的一致性; (2) 充足的训练数据,训练和激发模型的最佳性能。遗憾的是,之前的learning-based视频深度方法,其性能仍不如Test-time Training的方法,结果设计的有效性仍需要继续研究和探索。由于标注代价很大,已有的视频深度数据集在数据体量和场景丰富度上仍然较为有限。

2. 方法与贡献   


为了解决上述的两个核心挑战,我们做出了两点贡献:


(1) 我们提出了第一个即插即用的learning-based的视频深度框架NVDS。NVDS包含一个depth predictor和一个stabilization network。其中,stabilization network可以直接被用到任意的单目图像深度预测模型上,去除时域抖动帧间一致性。之前所有的learning-based的视频深度预测模型都是独立的(stand-alone)模型,其空间性能无法受益于sota的单目图像模型,反之无法对大量已有的单目图像模型进行平滑稳定。而NVDS的方法,打破了单目图像深度预测和单目视频深度预测的壁垒,一方面能够受益于各种高精度的单图模型,反之能对任意的单图模型进行平滑稳定,实现了互相的促进和双赢。对于stabilization network ,我们采用了cross-attention建模关键帧(key frame)和参考帧(target frame)的帧间关系。同时,我们设计了双向预测的机制来扩大时域感受野,进一步提升一致性。

(2) 我们提出了Video Depth in the Wild(VDW) 数据集,是当前体量最大场景最丰富的自然场景视频深度数据集。由于巨大的标注代价,当前已有的视频深度数据集大多数都是封闭场景的。而少数的几个自然场景的视频深度数据集,其体量和丰富度还远远不足。例如Sintel只包含23段动画视频。我们的VDW数据集,采集自电影、动画、纪录片、网络视频等多种数据源,包含超过200小时的14203段视频,总计223万帧。我们还设计了天空分割投票等机制,以及严格的数据筛选和标注流程,来保证我们数据的精度。下图包含数据集的部分示例,分别来自网络视频、纪录片、动画、电影。

3.实验概述:方法部分   


在实验方面,我们在VDW数据集,以及公开的Sintel和NYUDV2数据集上,均取得了SOTA的空间精度和时域一致性。其中VDW和Sintel为自然场景数据集。对于封闭场景数据例如NYUDV2,不使用我们的VDW数据集而只用统一的NYUDV2训练集进行训练,已经能取得SOTA的性能;而用我们的VDW数据集预训练,再在封闭场景的NYUDV2进行finetune,则能够进一步提升模型的性能表现。

同时为了证明我们即插即用的有效性,我们采用了三个不同的depth predictor进行实验,我们的NVDS均取得了显著的提升。

我们还通过ablation证明了双向inference的有效性。单向的(Forward或backward)预测已经能够得到令人满意的一致性,而双向inference能够进一步扩大时域感受野,提升一致性。

部分定性结果如下图所示,我们NVDS的方法取得了显著的提升。每组例子左侧为RGB帧,右侧为视频时域切片。切片中更少的条纹表征了更好的一致性和稳定性。更多可视化结果请参考我们的论文、补充材料、成果视频。

4. 实验概述:数据集部分  


对于VDW数据集,我们比较了当前已有的视频深度数据集。我们的VDW数据集是目前体量最大、场景最丰富的自然场景视频深度数据集。

我们还探究了使用不同数据对模型进行训练的效果,由于我们的VDW数据集具有最佳的体量和场景丰富度,因此对于相同的模型,使用VDW数据集进行训练取得了最优性能。

而对于数据集的统计实验,我们绘制了数据集的物体类别词云,以及语义类别统计图等。更多的数据集统计结果和示例请见论文和补充材料。

5. 代码与数据集开源   


们的代码已经开源:

https://github.com/RaymondWang987/NVDS

数据集正在搭建VDW的官方网站,并拟定相应的开源协议,准备好后会马上进行发布。我们的数据集体量较大,因此网站搭建和数据传输仍需要一定的时间,我们会对数据进行分割并逐步上传。VDW数据集可以被用于学术和研究用途,但不能用于商业用途。

点击进入—>【计算机视觉】微信交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | TUM&谷歌提出md4all:挑战性条件下的单目深度估计wow! Tom Hanks Presidential Harvard Speech Motivational InspiratICCV 2023 | PVT++:通用的端对端预测性跟踪框架ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测ICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVISICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角俄乌战况24ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTA优质IP接连破圈,搜狐视频深耕知识直播时光里的答案(九十三)ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测职途发展的选择与收入CVPR 2023 | SCConv: 即插即用的空间和通道重建卷积CVPR 2023 | RCF:完全无监督的视频物体分割ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架韩国团队拒交样品,放出第二段LK-99悬浮视频!华科大新论文首证抗磁性CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!ICCV 2023 | 动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023优雅的分手ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新对抗蒸馏框架LionICCV 2023 | HoP:即插即用,重塑3D检测时序利用新范式苏格兰艾琳多南城堡(Eilean Donan castle),古堡英姿ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS人为什么会衰老 (2023ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP退役打造更聪明的猴子:开源云测框架 Hydra Lab 的智能化测试实战CVPR 2023 | 完全无监督的视频物体分割 RCFCVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架今天买到TICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架Tour de l’ile de Montréal 2023中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。