Redian新闻
>
ICCV 2023 | HoP:即插即用,重塑3D检测时序利用新范式

ICCV 2023 | HoP:即插即用,重塑3D检测时序利用新范式

公众号新闻



摘要 · 看点





商汤基模型团队提出了一种新的用于多视角3D检测的时序增强训练方式,称为历史帧物体预测(HoP),以更有效地利用时间信息。作为一种即插即用的方法,HoP可以无缝集成到最先进的 BEV 检测框架中,包括BEVFormer[1]和BEVDet[2]系列。此外,HoP方法与目前的时序建模方法互补,从而带来了显著的性能提升。大量的实验充分验证了HoP方法在nuScenes[3]数据集上的有效性。我们选择代表性方法,包括BEVFormer和BEVDet4D-Depth来评估我们的方法。同时,HoP 在nuScenes测试集上使用ViT-L得到了68.5%NDS和62.4%mAP,这超过了排行榜上所有3D物体检测器。


论文名称:DETRs with Collaborative Hybrid Assignments Training




 概述 



目前的纯视觉、多视角3D目标检测对于时序信息的利用的思路基本相同,都是集中在从历史帧中抽取信息来辅助当前帧的推理。然而,我们认为历史帧中的信息其实有更多样的挖掘方式。



尽管3D检测在自动驾驶等领域的应用已经越来越广泛,但是基于多视角图像的仅使用相机的3D检测仍然面临巨大挑战。我们的研究团队提出了一种全新的利用时间信息增强3D物体检测模型的方法。


我们的新方案,被命名为历史帧物体预测(Historical Object Prediction,HoP),只在训练阶段应用的基于时序信息的辅助任务。我们观察到,如果我们使检测器在历史帧上捕捉物体的空间位置和运动信息,可以提高BEV特征的学习精度。


在nuScenes数据集上进行的大量实验证明了我们提出的HoP的有效性。具体来说,我们使用包括BEVFormer和BEVDet4D-Depth在内的代表性方法来评估我们的方法,结果显示,HoP在nuScenes验证集上获得了55.8%的NDS(基于BEVFormer+ResNet-101-DCN)和60.3%的NDS(基于BEVFormer+VoVNet-99)。当使用ViT-L在nuScenes测试集上评估HoP时,我们获得了68.5%的NDS和62.4%的mAP,大幅超越了排行榜上所有的3D物体检测器。


总的来说,我们的贡献可以总结为以下三点:


  1. 我们提出了一种名为历史物体预测(HoP)的新型时间增强训练方案,以鼓励更精确的BEV特征学习。

  2. 我们设计了一个时间解码器,包括一个短期解码器和一个长期解码器,以提供物体的可靠空间定位和精确运动估计。

  3. 我们为常用3D物体检测器提供了我们的方法,并在nuScenes数据集上取得了显著的改进。使用ViT-L的HoP在nuScenes测试集上获得了68.5%的NDS和62.4%的mAP,达到了新的最佳性能。


 网络结构 


GLUE基准and SQuAD



首先,如上图左侧所示,我们使用图片的骨干网络(Image Backbone)和视角转换网络(Image-view Transformer)独立得到从t到t-N时刻的BEV特征。


目前常用的多视角3D检测方法通常会以不同的方式对得到的这些BEV特征进行时序上的融合,然后经过一个BEV检测头得到对当前帧t的预测结果,如图右侧下方绿色部分所示。


而本文则聚焦于如何在训练过程中进一步利用历史帧的BEV特征,为此提出了如图右侧上方所示的HoP框架,其核心目标是希望引入一个对历史帧物体预测的附加任务增强BEV特征。


概括而言,首先我们丢弃掉第t-k帧的BEV特征,使用其他剩余帧的BEV特征建立一个虚拟的t-k帧的BEV特征,然后根据这个虚拟的BEV特征预测t-k帧的物体。


我们设计了一个长期时序信息捕捉分支以及一个短期时序捕捉分支来分别从剩余帧的BEV特征中提取有价值的信息,用以对t-k帧的BEV特征进行重建。这两种分支有其各自不同的特长。


长期时序信息捕捉分支的输入是所有剩余帧的BEV特征,因此可以利用更长时间段的BEV特征提取BEV特征上的物体的运动信息;而短期时序信息捕捉分支的输入仅为t-k帧的前后两帧,其重点在于对空间语义信息的提取,因为前后两帧在空间特征上是与需要重建的这一帧最接近的。


我们融合这两种分支重建得到的BEV特征,得到最终的虚拟的t-k帧的BEV特征,然后在其上接一个轻量的BEV检测头来预测t-k帧的物体。


值得强调的是,本文提出的HoP框架仅在训练中使用,在测试中不引入任何额外的开销。


历史帧Query融合



对于在对当前帧的检测中使用了Query的方法,比如BEVFormer,本文还提出了历史帧Query融合,使得我们可以从Query层面上融合历史帧的信息来帮助当前帧的检测。


这一方法的直觉是:每一个Query通常会聚焦于特征图上某一特定区域[4],历史帧得到的Query具备了这一区域上丰富的语义信息,因此本文将其显式地引入到用于当前帧检测的Query中,相当于提供了来自历史帧的先验信息。具体做法请参考我们的论文。


实验结果


本文在nuScenes数据集上进行了实验。选取的基线模型分别是BEVFormer和BEVDet这两种具有代表性的网络。我们还对本文中的基线模型BEVFormer进行了多种优化,较大提升了效率和性能。


首先我们采用这个优化版的BEVFormer模型,然后在其上添加了本文提出的HoP的训练方式,可以看到使用了HoP方法后的模型在多种setting下(骨干网络分别是ResNet101和V2-99时)都取得了领先的效果。



同时,我们也在BEVDet框架下加入了HoP的训练方式,在使用了ViT-L的骨干网络后,本文的方法取得了nuScenes[3]纯视觉方法的SOTA成绩。



除此之外,本文使用ResNet50作为Backbone进行了消融实验,在BEVFormer框架下验证了HoP方法和历史帧Query融合的方法的有效性及二者的互补性,在BEVDet4D-Depth框架下验证了HoP方法的有效性。



本文提出了一种新的用于多视角3D检测的时序增强训练方式,称为历史帧物体预测(HoP),以更有效地利用时间信息。HoP方法很简单:给定当前时间戳t,我们使用t-k帧的相邻帧生成t-k帧的虚拟BEV特征,并利用此特征来预测t-k帧的物体。我们的方法的动机是观察到使检测器去建模历史帧的物体的空间位置和运动可以帮助网络学习到更准确的BEV特征。



相关资料




论文地址:

https://arxiv.org/abs/2304.00967


代码链接:

https://github.com/Sense-X/HoP


References:


[1] Li Z, Wang W, Li H, et al. Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers[C]//European conference on computer vision. Cham: Springer Nature Switzerland, 2022: 1-18.

[2] Huang J, Huang G, Zhu Z, et al. Bevdet: High-performance multi-camera 3d object detection in bird-eye-view[J]. arXiv preprint arXiv:2112.11790, 2021.

[3] Caesar H, Bankiti V, Lang A H, et al. nuscenes: A multimodal dataset for autonomous driving[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.

[4] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Cham: Springer International Publishing, 2020: 213-229.


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
花·海巨量算数:2023抖音健康生活新范式白皮书CVPR上的新顶流:BEV自动驾驶感知新范式宾州长木公园,春天节奏ICCV 2023 | 华为诺亚提出全新目标检测器Focus-DETR三迭纪完成1.5亿Pre-C轮融资,药物3D打印能否成为下一个制药新范式?ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测CVPR 2023 | SCConv: 即插即用的空间和通道重建卷积2023 夏 北海道吃喝之旅ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架ICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器乡间小路高西庆:新范式影响八大领域,需塑造一流营商环境|年度对话2023spirit flows around, goes around, comes around. Forever! This liICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTAICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测数字100:2023中国消费趋势洞察-新范式 新机会 新体验ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!get到舒淇这个Bottega Veneta Hop 手袋了,看她背还挺好看的瓦格纳被普京做了历史定性:武装叛乱GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用ICCV 2023 | 即插即用!百度提出S3IM:用于NeRF提点的Magic LossICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTAICCV 2023 OmniObject3D挑战赛倒计时!双重赛道等你来战纽约:粮食券福利下月增加,细节公布|COVID检测盒下周一再次免费开派ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架【广发策略戴康团队】高股息:新范式下的长牛策略——“新投资范式”系列报告三ACE友情宣发 | 探索高效协同工具新范式:AFFiNE硅谷专场workshop2023 加拿大森林大火纪实SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!周礼栋对话Chris Bishop:转变思维方式,重塑科研文化ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络冰岛8: 月球火星表面般的荒原【仲夏风轻】2023 加拿大森林大火纪实
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。