ICCV 2023 | HoP：即插即用，重塑3D检测时序利用新范式

2023-08-25 12:08

摘要 · 看点

商汤基模型团队提出了一种新的用于多视角3D检测的时序增强训练方式，称为历史帧物体预测(HoP)，以更有效地利用时间信息。作为一种即插即用的方法，HoP可以无缝集成到最先进的 BEV 检测框架中，包括BEVFormer[1]和BEVDet[2]系列。此外，HoP方法与目前的时序建模方法互补，从而带来了显著的性能提升。大量的实验充分验证了HoP方法在nuScenes[3]数据集上的有效性。我们选择代表性方法，包括BEVFormer和BEVDet4D-Depth来评估我们的方法。同时，HoP 在nuScenes测试集上使用ViT-L得到了68.5%NDS和62.4%mAP，这超过了排行榜上所有3D物体检测器。

论文名称：DETRs with Collaborative Hybrid Assignments Training

概述

目前的纯视觉、多视角3D目标检测对于时序信息的利用的思路基本相同，都是集中在从历史帧中抽取信息来辅助当前帧的推理。然而，我们认为历史帧中的信息其实有更多样的挖掘方式。

尽管3D检测在自动驾驶等领域的应用已经越来越广泛，但是基于多视角图像的仅使用相机的3D检测仍然面临巨大挑战。我们的研究团队提出了一种全新的利用时间信息增强3D物体检测模型的方法。

我们的新方案，被命名为历史帧物体预测（Historical Object Prediction，HoP），只在训练阶段应用的基于时序信息的辅助任务。我们观察到，如果我们使检测器在历史帧上捕捉物体的空间位置和运动信息，可以提高BEV特征的学习精度。

在nuScenes数据集上进行的大量实验证明了我们提出的HoP的有效性。具体来说，我们使用包括BEVFormer和BEVDet4D-Depth在内的代表性方法来评估我们的方法，结果显示，HoP在nuScenes验证集上获得了55.8%的NDS（基于BEVFormer+ResNet-101-DCN）和60.3%的NDS（基于BEVFormer+VoVNet-99）。当使用ViT-L在nuScenes测试集上评估HoP时，我们获得了68.5%的NDS和62.4%的mAP，大幅超越了排行榜上所有的3D物体检测器。

总的来说，我们的贡献可以总结为以下三点：

我们提出了一种名为历史物体预测（HoP）的新型时间增强训练方案，以鼓励更精确的BEV特征学习。
我们设计了一个时间解码器，包括一个短期解码器和一个长期解码器，以提供物体的可靠空间定位和精确运动估计。
我们为常用3D物体检测器提供了我们的方法，并在nuScenes数据集上取得了显著的改进。使用ViT-L的HoP在nuScenes测试集上获得了68.5%的NDS和62.4%的mAP，达到了新的最佳性能。

网络结构

GLUE基准and SQuAD

首先，如上图左侧所示，我们使用图片的骨干网络（Image Backbone）和视角转换网络（Image-view Transformer）独立得到从t到t-N时刻的BEV特征。

目前常用的多视角3D检测方法通常会以不同的方式对得到的这些BEV特征进行时序上的融合，然后经过一个BEV检测头得到对当前帧t的预测结果，如图右侧下方绿色部分所示。

而本文则聚焦于如何在训练过程中进一步利用历史帧的BEV特征，为此提出了如图右侧上方所示的HoP框架，其核心目标是希望引入一个对历史帧物体预测的附加任务增强BEV特征。

概括而言，首先我们丢弃掉第t-k帧的BEV特征，使用其他剩余帧的BEV特征建立一个虚拟的t-k帧的BEV特征，然后根据这个虚拟的BEV特征预测t-k帧的物体。

我们设计了一个长期时序信息捕捉分支以及一个短期时序捕捉分支来分别从剩余帧的BEV特征中提取有价值的信息，用以对t-k帧的BEV特征进行重建。这两种分支有其各自不同的特长。

长期时序信息捕捉分支的输入是所有剩余帧的BEV特征，因此可以利用更长时间段的BEV特征提取BEV特征上的物体的运动信息；而短期时序信息捕捉分支的输入仅为t-k帧的前后两帧，其重点在于对空间语义信息的提取，因为前后两帧在空间特征上是与需要重建的这一帧最接近的。

我们融合这两种分支重建得到的BEV特征，得到最终的虚拟的t-k帧的BEV特征，然后在其上接一个轻量的BEV检测头来预测t-k帧的物体。

值得强调的是，本文提出的HoP框架仅在训练中使用，在测试中不引入任何额外的开销。

历史帧Query融合

对于在对当前帧的检测中使用了Query的方法，比如BEVFormer，本文还提出了历史帧Query融合，使得我们可以从Query层面上融合历史帧的信息来帮助当前帧的检测。

这一方法的直觉是：每一个Query通常会聚焦于特征图上某一特定区域[4]，历史帧得到的Query具备了这一区域上丰富的语义信息，因此本文将其显式地引入到用于当前帧检测的Query中，相当于提供了来自历史帧的先验信息。具体做法请参考我们的论文。

实验结果

本文在nuScenes数据集上进行了实验。选取的基线模型分别是BEVFormer和BEVDet这两种具有代表性的网络。我们还对本文中的基线模型BEVFormer进行了多种优化，较大提升了效率和性能。

首先我们采用这个优化版的BEVFormer模型，然后在其上添加了本文提出的HoP的训练方式，可以看到使用了HoP方法后的模型在多种setting下（骨干网络分别是ResNet101和V2-99时）都取得了领先的效果。

同时，我们也在BEVDet框架下加入了HoP的训练方式，在使用了ViT-L的骨干网络后，本文的方法取得了nuScenes[3]纯视觉方法的SOTA成绩。

除此之外，本文使用ResNet50作为Backbone进行了消融实验，在BEVFormer框架下验证了HoP方法和历史帧Query融合的方法的有效性及二者的互补性，在BEVDet4D-Depth框架下验证了HoP方法的有效性。

本文提出了一种新的用于多视角3D检测的时序增强训练方式，称为历史帧物体预测(HoP)，以更有效地利用时间信息。HoP方法很简单：给定当前时间戳t，我们使用t-k帧的相邻帧生成t-k帧的虚拟BEV特征，并利用此特征来预测t-k帧的物体。我们的方法的动机是观察到使检测器去建模历史帧的物体的空间位置和运动可以帮助网络学习到更准确的BEV特征。

相关资料

论文地址:

https://arxiv.org/abs/2304.00967

代码链接:

https://github.com/Sense-X/HoP

References：

[1] Li Z, Wang W, Li H, et al. Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers[C]//European conference on computer vision. Cham: Springer Nature Switzerland, 2022: 1-18.

[2] Huang J, Huang G, Zhu Z, et al. Bevdet: High-performance multi-camera 3d object detection in bird-eye-view[J]. arXiv preprint arXiv:2112.11790, 2021.

[3] Caesar H, Bankiti V, Lang A H, et al. nuscenes: A multimodal dataset for autonomous driving[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.

[4] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Cham: Springer International Publishing, 2020: 213-229.

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章