黑芝麻智能、NTU提出使用栅格化视角优化BEV算法中矢量化场景构建

2023-07-03 06:07

黑芝麻智能的科研团队在最新公开的论文中提出两点创新：一是建立了一种更加准确和合理的基于栅格化的“矢量化高精地图构建”的评价指标；二是推出了 MapVR，一个受益于栅格化视角的更精准的“矢量化高精地图构建”的框架。

引言

在自动驾驶领域，BEV感知能为自动驾驶感知任务提供有效的时空表征方法，将成为车载感知的主流发展方向，能在多样而复杂的驾驶场景中都能稳定地构建高质量的矢量化高精地图（vectorized HD map），对于BEV感知能力的提升至关重要。它能为环境感知提供重要的高层级语义信息。

然而，现有的矢量化高精地图构建方法往往存在一些偏差，现有的评估指标对于这些偏差的敏感度却不足。这在对精度要求极高的自动驾驶场景中，可能带来安全隐患。因此，我们需要更有效的地图矢量化方法和更敏感的评估指标，以提高地图构建的准确性，满足自动驾驶的严格要求。

为应对这一挑战，黑芝麻智能的科研团队与新加坡南洋理工大学的研究者们在最新公开的论文中提出了一个新观点：在“矢量化高精度地图构建”任务中，应当引入栅格化（rasterization）的视角。基于这一动机，他们提出了两点创新：一是建立了一种更加准确和合理的基于栅格化的“矢量化高精地图构建”的评价指标；二是推出了 MapVR（Map Vectorization via Rasterization），一个受益于栅格化视角的更精准的“矢量化高精地图构建”的框架。

在接下来的内容中，我们将深入介绍此研究的背景，所提出的评价指标和 MapVR 的细节，以及讨论如何利用栅格化来提高矢量化高精地图的精准度和实用性。

背景

在线高精度地图构建是指利用车载传感器（如摄像头）的输入，实时构建自车周围地图（包含车道线、道路边沿、人行横道、泊车位等）的任务。现有的在线高精度地图构建方法主要分为两大模式：地图栅格化（map rasterization）和地图矢量化（map vectorization）。地图栅格化相对简单直观，它将周围环境在鸟瞰视图（Bird's-eye View，BEV）中建模为语义分割任务，将分割结果作为输出的栅格化地图。

然而，这种栅格化的地图并非适用于自动驾驶应用的理想表达形式，因为它难以区分不同地图元素，无法提供结构信息，因而需要进行大量的后处理才能供下游任务使用。为解决这些问题，地图矢量化方法应运而生，成为实时构建高精地图的热门方案。最新的地图矢量化方法，例如 VectorMapNet 和 MapTR，使用有序点集来表征各个地图元素，直接回归每个地图元素的一系列点坐标，实现了更准确的结果和更快的运行速度。

然而，最新方法在实践中常常表现得不尽如人意，原因主要有三。首先，如下图所示，稀疏点集的表征方式在处理地图结构的尖锐弯曲或复杂细节时，精度不足，会导致明显的参数化误差。第二，将等距离的点集作为回归目标时，中间的点会缺乏清晰的视觉线索。这会导致监督信号的模糊性，使得学习过程变得困难。再者，单纯依赖点集间的L1损失进行回归监督，往往会忽视细粒度的特征，导致预测结果过于平滑，模型对微小的变化不敏感。

同样地，当前的评价指标也是基于点集之间的Chamfer距离，这种方式也容易忽视微小的偏差和几何细节。

总而言之，针对自动驾驶这样对精度要求苛刻的场景，我们认识到现有的地图矢量化方法和评价指标仍有很大不足。为了满足真实驾驶场景的需求，业界和学术界都应采用更高精度、更面向业务的评估指标和方法。

动机

为了解决上述问题，我们尝试了一个新的思路——在地图矢量化任务中引入栅格化（rasterization）的视角。栅格化的表达方式有其独特的优势，它与人类对环境的感知模式更为相符，能提供更为详细和直观的信息。

然而，如何将这一思路有效地融合到地图矢量化中，以提升精度和实用性，无疑是一项挑战。我们希望，通过引入栅格化视角，能够在方法和评价指标上均更准确地捕捉到地图的细节和结构，提升地图矢量化的精度，同时还能保留其矢量化的优势，使其更适合自动驾驶的各种下游任务。

基于栅格化的地图矢量化评价指标

1. 回顾现有的评价指标

现有的评价指标使用Chamfer距离来确定预测的地图元素和真实的地图元素是否匹配。Chamfer距离是一种衡量两个无序点集之间不相似性的量，它量化了一个集合中每个点到另一个集合中最近点的平均距离，可以用公式表达为：

尽管它简单且能给出大致合理的评价结果，但这一指标的以下缺陷使得其在如自动驾驶等对精度要求极高的场景中显得不足：首先，它不具备尺度不变性，对于较小的地图元素（如停车线），Chamfer距离无论预测是否准确都会很小，无法提供有意义的评价。其次，Chamfer距离仅依赖于无序点集的距离，完全忽视了地图元素的形状和几何特性，因此对许多实际驾驶场景会产生不合理的评价。

2. 更精准与合理的基于栅格化的评价指标

为了解决上述限制，我们提出了一种基于栅格化的评价指标，该指标对细微偏差更敏感，并更适合真实的驾驶场景。在此指标中，我们采用栅格化来准确地确定预测的地图元素和真实地图元素的匹配。

如上图所示，我们使用线形的地图元素（例如，车道线和泊车线等）来示例我们的评价指标。首先，目标地图元素和预测的地图元素都被栅格化（rasterization）为一条折线。栅格化后的图像分辨率应较高（例如，栅格化后的每个像素代表现实中的0.1米），以保证评价的精准性。然后，为了使我们的评价指标能对细长的折线的轻微偏移有一定的容忍度，我们将栅格化的折线在每侧膨胀（dilate）2个像素。最后，我们计算栅格化的预测和目标之间的交并比（IoU）以判断其是否匹配。与MS-COCO目标检测的的评价指标指标类似，我们在多个IoU阈值下计算Average Precision（AP）。

值得注意的是，地图通常还包含除线形之外的元素，如人行横道，交叉路口和停车位等。这些地图元素都可以被抽象为多边形。在对此类地图元素进行评价时，我们采用类似的方法计算AP，但不同的是，我们将其栅格化为多边形，而非折线，以更合理地进行评价。

3. 两种指标的评价质量

我们以下图所示的一些实例来对比两种评价指标的评价质量。红色代表Ground Truth，蓝色代表预测结果。一般来说，Chamfer距离小于1.0即可认为匹配，而mIoU大于0.35才可认为匹配。

（a）所示的是一条较短的停车线。由于Chamfer距离缺乏尺度不变性，对于这种较小的地图元素，Chamfer距离都会误判为匹配。而我们提出的基于栅格化的指标判断更为合理。

（b）所示的车道线预测出现了轻微的横向偏移。在实际驾驶场景中，即使是轻微的横向偏移也可能带来重大危险。由于Chamfer距离仅依赖于点集间的距离，缺乏对形状和几何细节的理解，因此它认定预测和Ground Truth匹配。然而，我们提出的基于栅格化的评价指标在确定匹配的过程中考虑了几何信息，因此能正确地识别出预测和Ground Truth之间的差异，判定两者不匹配。

（c）所示车道线的预测出现了轻微的纵向偏移。这种偏移通常是由于遮挡现象造成的，在实际的自动驾驶场景中，其风险并不大。因为随着车辆的移动，地图会持续更新。由于我们所提出的基于栅格化的评价指标考虑了地图元素的形状和几何信息，因此能够对这种情况给出更为合理的评估。

（d）所示的情况也能说明，我们提出的指标对微小的偏差更为敏感。

基于栅格化的地图矢量化评价指标

本文还提出了一个新型的地图矢量化框架——MapVR。这是一个通用框架，不涉及网络结构的设计，因此可以与其他地图矢量化的网络模型共同使用，如最新的MapTR。

相对于当前的地图矢量化方法，MapVR在训练过程中采用了一种独特的技巧。它将矢量化的输出（即地图元素的有序点集）进行可微分的栅格化处理，将每个矢量化的地图元素渲染成一张具有高分辨率的分割掩码。然后，我们将在这些渲染后的高分辨率分割掩码上进行分割监督。这个思路与我们之前提到的评估指标是一致的，它能够提供更精确、更详细、并包含了几何形状先验的监督，这将显著提升地图构建的精度。此外，MapVR还能够提供更合理的监督。在现有的地图矢量化方法中，我们通常会回归等间距的点作为目标，但这常常会在缺乏明显视觉线索的中间部分的点带来模糊性。MapVR的出现，有效地解决了这个问题。

另外，地图中经常包含很多不能被抽象成线的元素，如人行横道、十字路口、停车位等。这些元素更适合被抽象为多边形。如上图所示，我们也对这些多边形地图元素设计了可微分栅格化的策略。具体的栅格化公式请读者参阅论文。

值得一提的是，MapVR额外引入的栅格化步骤仅需在训练时使用。在推理阶段，我们可以简单地去掉额外的可微分栅格化步骤，直接使用网络的矢量化输出作为最终的结果。因此，MapVR在推理阶段并不会引入任何额外的计算负担。这意味着我们的方法在保持高效率的同时，还能够提供更准确、更稳健的地图构建结果。

此外，由于MapVR所提出的监督方式很大程度上消除了之前方法的“等距离目标点”的要求，我们还引入了一个额外的损失函数作用于正则化预测的折现之间的夹角。这能鼓励网络输出更加平滑的地图元素，同时在转弯处得到更加精力的结果。该正则项可用公式表示为：

在论文中，我们也通过实验证实了该正则项的有效性。

实验结果

在论文中，作者将所提出的方法在4个数据集上进行了充分的实验。MapVR无论在现有的评价指标上，还是在论文中提出的新的指标上，都取得了最佳的性能。有关具体的量化实验结果和消融实验结果，请读者参阅论文。

如下图所示比较了我们所提出的MapVR和现有的最佳基线方法——MapTR。我们可以观察到，我们的方法能够生成更加精确的矢量化高精地图，尤其是在捕捉复杂的细节以及准确呈现复杂或曲线形状的地图元素方面表现出色。相比之下，尽管MapTR方法可以产生大体正确的矢量化地图，但在细节部分不可避免地会出现偏差，且在精确构造复杂地图元素上存在困难。这些结果证明了我们的方法的有效性。

我们还对两种方法在两种评价指标下的精确度-召回率曲线（Precision-Recall Curve）进行了比较。观察可知，在未引入MapVR的情况下，MapTR基线在相对简单的APchamfer指标和严格的APraster指标上存在较大的差距。这说明当前的方法在捕捉地图元素的细节方面确实存在不足。而当引入MapVR后，这两者的差距显著缩小，并且性能都有所提升。

这证明了在地图矢量化任务中引入栅格化的精细监督确实能帮助模型提升性能，尤其是在捕捉更细节的部分上，证实了我们工作的有效性。

结语

本文提出了一种全新的视角去理解和处理地图矢量化的任务：通过栅格化，我们能够更准确地学习和评估地图矢量化。我们发现，虽然矢量化表示方式简洁易用，但其在细节表示能力上存在不足；因此，有必要在学习和评估中引入栅格化作为补充。我们希望我们的视角能够为地图矢量化的进一步创新提供基础，最终促进安全可靠的自动驾驶技术的发展。

论文原文链接：
https://arxiv.org/abs/2306.10502

代码链接：
https://github.com/ZhangGongjie/MapVR

更多阅读