规划器的先验唯心主义：从决策规划的视角来评估自动驾驶系统的感知能力

2023-06-16 10:06

引言

本文提出了一个全新的框架，用于评价自动驾驶系统的感知能力，并在此基础上有效提升了感知性能和城市 NOA 能力。该框架充分考虑了微小感知噪声对规划结果的影响，并采用系统化的方法对感知能力进行评估和优化。实际应用结果表明，该方法显著提高了城市 NOA 的准确性、鲁棒性和响应能力，为用户提供了更高水平的自动驾驶体验。

论文标题：

Transcendental Idealism of Planner: Evaluating Perception from Planning Perspective for Autonomous Driving

收录会议：

ICML 2023

论文链接：

https://arxiv.org/pdf/2306.07276.pdf

摘要

自动驾驶感知模块的性能评估是自动驾驶技术研发过程中一个非常重要的部分。传统计算机视觉任务中的模块级单元测试方法虽然能够直接套用于这个任务，但无法全面考察感知模块对自动驾驶决策规划行为的整体影响。为此，本文提出了一个整体性的全局框架来有效定量计算这种影响。

在这个框架里，自动驾驶车辆的决策规划（planning）过程被解读为一个期望效用最大化（expected utility maximisation）问题；其中感知模块输出的环境世界状态被表达为一个随机变量（由一个概率分布模型描述），自动驾驶车辆的行为和世界状态共同决定了结果的效用（收益）；自动驾驶车辆通过最大化在这个世界状态随机变量期望意义下的效用来获取一个最优行为作为决策规划结果来执行。

这种从规划器视角出发的框架，提供了一种新的方法来评估感知模块对整个自动驾驶系统的影响，从而改进设计和优化感知模块，帮助提高自动驾驶系统的性能和安全性。

背景介绍

自动驾驶领域在工业界和学术界在近期均得到了迅速发展。车载感知模块是自动驾驶汽车获取动态环境信息的重要来源。传统的计算机视觉感知任务（如检测、分割、跟踪等）虽然可以直接套用来评价感知模块的性能，但是这些评价方法忽略了感知模块在自动驾驶系统中对系统整体的影响。

事实上，感知模块结果中相似的错误对决策规划控制的影响可能大相径庭：例如同样是静态障碍物的漏检，这种错误发生在正在向前行驶的自动驾驶车辆前方时相对于发生在后方要严重得多。因此整个领域都非常需要一个高效和有效的工具来评价感知模块性能对整个自动驾驶任务的影响。

之前试图解决这个问题的工作大多从自动驾驶的轨迹输出来试图衡量感知误差对自动驾驶系统的影响。一个常见的方法就是通过计算自动驾驶车辆的决策规划在真值和实际感知输入作用下得到的结果的区别来判断影响大小。但是自动驾驶车辆最终行为的改变与最终结果之间的相关性在不少情况下都比较弱，在某些场景下甚至呈负相关，如下图所示：

图中红色箭头表示自动驾驶车辆决策规划在感知真值输入下得到的最优动作轨迹，灰色箭头表示在错误感知下的最优动作轨迹。彩色和灰度的路障分别表示障碍物的真实位置和错误感知位置。在（a）情况下，自动驾驶汽车必须绕行较大的弯路，以绕过错误感知的路障。而对于（b），自动驾驶车辆虽然需要稍微向右做微小绕道，然而它最终在实际世界里撞上了路障。在这种情况下，尽管行为的改变远远小于（a），但结果却明显更糟（“撞到一个物体” vs “绕了远路”）。

在（c）中，不论是向左还是向右绕道，任何一种方式的结果对“向前移动”这一目的来说都没有太大区别；但就时空轨迹而言，行为的变化非常大。在（d）场景里，道路两侧各有一个被误检的路障，但并不会与前进通过的车辆发生碰撞（虽然车辆经过时路障距离车辆很近）；在这个有误检的情况下自动驾驶车辆仍然决定保持与真实情况相同的运动继续匀速前进：在感知误差存在的情况下，自动驾驶汽车的最终行为没有改变，但经过两个近距离物体的成本实际上已经改变了决策规划过程，而这些额外的隐藏成本将无法通过仅关注自动驾驶车辆结果行为变化的感知评价指标体现。因此，由于感知错误导致的车辆行为变化并不总是与错误导致的实际后果相关。

之前有限的几个从自动驾驶系统角度评价感知模块性能的工作大多采用类似这样的启发式方法。这些方法会将一些人工总结的先验知识整合到评价系统中，如（Philion et al.，2020）假设感知误差的造成的后果与其导致的规划器输出的时空轨迹变化直接相关，并提出用 KL 散度作为评价指标来衡量后果；但由于没有考虑实际的环境背景，因此并不能准确反映真实交通环境里输入噪声导致的实际代价。

本文希望强调的是通过规划过程来理解感知误差对自动驾驶系统影响的必要性：只有从决策规划的角度，通过理解感知输入噪声对自动驾驶系统造成的实际后果才能有效评估感知误差带来的影响。这种完全通过实际观察者（规划器）的视角来评估待考察事物（感知误差）属性的方法，与经典哲学理论里的先验唯心主义论 (Kant, 1781) 一致，因此该方法被命名为规划器先验唯心论（Transcendental Idealism of Planner / TIP）。

目前对自动驾驶决策规划过程的研究工作大致可以分为两类，其一是基于效用的方法，其二是非基于效用的方法。前者通过对自动驾驶要实现的具体目标（向目的地接近，遵守交通规则，平滑的车辆运动等）编码来构建一个描述行为与收益的目标函数，并通过求最优化解作为最终的决策规划结果；后者则利用海量数据和深度学习的拟合能力，直接将原始或者被预处理过的传感器数据直接映射为自动驾驶车辆的控制信号。本文重点在探索感知噪声对决策规划的影响，因此主要关注基于效用的规划研究。

理论分析

4.1 基本概念

这篇工作首先给出了经典的期望效用最大化（Expected Utility Maximization / EUM）框架（Osborne and Rubinstein, 1994）在 Hilbert 空间里的解释。EUM表示在任意时刻 t，智能体通过最大化效用函数的期望获得最佳动作（即能获取在平均意义下最大奖励回馈的行为）

其中表示时刻智能体所有待考察的可行动作选项集合。表示时刻环境状态随机变量 ( 为环境状态的集合)，效用函数负责编码自动驾汽车应该实现的目标或奖励（例如及时到达目的地，尽量减少与其他物体碰撞的可能性，避免运动的急剧变化等等）。期望效用表达为：

是随机变量的分布函数，用于描述环境的不确定性 (可视为感知模块对规划器的输入)。

为了深入了解环境状态描述（感知）输入中的噪声如何影响 EUM，我们首先证明了当环境状态分布函数绝对连续（absolutely continuous），且其概率密度函数平方可积时，那么我们就可以找到一个双射(bijection)把这个概率分布映射到一个在希尔伯特空间里的元素，称为的嵌套（embedding）。在这个时候，由于实际使用的效用函数都是定义在一个有界集合上的有界函数（因此平方可积），期望效用最大化可以写成

给定了与的双射关系，我们就可以在 Hilbert 空间里利用许多代数工具（如内积、正交、投影、子空间、零空间等）来分析感知结果噪声对自动驾驶规划的影响。

4.2 感知错误分析

假设中每一个候选行为都有一个不同的效用函数，即对任意不同的，有

令为 EUM 里在正确感知输入下的最优行为，则对任意，定义了行为方向，规划半空间为：

在这个定义下，当且仅当时，即时，真正的最优行为会被认为优于，其中：

是给定环境状态时的 偏好分数。

当实际的输入和正确（真值）结果有不同时（即含有噪声时），偏好分数有可能发生改变。注意到这个误差可以分解为：

其中

是投影到同方向的单位向量（称为行为方向）上之后的分量；是投影到的正交补空间上的分量。可以看到偏好分数改变

完全由决定，因此我们定义为规划关键误差（planning-critical Error / PCE），为规划不变误差（planning-invariant Error / PIE）。以上讨论的示意图如下所示：

如左图所示，定义了行为方向，和表示环境真值与噪声感知的嵌入；表示感知误差，可以将其分解为规划关键误差（PCE）和规划不变误差（PIE）；阴影区域对应。

如中图所示，一辆自动驾驶车辆在宽 6m 的道路上行驶，前方有个路障在 x 轴上，其真实分布值为，但感知认为他的分布位置为，此时自动驾驶车辆有两个选项，前进（红色箭头）和制动（灰色箭头），其效用函数分别为和（不管路障位置如何，制动的损失相同）。

在这种情况下，与显示在右上方，可以看到与具有相同的形状（相差一个负常数），且有所在的子空间包含了所有不会影响到 EUM 的感知错误。

通过以上推导，我们可以得到如下结论：

并非环境状态估计或感知中的所有错误对自动驾驶车辆规划都有同等的影响。实际上，只有 PCE 会对 EUM 结果有影响，PIE 完全不会造成任何影响；
PCE 的影响既可能是负面的（让规划器低估正确行为选项的优势）也可能是“正面的”（让规划器高估正确行为选项的优势）。

这两个结论都是通过我们提出的理论框架下的分析得到的自然推论结果。

以上分析只是考虑了一个候选选项，当需要考虑整个候选选项集合时，我们直接取所有偏好分数改变的最小值（即最大的负面影响）作为感知输入的噪声对决策规划影响的影响

实际计算时，一个偏好分数改变

可以分解为四个期望效用来计算。每一个期望效用可以利用随机采集的独立同分布样本通过无偏估计器

进行数值估计。可以证明，这样的估计方法可以由一致收敛界限（uniform convergence bound）保证指数级别的数值收敛速度。这是一个值得注意的结果，因为这个指数收敛速度只要求效用函数是有界的，至于效用函数的具体形式（保证了可使用任意函数形式的灵活性）和其中变量的维度完全没有任何限制（因此维度爆炸不会出现）。整个过程的伪代码如下：

实验验证

实验中使用的所有自动驾驶汽车都是基于同一类型的普通乘用车。这些车载自动驾驶系统中的基于效用的模块化规划器已在多个百万人口级别的大城市进行了严格的道路测试和广泛的验证。实验中我们选取了三个基准方法作为参照对象：

（1）在传统端，nuScenes 数据集评分（NDS）（Caesar et al., 2020）将3D物体检测的几个传统评分结果结合到一个单一的性能分数中；

（2）SDE 距离加权平均精度（SDE-APD）（Deng et al., 2021）以自动驾驶车辆为空间中心视角的方式更多地关注自动驾驶车辆附近的感知误差（支撑距离误差）；

（3）PKL（Philion et al., 2020）则作为自动驾驶车辆基于行为变化指标的代表。

5.1 人工合成数据测试

第一组实验的目标是获得各种评测方法对常见感知噪声类型在噪声可控条件下的反应的一些理解。数据集从真实世界中收集和精心选择的复杂道路测试场景生成。共有 1000 个 5s 长的交通场景，每个场景交通参与者数量在 30-500 之间，含有由专业人员标注的感知真值。

实验中考虑了如下常见类型噪声：

误检（假阳性）错误是在以自动驾驶车辆为中心的一个 70x30 米的矩形范围里随机加入“幽灵”车辆，而这些车辆的其他运动信息从自动驾驶汽车的运动信息通过随机扰动添加。
漏检（假阴性）错误是通过以一定的概率（即漏检率）随机从真值结果中移除物体来实现。
其他类型的感知噪声（速度，位置，朝向，大小等误差）则通过直接向原始真值里添加高斯随机噪声实现。

在上述的不同强度噪声下各个评估指标的结果如下图所示

横轴为噪声强度，左纵轴为 NDS 和 SDE-APD，右纵轴为 PKL 和 TIP。在一些情况下，一旦噪声达到一定水平， NDS 就会饱和（比如在速度噪声上）。同理，包含大量人工设计的 SDE-APD 也在不同的噪声强度下表现出了大量的非线性（比如速度噪声上）。而 TIP 和 PKL 没有依赖人工设计，表现出的灵敏度在各种噪声强度区间里相对都比较一致。

我们也单独考察了一个如下图所示的一个具体场景。

在这个场景里，x 轴上有三个物体：1）一个漏检的静态物体（坐标为 x）；2）一个静态物体在 x=50m；3）自动驾驶车在 x=0 以大概 14m/s 的速度向 x 轴正前方前进。有两个不同的规划器参与评测：1）AV-1（加速剧烈变动厌恶型）针对驾驶舒适性做了优化（最大刹车加速度为 -4m/s²）；2）AV-2（碰撞厌恶型）针对安全性做了优化（最大刹车加速度为 -6m/s²）。

二者最小刹车距离分别为 30m 和 20m。在这个情况里，对 AV-1 规划器，TIP 认为最关键的误检发生在 30m，因为障碍物低于这个距离时即使能成功检测到碰撞也无法避免，因此恰好在最小刹车距离的物体误检是最严重的（刚好能避免的碰撞发生的地方）。其他判据都没有类似的特点和分辨能力，NDS 和 SDE-APD 都表现出各项同性（都认为发生在正后方和正前方同样距离的误检影响都一样），而 PKL 则认为正前方的漏检越近影响越大。

5.2 真实数据测试

第二组实验中，本文研究了部署在自动驾驶车辆上的真实感知模块的结果。以一个 3D 物体检测模型为例，该模型可以从激光雷达点云中预测物体的类别、位置、方向、速度和大小。TIP 独立于特定的检测器，可以应用于评估各种感知模型。

如下图所示为该车载模型在若干场景上用 PKL 和 TIP 评估的结果。

左图为这些场景的同场景 PKL 和 TIP 分数分布图，可以看到有大量的点汇集在横轴上，对应那些行为变化不大，但是却可能导致严重后果的感知错误。其中被红圈标记的场景如右侧两幅图所示。右侧第一幅图显示在感知真值输入时，自动驾驶汽车可以通过缓慢制动向前行驶，以保持与前面另一辆车的距离；然而当实际的感知输入包括噪声时（右侧第二幅图），自动驾驶汽车必须紧急制动，以避免与前方近距离的误检车辆（红色箭头所示）发生碰撞。

在这两种情况下，由于自动驾驶车辆速度缓慢并且正在制动（无论是缓慢制动还是紧急制动），行为的差异比较小（PKL=-0.802），但这个误检物体却导致了严重的后果：误检物体导致了紧急制动和虚拟碰撞（在真值感知输入下的行为和误检物体之间），这种差异被 TIP（TIP=-115.42）精确捕获。

真实场景的自动驾驶车辆的运动学数据为（a=-0.36m/s², j=-0.72m/s³），噪声场景下为（a=-0.36m/s², j=-76.4m/s³）。而正常情况下的加加速度（jerk）一般不会超过 1m/s³。从系统的角度来看，这是一个严重的感知错误。由此可见，TIP 能够捕捉到被其他指标所忽略的对自动驾驶车辆规划过程有重要影响的感知噪声。

为了进一步证明所提出的方法在场景层面的合理性，本文还实施了一套类似于（Philion et al, 2020）中的主观评估。为此，我们收集了 258 对具有上述感知模型实际感知噪声的场景，并检查 TIP、PKL、SDE-APD 和 NDS 在相对严重程度上是否存在分歧（即一个评估方法认为场景 A 的感知误差比场景 B 的感知误差更大，而另一个评估方法认为相反）。

这些场景对由 10 个随机选择的人类驾驶员进行比较和评分，以决定从人类的角度来看一个场景对里哪个场景更糟糕。结果表明，相比其他三个基准评估方法人类驾驶员更倾向于和 TIP 保持一致的结果，如下表所示。

5.3 应用到神经规划器

除了具有明确定义效用函数的决策规划过程，我们提出的方法也可以应用到一些端到端训练的神经规划器上，比如说类似（Bansal et al., 2019; Zeng et al., 2019; Philion et al., 2020）这样的带有车辆行为损失或者分布函数的规划器。作为示范，我们采用了（Philion et al., 2020）里带有规划行为概率输出的神经规划器，并把输出行为的概率分布函数作为效用函数带入 TIP 中。

我们使用 CBGS 检测器（Zhu et al., 2019）在 nuScenes 数据集的 3D 检测任务上验证集上获得了如下的结果。

左图是每个测试场景里 PKL-TIP 结果的分布图。可以看到不少数量的点都在竖轴附近。其中一个点对应的场景显示在右侧的四幅图里：检测真值，CBGS 检测器结果，检测结果与真值之差，神经规划器输出（每种颜色代表某个时间点上规划的车辆位置概率，其中每个时间点上概率最大的若干位置被置为 100% 饱和度方便可视化）。

在该场景里，两种输入下（考虑车辆运动学和动力学的约束后）最优的选择都是倾向于停留在原地。因此 PKL 直接计算原始结果里所有位置的分布偏差会认为行为差异很大，而 TIP 只考虑车辆实际会执行的行为，因此认为这个具体情况下感知噪声的影响不大。

TIP还能用来直接评估每个场景里具体物体漏检和位置上出现误检的影响，如下两图所示。

本图展示了车辆漏检严重程度的可视化结果。每个环境车辆都被单独从真值结果里移除然后计算场景的 TIP 并把结果分数作为不透明度绘制到该车辆上（所有环境车辆都为红色）。可以看出大部分被 TIP 认为发生漏检后果严重的环境车辆都是那些在自动驾驶车辆（AV）行进路径上可能与之发生交互的车辆（而不是简单的距离最近的车辆）。

本图展示了车辆误检严重程度的可视化结果。任给自动驾驶车辆（AV）附近的一个位置，一辆被误检的车被添加到真值结果里然后计算场景的 TIP，并把结果分数作为不透明度绘制到该位置上（用红色标记）。可以看出大部分被 TIP 认为发生误检后果严重的位置都是那些在自动驾驶车辆行进路径上可能与之发生交互的地方。

总结

本文提出了一个系统性框架，从自动驾驶决策规划的视角来评估感知结果里的噪声对自动驾驶影响的严重程度。该方法通过利用基于效用的规划器的特性，有效地识别了在期望效用最大化的背景下可能导致决策规划过程发生重大改变的感知噪声。在人工合成数据和真实数据上进行的大量实验表明，该方法能够有效发现传统的感知评估指标以及只关注自动驾驶最终行为的方法无法区分的感知错误。

参考文献

Kant, I. Critik der reinen Vernunft. Johann Friedrich Hartknoch, 1781.

Osborne, M. and Rubinstein, A. A Course in Game Theory. MIT Press, 1994.

Philion, J., Kar, A., and Fidler, S. Learning to evaluate perception models using planner-centric metrics. In CVPR, 2020.

Deng, B., Qi, C. R., Najibi, M., Funkhouser, T., Zhou, Y., and Anguelov, D. Revisiting 3D object detection from an egocentric perspective. In NeurIPS, 2021.

Caesar, H., Bankiti, V., Lang, A., Vora, S., Liong, V. E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., and Beijbom, O. nuScenes: A multimodal dataset for autonomous driving. In CVPR, 2020.

Zhu, B., Jiang, Z., Zhou, X., Li, Z., and Yu, G. Class-balanced grouping and sampling for point cloud 3d object detection. arXiv preprint arXiv:1908.09492, 2019.

Bansal, M., Krizhevsky, A., and Ogale, A. ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst. In Robotics: Science and Systems (RSS), 2019.

Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., and Urtasun, R. End-to-end interpretable neural motion planner. In CVPR, 2019.

更多阅读