Redian新闻
>
黑芝麻智能、NTU提出使用栅格化视角优化BEV算法中矢量化场景构建

黑芝麻智能、NTU提出使用栅格化视角优化BEV算法中矢量化场景构建

公众号新闻



黑芝麻智能的科研团队在最新公开的论文中提出两点创新:一是建立了一种更加准确和合理的基于栅格化的“矢量化高精地图构建”的评价指标;二是推出了 MapVR,一个受益于栅格化视角的更精准的“矢量化高精地图构建”的框架。



引言


在自动驾驶领域,BEV感知能为自动驾驶感知任务提供有效的时空表征方法,将成为车载感知的主流发展方向,能在多样而复杂的驾驶场景中都能稳定地构建高质量的矢量化高精地图(vectorized HD map),对于BEV感知能力的提升至关重要。它能为环境感知提供重要的高层级语义信息。

然而,现有的矢量化高精地图构建方法往往存在一些偏差,现有的评估指标对于这些偏差的敏感度却不足。这在对精度要求极高的自动驾驶场景中,可能带来安全隐患。因此,我们需要更有效的地图矢量化方法和更敏感的评估指标,以提高地图构建的准确性,满足自动驾驶的严格要求。

为应对这一挑战,黑芝麻智能的科研团队与新加坡南洋理工大学的研究者们在最新公开的论文中提出了一个新观点:在“矢量化高精度地图构建”任务中,应当引入栅格化(rasterization)的视角。基于这一动机,他们提出了两点创新:一是建立了一种更加准确和合理的基于栅格化的“矢量化高精地图构建”的评价指标;二是推出了 MapVR(Map Vectorization via Rasterization),一个受益于栅格化视角的更精准的“矢量化高精地图构建”的框架。

在接下来的内容中,我们将深入介绍此研究的背景,所提出的评价指标和 MapVR 的细节,以及讨论如何利用栅格化来提高矢量化高精地图的精准度和实用性。


背景

在线高精度地图构建是指利用车载传感器(如摄像头)的输入,实时构建自车周围地图(包含车道线、道路边沿、人行横道、泊车位等)的任务。现有的在线高精度地图构建方法主要分为两大模式:地图栅格化(map rasterization)和地图矢量化(map vectorization)。地图栅格化相对简单直观,它将周围环境在鸟瞰视图(Bird's-eye View,BEV)中建模为语义分割任务,将分割结果作为输出的栅格化地图。

然而,这种栅格化的地图并非适用于自动驾驶应用的理想表达形式,因为它难以区分不同地图元素,无法提供结构信息,因而需要进行大量的后处理才能供下游任务使用。为解决这些问题,地图矢量化方法应运而生,成为实时构建高精地图的热门方案。最新的地图矢量化方法,例如 VectorMapNet 和 MapTR,使用有序点集来表征各个地图元素,直接回归每个地图元素的一系列点坐标,实现了更准确的结果和更快的运行速度。


然而,最新方法在实践中常常表现得不尽如人意,原因主要有三。首先,如下图所示,稀疏点集的表征方式在处理地图结构的尖锐弯曲或复杂细节时,精度不足,会导致明显的参数化误差。第二,将等距离的点集作为回归目标时,中间的点会缺乏清晰的视觉线索。这会导致监督信号的模糊性,使得学习过程变得困难。再者,单纯依赖点集间的L1损失进行回归监督,往往会忽视细粒度的特征,导致预测结果过于平滑,模型对微小的变化不敏感。


同样地,当前的评价指标也是基于点集之间的Chamfer距离,这种方式也容易忽视微小的偏差和几何细节。

总而言之,针对自动驾驶这样对精度要求苛刻的场景,我们认识到现有的地图矢量化方法和评价指标仍有很大不足。为了满足真实驾驶场景的需求,业界和学术界都应采用更高精度、更面向业务的评估指标和方法。



动机

为了解决上述问题,我们尝试了一个新的思路——在地图矢量化任务中引入栅格化(rasterization)的视角。栅格化的表达方式有其独特的优势,它与人类对环境的感知模式更为相符,能提供更为详细和直观的信息。

然而,如何将这一思路有效地融合到地图矢量化中,以提升精度和实用性,无疑是一项挑战。我们希望,通过引入栅格化视角,能够在方法和评价指标上均更准确地捕捉到地图的细节和结构,提升地图矢量化的精度,同时还能保留其矢量化的优势,使其更适合自动驾驶的各种下游任务。



基于栅格化的地图矢量化评价指标

1. 回顾现有的评价指标
现有的评价指标使用Chamfer距离来确定预测的地图元素和真实的地图元素是否匹配。Chamfer距离是一种衡量两个无序点集之间不相似性的量,它量化了一个集合中每个点到另一个集合中最近点的平均距离,可以用公式表达为:

尽管它简单且能给出大致合理的评价结果,但这一指标的以下缺陷使得其在如自动驾驶等对精度要求极高的场景中显得不足:首先,它不具备尺度不变性,对于较小的地图元素(如停车线),Chamfer距离无论预测是否准确都会很小,无法提供有意义的评价。其次,Chamfer距离仅依赖于无序点集的距离,完全忽视了地图元素的形状和几何特性,因此对许多实际驾驶场景会产生不合理的评价。

2. 更精准与合理的基于栅格化的评价指标
为了解决上述限制,我们提出了一种基于栅格化的评价指标,该指标对细微偏差更敏感,并更适合真实的驾驶场景。在此指标中,我们采用栅格化来准确地确定预测的地图元素和真实地图元素的匹配。


如上图所示,我们使用线形的地图元素(例如,车道线和泊车线等)来示例我们的评价指标。首先,目标地图元素和预测的地图元素都被栅格化(rasterization)为一条折线。栅格化后的图像分辨率应较高(例如,栅格化后的每个像素代表现实中的0.1米),以保证评价的精准性。然后,为了使我们的评价指标能对细长的折线的轻微偏移有一定的容忍度,我们将栅格化的折线在每侧膨胀(dilate)2个像素。最后,我们计算栅格化的预测和目标之间的交并比(IoU)以判断其是否匹配。与MS-COCO目标检测的的评价指标指标类似,我们在多个IoU阈值下计算Average Precision(AP)。

值得注意的是,地图通常还包含除线形之外的元素,如人行横道,交叉路口和停车位等。这些地图元素都可以被抽象为多边形。在对此类地图元素进行评价时,我们采用类似的方法计算AP,但不同的是,我们将其栅格化为多边形,而非折线,以更合理地进行评价。

3. 两种指标的评价质量
我们以下图所示的一些实例来对比两种评价指标的评价质量。红色代表Ground Truth,蓝色代表预测结果。一般来说,Chamfer距离小于1.0即可认为匹配,而mIoU大于0.35才可认为匹配。

(a)所示的是一条较短的停车线。由于Chamfer距离缺乏尺度不变性,对于这种较小的地图元素,Chamfer距离都会误判为匹配。而我们提出的基于栅格化的指标判断更为合理。

(b)所示的车道线预测出现了轻微的横向偏移。在实际驾驶场景中,即使是轻微的横向偏移也可能带来重大危险。由于Chamfer距离仅依赖于点集间的距离,缺乏对形状和几何细节的理解,因此它认定预测和Ground Truth匹配。然而,我们提出的基于栅格化的评价指标在确定匹配的过程中考虑了几何信息,因此能正确地识别出预测和Ground Truth之间的差异,判定两者不匹配。

(c)所示车道线的预测出现了轻微的纵向偏移。这种偏移通常是由于遮挡现象造成的,在实际的自动驾驶场景中,其风险并不大。因为随着车辆的移动,地图会持续更新。由于我们所提出的基于栅格化的评价指标考虑了地图元素的形状和几何信息,因此能够对这种情况给出更为合理的评估。

(d)所示的情况也能说明,我们提出的指标对微小的偏差更为敏感。



基于栅格化的地图矢量化评价指标

本文还提出了一个新型的地图矢量化框架——MapVR。这是一个通用框架,不涉及网络结构的设计,因此可以与其他地图矢量化的网络模型共同使用,如最新的MapTR。


相对于当前的地图矢量化方法,MapVR在训练过程中采用了一种独特的技巧。它将矢量化的输出(即地图元素的有序点集)进行可微分的栅格化处理,将每个矢量化的地图元素渲染成一张具有高分辨率的分割掩码。然后,我们将在这些渲染后的高分辨率分割掩码上进行分割监督。这个思路与我们之前提到的评估指标是一致的,它能够提供更精确、更详细、并包含了几何形状先验的监督,这将显著提升地图构建的精度。此外,MapVR还能够提供更合理的监督。在现有的地图矢量化方法中,我们通常会回归等间距的点作为目标,但这常常会在缺乏明显视觉线索的中间部分的点带来模糊性。MapVR的出现,有效地解决了这个问题。


另外,地图中经常包含很多不能被抽象成线的元素,如人行横道、十字路口、停车位等。这些元素更适合被抽象为多边形。如上图所示,我们也对这些多边形地图元素设计了可微分栅格化的策略。具体的栅格化公式请读者参阅论文。

值得一提的是,MapVR额外引入的栅格化步骤仅需在训练时使用。在推理阶段,我们可以简单地去掉额外的可微分栅格化步骤,直接使用网络的矢量化输出作为最终的结果。因此,MapVR在推理阶段并不会引入任何额外的计算负担。这意味着我们的方法在保持高效率的同时,还能够提供更准确、更稳健的地图构建结果。

此外,由于MapVR所提出的监督方式很大程度上消除了之前方法的“等距离目标点”的要求,我们还引入了一个额外的损失函数作用于正则化预测的折现之间的夹角。这能鼓励网络输出更加平滑的地图元素,同时在转弯处得到更加精力的结果。该正则项可用公式表示为:

在论文中,我们也通过实验证实了该正则项的有效性。



实验结果

在论文中,作者将所提出的方法在4个数据集上进行了充分的实验。MapVR无论在现有的评价指标上,还是在论文中提出的新的指标上,都取得了最佳的性能。有关具体的量化实验结果和消融实验结果,请读者参阅论文。

如下图所示比较了我们所提出的MapVR和现有的最佳基线方法——MapTR。我们可以观察到,我们的方法能够生成更加精确的矢量化高精地图,尤其是在捕捉复杂的细节以及准确呈现复杂或曲线形状的地图元素方面表现出色。相比之下,尽管MapTR方法可以产生大体正确的矢量化地图,但在细节部分不可避免地会出现偏差,且在精确构造复杂地图元素上存在困难。这些结果证明了我们的方法的有效性。


我们还对两种方法在两种评价指标下的精确度-召回率曲线(Precision-Recall Curve)进行了比较。观察可知,在未引入MapVR的情况下,MapTR基线在相对简单的APchamfer指标和严格的APraster指标上存在较大的差距。这说明当前的方法在捕捉地图元素的细节方面确实存在不足。而当引入MapVR后,这两者的差距显著缩小,并且性能都有所提升。

这证明了在地图矢量化任务中引入栅格化的精细监督确实能帮助模型提升性能,尤其是在捕捉更细节的部分上,证实了我们工作的有效性。



结语

本文提出了一种全新的视角去理解和处理地图矢量化的任务:通过栅格化,我们能够更准确地学习和评估地图矢量化。我们发现,虽然矢量化表示方式简洁易用,但其在细节表示能力上存在不足;因此,有必要在学习和评估中引入栅格化作为补充。我们希望我们的视角能够为地图矢量化的进一步创新提供基础,最终促进安全可靠的自动驾驶技术的发展。

论文原文链接:
https://arxiv.org/abs/2306.10502

代码链接:
https://github.com/ZhangGongjie/MapVR

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
1978年,杨勇出使南斯拉夫,总统拒不接待,邓小平明天让他升官峰会全景回顾 | 国际化视野下,为生物医药产业链搭平台、树标杆、促共赢!深圳内推 | IDEA数字经济研究院招聘算法研究员、NLP/大模型算法实习生中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟2023年第三届人工智能、大数据与算法国际学术会议ICML 2023 | 清华团队提出使用低维优化求解器求解高维/大规模优化问题工信部:构建从智能芯片到算法框架到大模型的全栈式人工智能产业链ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRES我要当真正的地主了发改委提出优化汽车购买使用管理,专家质疑首个室温常压超导,推特成功更名X,传下代iPhone缩窄边框,这就是今天的其他大新闻!时至今日,他们才明白自己的青春被浪费了苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!离乡人2年超30个项目,龙湖商业网格化布局的第二路径氢能、储能、智能驾驶是大势所趋:无锡站游学精华分享首个二值量化评测基准来了,北航/NTU/ETH联合提出,论文登ICML 2023AutoFocusFormer:摆脱传统栅格,采用自适应下采样的图像分割游戏论|模拟的风格化——探讨JRPG的“不自然”之处在美国LV算个屁,养猫才是奢侈品冲刺智能汽车计算芯片第一股!黑芝麻智能赴港IPO,披露全球市占率前五说说缘分这个东西强风格化才会让中小成本影片勃发生机谷歌 DeepMind 打破十年算法封印,AlphaDev 惊世登场,颠覆人类算法格局!曾与腾格尔相爱8年,坦言离婚并不后悔,今57岁肤白貌美仍单身新作速览|新教学场景构建:HIS杭州国际学校 / 朱培栋-line+建筑事务所、gad出使缅甸腾讯QQ NT架构版本内存优化进展公布,聊天场景控制在300M内矢量数据库:企业数据与大语言模型的链接器黑芝麻智能冲刺港股:估值超20亿美元 腾讯小米北极光是股东在AI和算法中,夹缝生存的音乐人打工人“恩物”,小小黑芝麻仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF安信证券数字化转型:科技赋能、特色IP打造、场景化服务走向财富管理差异化新道路
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。