对话理想智驾VP郎咸朋：轻地图、GPT将如何改变自动驾驶？

2023-05-01 22:05

作者 / 曹锦

在车企争先恐后推送城市NOA的节点，大家对这一功能的实际效果却是褒贬不一。在这一背景下，理想汽车在上海车展宣布，AD Max 3.0的城市NOA导航辅助驾驶，将于第二季度开启推送，并于年底前完成100个城市的落地，且对用户终身免费。

在这套城市NOA算法中，使用了三种神经网络大模型算法：静态BEV网络算法，动态BEV网络算法以及Occupancy网络算法。

在通过此套方案宣布其进入「智驾3.0时代」后，理想汽车智能驾驶副总裁郎咸朋，以及理想智能驾驶产品负责人赵哲伦接受了我们的访谈，他们不仅进一步解释了理想城市NOA的特点，还对现下流行的技术方案、后续的升级问题，以及未来的路线给出了自己的见解。

关于对城市NOA的「信任感」

据介绍，AD Max 3.0的城市NOA所采用的静态BEV，可以在部分摄像头被遮挡，车道线模糊时依旧补充出道路结构，解决高精地图数据实时性的问题。

动态BEV神经网络也具备了一定的「脑补」能力，例如当车辆同时出现在多颗摄像头视野内时，动态BEV可以稳定追踪并感知出物体的距离与速度。

Occupancy网络算法则可以对物理世界进行数据化建模，通过纯视觉还原真实场景，例如路侧垃圾桶、临时的施工牌等「通用障碍物」。同时，理想汽车还使用NeRF技术，进一步提升了Occupancy在远距离的分辨率，加强系统的感知能力。

针对这套方案的特点和思考，郎咸朋和赵哲伦与我们进行了深入的讨论。

Q：您可否对「静态BEV、动态BEV」这两个名词加以解释？

赵哲伦：所谓静态BEV，就是将静态世界用BEV算法还原出来，也就是车道线和道路的结构，可以理解为这些即是用高精地图做的部分，也是变化较少的部分（除了施工改道等变化）。

而动态就是指不断变化的交通参与者，例如人，骑车人，车，偶尔还会有一些动物之类的元素。

另外，除了静态和动态，我们还提出了「通用障碍物」，即那些不需要区分类型，但依然需要避让的元素，我们用Occupancy算法去完成这部分的识别。

实际上，向城市NOA发展动态参与者会非常复杂，虽然静态来讲相对稳定，但是识别也需要非常准确。理想将这三种算法整合在一起，对其进行预测。

Q：如何选择推送城市NOA的城市，需要有什么先决条件？

郎咸朋：我们的基础架构不受限于高精地图，城市NOA的开放逻辑是基于训练里程的，这就取决于这座城市里的车主保有量及开车频率。哪里的训练量足够多，实际路口的通行次数够多，哪里就可以开放。

（理想汽车智能驾驶副总裁郎咸朋）

Q：这套系统可以适应哪些场景？

赵哲伦：关于城市NOA适应的场景，这是行业共同的问题，也就是长尾问题：要覆盖大部分的生活场景并不是很难的事，但剩下的小部分场景却非常难解决。

整个物理世界被分割成三个部分：第一部分是静态的道路结构，第二部分是动态的交通参与者；第三部分是障碍物——中国存在非常多的改道和施工，第二与第三部分在这里尤为复杂，与北美相比是数量级的差别。

这些因素导致最后的10%乃至1%，会需要比较长的迭代周期。

如果以「接管率」作为要求，我们认为初期做到「单次行程接管一次以内」就算是较好的用户体验。再往后是一天接管一次，一周接管一次……如果能做到一周接管一次，那就非常有用户价值了。

Q：如果可以量化疲劳度，什么时候城市NOA的体验能达到比较安心的状态？

赵哲伦：在高速路的固定场景中，我们很容易掌握别的车和自己车的边界在哪里，但城市的场景中有很多需要预测的部分，如果人对车的决策无法预知，就容易心慌。

所以，理想在城市NOA的环节，为了让用户提高信任度，会进一步优化整个交互上的显示，让驾驶员能更理解AI的思维方式。

例如，在车机的EID上，你可以看到车辆有没有预测到会和别车交汇，也就明白车辆将会制动，你也就会更有安全感。其实现在特斯拉在北美最新的交互上已经有这样的展示了，它会预告车的加减速或者制动，这样会在很大程度上提升信任感。

另外还有接管率的问题，虽然城市场景比高速难很多，但是我们基本上能做到20-30公里接管一次。

Q：年底规划开发100个城市，这是个恐怖的速度。反过来在安全层面，我们在人机互驾上有没有考虑过优化升级？

赵哲伦：人机互驾对用户的要求也是比较高的。大家如果关注现在的高速辅助驾驶，目前至少在理想的用户中，使用率还是比较高的，日活能达到30%，是一个比较高的数字。

但用户需要清晰地掌握它的边界，才能很好的使用。如果放眼整个汽车行业，依然有大部分用户没怎么真正使用过这样的系统。

所以，在城市NOA的推送过程中，也会参考从核心高频率使用、至少是对辅助驾驶有深刻了解的用户来首先推送。

Q：理想的城市NOA方案没有收费，可是友商都在收费，这样做的逻辑是什么？

赵哲伦：如果订阅，每年基本需要付数千元，到卖车的时候也付了数万元了，但这笔费用其实完全没有任何的保值作用。

我们考虑的是，如何让在用户卖二手车的时候，车整体上仍是他的「资产」，而不是他的「消费」，所以我们会选择前期以一个低成本的硬件BOM价格去预埋在车上，硬件的成本是在车里面的。

但是在卖车的时候，这个价值依然能得到体现，而且其软件功能其实更强大了，价值体现得更加充分。

关于高精地图的痛点与思路

Q：我想知道理想对于高精地图的态度是怎样的？

郎咸朋：如果你说有一张高精地图，它覆盖了中国所有的道路，每分钟就能更新一次，而且还很便宜，1块钱就能用一天，我肯定会非常赞同使用高精地图。

但是，我刚才提到高精地图有三个特点：

1、高精度

2、高鲜度

3、数据的信息量、丰富度高

这3个特点又恰恰是高精地图的制约点：如果想获得高鲜度，势必要频繁更新；如果想获得元素丰富的信息，制作工艺又势必会非常复杂。

还有一个原因是我们国家实在是太大了，所有的道路一共有1000万公里左右。（其中高速公路只有30万公里的高速，所以说在高速场景利用高精地图还是能实现的。）

如果想把这1000万公里的道路全都做一遍高精地图，需要花费上亿元的成本。因为每做1公里高精地图，大概是100元的成本。

所以，为什么大家都不用高精地图了，并不是说其本身不好，而是我不具备使用它的条件。

同时，还有另一个问题，之前做高精地图，是因为还没有静态BEV、动态BEV等算法。这两年，因为大家认为高精地图存在使用痛点，而且随着算法能力变强、车身传感器增多，逐渐就有了静态特征信息的检测算法。利用静态BEV算法，相当于在开着车的同时，局部图就构建好了。

现在我们做的并不是高精地图，而是智能驾驶所需的元素、特征、信息的一张图，它不需要反馈道路边界在哪，具体入口位置在哪，因为我们具备自己的实时感知能力，只需要自己去判断车道线在哪就好了。

例如，当车辆左转弯，转过去之后是否有道路连接，左转道路与后续直行道路是否有拓扑关系，这个关系比「确定道路边界在哪」更重要。

这种智能驾驶需要了解的信息，我觉得只做地图的人可能会了解得少一点。

Q：可否理解为，BEV解决的其实是单车单点的问题，但是地图有定位，二者相辅相成？

郎咸朋：之前大家想用规则式的、写得特别清楚的方式去做智能驾驶，所以才有了高精地图。

但现在有越来越多的人理解到：要想最终实现自动驾驶，要从人工智能角度来解。我们想教会系统像人一样思考和开车：你开车的时候也并不是要把整个中国地图全装到脑子里，才会开这辆车，而是边开边判断。

其实在做高精地图的时候，还有一个细节：图商希望能绘制出智能驾驶的规划路径，就是智能驾驶知道该怎么开，只要沿着地图上画的线开就好了。

但是哪有那么容易的事，路上有各种各样的复杂交通参与者，尤其在城市场景里面，这种思路是错误的。

Q：目前大家说不依赖高精地图的城市NOA，是真的一下把高精地图丢开，还是逐步将其降权？

郎咸朋：我们也看到了不依赖地图或者重感知、轻地图的说法，其中有几种方案：大家在高精地图和非高精地图之间，或者导航地图和非高精地图之间制作地图，叫HD Map-或者叫SD Map+。

HD Map-，其实还是用了高精地图，只不过是少用了几个元素而已；而SD Map+就是在导航地图的基础上，增加了一点匹配智能驾驶的元素。

大家都说轻地图，要看轻的是什么，是从高精地图上做简化，还是从SD Map上做加法？这是感知区别，我比较倾向于后者。

Q：刚才提到的道路拓扑关系，现在在理想的城市NOA的技术栈里面是由谁来负责？

郎咸朋：这种拓扑关系在国内还是由图商负责。我们与高德也会展开一些讨论和合作，高德会发布OEM图层的逻辑，方便在合作时将智能驾驶特征相关的信息在OEM里面进行体现。

Q：目前在城市NOA，理想的技术栈里面，道路的连接关系是怎么获得的？

郎咸朋：实际上关于拓扑关系，我们有自己的生产方式。

举一个红绿灯路口的例子：在实车体验时可以发现，位于路口时会有一个小的神经网络去做端到端的训练——给我一张图，我就告诉你这里该转向还是直行，而不是说根据红绿灯与道路的关联，再根据道路拓扑做判断，这还是有本质区别的。

关于大模型的潜能与趋势

Q：关于大模型算法，据说新势力第一梯队的表现不是理想，您怎样看待这个问题？

郎咸朋：这是低估我们了。如果不是以大模型算法训练为前提，我们不可能有那么多训练里程。从一开始，理想就将智能驾驶当成长期AI的问题对待。

在车展现场公布训练里程时，最早的是2019年的数据。也就是说，从那时起我们就已开始了算法训练。

在做第一代产品时，大家用的都是供应商的方案，那时理想就已经开始做训练里程和算法的积累。在2021年，理想有了AD1.0，那是我们第一次全栈自研，已经积累了1亿多里程的训练里程。

到了AD2.0，也就是去年，我们是全球第一个交付Orin X芯片的高速NOA，这样的速度都是源于训练里程的积累。

理想一直坚持认为，对于所谓的「自动驾驶」，要看成人工智能问题，那么关键点就是三要素：算法、算力、数据。我们认为最终竞争的决胜点是数据，是拥有多少训练里程。

建立这个思路之后，大家就不难理解：为什么要标配AD？因为只有标配才能有最大规模的量，而且训练里程中的样本种类也丰富。之所以BEV网络的训练迭代速度会非常快，其实也是源于数据。现在我们有4亿公里的训练里程，而且都是挖掘出来的真正有用的数据。

还有一点，就是总量大不大，也就是产品销量也必须要高，这两点相乘才是最终获取到的训练里程规模。

Q：对于端到端的基础战略，理想是怎么看的？你们对AI和神经网络的应用会到什么程度？

郎咸朋：端到端有可能是根据一张图就能出结果，但也有可能是局部的端到端。随着算力的增大，确实大家的想象空间会变大。

原来因为算力不足，必须把感知、决策、规划和控制分开做，而现在算力高了，于是可以尝试将一些东西合在一起做端到端。我们会保持探索这一方向，但对于现在的产品而言，我们还是要用自己的大模型确保感知、BEV等。

在规控上，理想主要有两方面的考虑：一是控制结果要确保安全，这可以以规则去做，最终规控是Rule-Based和Neural-Based的结合，而不是完全Rule-Based的东西，因为我们一定要把智能驾驶以体验作为驱动。

第二点考虑，是控制结果要与人类驾驶体验吻合。基于此，我们的想法是用小的神经网络去做。

Q：有人说GPT范式看起来是人工智能的边界，它会否改写智能驾驶的基础范式？例如拉一个很大的模型，基于这个模型做出很有常识的东西，然后把它拿来适应驾驶任务。

郎咸朋：目前看来，这是一个合理的趋势。GPT最大的好处是可以用大量的弱标注或者粗标注的样本，来获取一定的基础能力；然后再用精标的小数据去做调整，在某些任务上得到更好的结果，我们现在也在这么做。

举一个例子，比如数学考试，肯定是先掌握各种各样的数学知识，来补充基础素质。之后在临考前，做一下历年真题，掌握解题技巧；最终在考试时，分数就可能会比较好。但之前因为没有大模型这种思路，大家就是拼命刷题、精标数据。这样万一题型有改变，那考试成绩就会变得很差。这是GPT范式和非GPT范式的区别，我认为前者是有一定合理性的。

Q：您是如何看待特斯拉的Dojo，还有友商小鹏的「扶摇」这种大型的用于数据训练的机型?

郎咸朋：其实Dojo和扶摇都是很好的训练集群，但我理解它们只是算力底座或算力基建，上面搭载的是整套虚拟闭环和数据闭环。

特斯拉这套系统最强大的是车端数据的采集和训练，是一个非常高效迭代的闭环，小鹏的扶摇可能只是一个训练集群，但搭载的数据闭环是否效率很高，他们没有讲过，我们也不得而知。

Q：理想现在认为自己的硬件，到2025年这段时间，对于应用需要的感知和计算能力是否能够满足？

赵哲伦：理想最早使用的是单模摄像头+单毫米波雷达，再到后来的环视摄像头。目前从L系列来说，无论是Pro还是Max都具备周视相机和大算力的芯片，这点已经带给开发很大的自由度。

至于是否能够支持到2025年，目前看来肯定是可以的。

Q：刚才提到了，原来咱们跑CNN，需要的是带宽密集型芯片；现在跑Transformer，需要的是算力密集型芯片，我想向您确认一下，这种说法是否准确？

郎咸朋：带宽密集型还是算力密集型，与硬件本身的设计是强相关的。英伟达在设计芯片的时候，其实还没有Transformer，但现在它也做了很多相关的优化补丁。

我们与英伟达之间的互动其实非常多，我们提了很多意见和建议，现在反馈得到的优化也很显著。在它下一代的芯片里面，也会更好地解决硬件加速和优化的问题。

关于机器智行

机器智行为机器之心推出的智慧出行垂直媒体，关注自动驾驶、新能源、芯片、软件、汽车制造和智能交通等方向的前沿研究与技术应用，透过技术以洞察产品、公司和行业，帮助汽车领域专业从业者和相关用户了解技术发展与产业趋势。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

对话理想智驾VP郎咸朋： 轻地图、GPT将如何改变自动驾驶？

对话理想智驾VP郎咸朋：轻地图、GPT将如何改变自动驾驶？