文|李安琪
编辑|李勤
来源|36氪汽车(ID:EV36kr)
封面来源|官方供图
今天智能驾驶的发展节奏,几乎所有从业者都未预料到。2022年底,在蔚来智能驾驶副总裁任少卿的判断里,城区NOA(领航辅助驾驶)的规模铺开,需要挨个开城。但进入2023年,一下子就要“全国都能开”。始作俑者是华为。甚至华为提出的“全国都能开”,也是在同行不断加码开城目标后,被动做出的调整。智能驾驶是嫁接在智能汽车核心属性中的技术变量,它被认为是最大势能的变革之一。在各家车企的落地节奏中,自然寸步难让。但可能少有人料到,是蔚来紧跟华为,把“全国都能开”的高阶智驾交付给用户。去年开始,华为喊出智驾“全国都能开”,不断刺激着同行的神经。蔚来智驾则相对低调,鲜少参与开城数字交锋。按照蔚来的计划,将于4月30日开启全域领航辅助NOP+全量推送。不仅成为华为之后,第二家交付全域领航辅助驾驶的车企,从用户推送规模看,也是目前体量最大的一家,超20万量级。数日前,36氪在北京见到了蔚来智能驾驶负责人任少卿。近3个小时交流中,任少卿分享了智驾工程、技术和安全等问题,以及对端到端自动驾驶、世界模型等前沿技术的洞察。蔚来智能驾驶研发副总裁任少卿(图源:蔚来汽车官方)
2020年8月加入蔚来前,任少卿已经是计算机视觉领域的风云人物。其毕业于中国科大与微软亚洲研究院联合培养博士班,2016年曾获得全球计算机视觉顶级会议CVPR最佳论文奖。毕业后还参与创立智能驾驶公司Momenta,担任研发总监。然而,智驾量产之路荆棘遍地。虽然投入重资,蔚来直到2023年才发布全域领航辅助NOP+功能。质疑伴随着蔚来智驾团队。任少卿说,蔚来有自己的逻辑和节奏,“我们习惯于把基础的东西先做完”。团队除了经历早期4颗Orin芯片的域控制器控选型,还重写了软件架构。2022年,任少卿判断,智驾必然会从高速走向城区,因此带领团队开始部署兼容城市场景的算法架构,“我们不是第一个推出城区智驾功能的公司,但是第一个城区技术架构上车的”。蔚来CEO李斌为团队构建了以汽车工业为基础的认知逻辑,即围绕“十几年车辆生命周期”做技术布局。
蔚来的思路是,智驾软件至少做到10年更新,三代软件同架构,硬件起码要保证6-7年的最佳体验。
蔚来在二代平台车型标配4颗英伟达Orin芯片,整车AI算力1016 Tops。蔚来的坚持一度被质疑,毕竟同行普遍采用2颗Orin方案,即便蔚来第3颗Orin作为系统冗余,仍有1颗Orin“赋闲”。
但在蔚来的技术体系下,节奏突变的关键,也是找到了第4颗Orin的用武之地,跑出“群体智能”路线。
2023年9月,任少卿和智驾团队定下目标,在今年二季度完成60万公里城市道路验证。行业普遍的做法是,自建测试车队,即一城城验证后开通路线。但结合群体智能,蔚来可以通过每台量产车的1颗Orin算力,乘以规模数量,得以验证道路的智驾功能是否可用。这超出蔚来意料,原定9个月的才能完成任务,实际只用了3个多月。蔚来智驾开始“狂飙”。任少卿表示,目前每月的道路验证里程达数千万公里,蔚来智驾已经在全国726个城市铺开。在任少卿看来,在整个智能驾驶的技术落地背后,根基是安全。蔚来推送全域领航辅助驾驶的一个核心标准,就是事故率低于人类开车,未来2-3年,蔚来还计划将事故率降低30%乃至更低。为了减少事故风险,蔚来选择了一条枯燥的道路:分析用户的所有智驾接管数量。“每天可能达几百万次。”第4颗Orin可以筛掉99%无用数据,再经过复杂流程,得到万分之一安全接管案例,回传至云端。此外,蔚来还能通过ADAS(辅助驾驶)和ADMS(增强型驾驶员感知系统)等系统精准地提醒用户,减少事故发生。技术演进方面,“端到端”被视为智驾行业下一代方案。据任少卿介绍,蔚来的端到端智驾方案是将感知模型与规控模型合并,实现信息无损传递。当前行业各家基本都在构建感知大模型与规控大模型。大模型化很重要的一点是,让智驾拥有更强的预测能力。就像大语言模型ChatGPT能够预测下一个字词,智驾也要具备对物理世界的时空认知能力,认识“路面下雨会打滑”等物理规律。这背后是更庞大的世界模型。去年中,蔚来开始探索机器人世界模型,目前已有阶段性成果,端到端方案也将在年内发布。任少卿认为,机器人世界模型的建立强依赖于机器硬件如智能汽车、机器人等。而这些硬件生产与供应链能力,恰恰是中国公司的强项。这也是车企做世界模型的优势所在。“车企一定会是真实世界中领先的人工智能企业。”以下是36氪汽车与蔚来智能驾驶研发副总裁任少卿的对话,经编辑:
36氪汽车:从竞争角度来看,大家加快开城速度与华为有关系吗?任少卿:华为教会了行业怎么打心智战。智驾的使用和熟悉成本确实比较高,像座椅电视这种,10秒钟搞不明白,一分钟总搞明白了。但智驾说不清楚,一些测试和试驾最少得跑两三个小时。华为让消费者认知到了智驾。36氪汽车:“全国都能开”对于智驾行业有什么特别的意义?任少卿:自动驾驶每年都有热词,2022年的BEV(鸟瞰图),2023年Occupancy Network(占用网络),今年的全国开城、端到端大模型。对于头部玩家,今年上半年开城就会进入尾声。城区智驾属于高端功能,但其实智驾还有两条线,往下走,做好更便宜的方案;往上走,探索L3级自动驾驶,法规、保险全部都要跟上。36氪汽车:智驾功能之前是按城市是挨个验证的,现在明显感觉大家都来不及了,这对你们的价值观来说有挑战吗?任少卿:之前大家不太理解我们的逻辑,最近逐渐有一些理解了。我是2020年下半年加入蔚来,那时候正好是设计第二代平台。第一个不被理解的问题是,为什么把激光雷达装到头顶?它确实挑战了很多传统车的设计语言,内部设计同学一开始也很难受。这其实是基于我们的认知。激光雷达装在车顶比装在车前感知更远,泥点子、灰尘影响更小、维修成本更低,还不容易被撞到,对用户价值更高。斌哥(蔚来CEO李斌)就去沟通造型设计的同事,他说这是挑战,也是个机遇,这是之前没有过的设计语言,如果做得足够好,可能会引领一个时代。现在已经有很多车的激光雷达装在车顶,但细看,整体协调性和流线感还比不上蔚来的设计。第二个被诟病的是4颗英伟达Orin芯片。但换个角度,大多数人的车怎么也得开个5-10年。Orin是2022年下半年量产,Thor(英伟达下一代芯片)明年量产,三年换代,难道三年也要换车吗?芯片行业变化很快。从2017-2018年到现在,算力变化百倍千倍。Mobileye的EyeQ4是2018年量产,算力2.5 Tops,但2022年的Orin算力254 Tops了,100倍差距。如果到2025年Thor量产,6年时间算力上涨500倍。所以软硬件设计平台生命周期要足够长,这对用户的长期持有是最有价值的。我们想做到软件更新10年,三代软件同架构,硬件上要做到两代,6-7年时间。36氪汽车:所以李斌的逻辑还是从汽车工业出发,不是消费电子?任少卿:他考虑的是生命周期。车不是手机,不能一年一换,要看10年-15年。消费者买的时候可能加了一些钱。30万以上的车加3%成本,总比三年换一辆车成本低得多。今年,能实现城区智驾的车,ET7是最老的一辆。很多比它晚上市的车,都做不了城区智驾。任少卿:我们的红线的是,全域领航功能的安全性一定要比人开要好。不管是全域智驾开放,还是车辆使用全生命周期,我们都希望能够减少事故。减少事故,涉及到一个非常复杂的系统。首先要知道有没有事故?这不是一件容易的事。像气囊炸了这种很容易监控,但有些剐蹭,用户自己可能都不知道,也不知道别人蹭了你还是你蹭了别人。我们从去年中开始建系统,一开始用气囊、IMU(惯性传感器)的数据,但都很难判断,后面把视觉和Occupancy(占用网络)加入进来做剐蹭判断。36氪汽车:很多时候是车辆快要蹭到了,用户安全接管,这种也会纳入数据分析吗?任少卿:会有。冰山上的问题永远是小的,还需要看冰山下面的数据。所以我们建了第二套系统,分析所有接管。这是什么概念?一天几百万次接管,包括高速NOA的接管。这是一个更复杂的系统。因为数据量太大,可能都没有办法回传。怎么办?群体智能。比如100公里接管了10次,车端一颗Orin可以筛掉99%不是安全接管的案例,剩下1%的安全性接管,再经过一个复杂自动化流程,再筛掉99%,得到万分之一的案例。所以其实是两个指标,真实事故和潜在事故。任少卿:所以这是一套多级体系。第一级是基础功能加强,比如用OCC(占用网络)、激光雷达等增强对安全接管的分析。然后是功能级警报。我们有两套系统,ADAS(辅助驾驶)和ADMS(增强型驾驶员感知系统)。之前驾驶员的监测逻辑是,用户可能不处于紧张状态,DMS也会做提醒,但现在我们车内外传感器都融合,判断风险场景的出现,更多信息输入,可以更精准地提醒。我们还做了另一套系统,智驾分数。结合我们的事故分析,会发现低分用户与高分用户的事故率差8倍以上。低分数用户的事故率较高。高分用户能开的智驾功能或者小路就会多一些,低分用户可能在主干道上用智驾更安全。36氪汽车:智驾全国都能开在二季度推送,这个决策是什么时候做的?任少卿:可能就今年年初。一方面是,我们原定60万公里可能要9个月才能完成,就是去年9月到今年6月,但我们发现去年12月就已经差不多了,用户热力道路都搞完了。剩下的就是,解决安全和体验上的问题。这是一个巨大的拐点。36氪汽车:如果没有华为,你们全量推送的节奏会不会更往后一点?任少卿:华为也是因为之前有人喊出了100城,所以才往前走一点。中国跟美国智驾市场不一样,特斯拉更多按照自己的节奏来走,但中国是一堆人在旁边,大家都在互相卷。36氪汽车:智驾追求安全和稳健,这跟这行业竞争的快节奏有冲突吗?任少卿:我们的长期目标大家可能都认同,但短时间内确实非常卷,每个月不发一个智驾版本可能都会觉得落后,所以每个月都在发版。客观问题逃脱不了的。但长期工作一定要坚持。工程师如果只为了每个月发版而卷,那没有意义。比如这版开发了某个功能,但下一版就没有了。长期的认知框架,可以保证做的事持续有用。还要有很强的测试能力,测试迭代的能力能保证能够实现终极目标。比如原来智驾半年做一次测试,但现在每月一测。如果测试搞不定,就随便发出去吗?这肯定不行。全国道路都能开,实际有两件事要做。第一是路真的能开,包括通用检测能力,去复杂路口记一些东西。这都是技术算法范畴。第二是能验证。中国城区道路各种各样,北京朝阳跟海淀,跟平谷就不是一个世界。怎么能验证这些路都能开,其实是一个复杂系统。
36氪汽车:有技术公司认为,智驾是标准化的功能,不是产品,车企不应该做,您怎么看?任少卿:我们不觉得智驾是功能,甚至也不是产品,我们觉得它是个服务。服务需要长期更新的,给用户提供可用、安全的、领先的东西。所以这也是我们一直在推订阅服务的原因,从商业逻辑上来说,买断智驾是不现实的。买断一定会导致大家短视。就是现在很多车卖了,功能装到车上就结束了,后面更新就看车企的良心。从价值来看,车如果要让用户事故率下降30%,肯定不能只把它当功能来做。功能只是智驾的低级阶段,但是中高阶段一定很快会来。36氪汽车:一些车企智驾做的不错了,但市场还是怀疑,智驾是不是真得能帮助卖车?任少卿:说白了智驾还是个小众市场,还没有进入大众市场。这是需要我们从业者去做的。第一,价值持续扩大,城区智驾就是一个价值扩大的点。之前高速NOA的体验成本太高了,绕两小时才能体验到。城区智驾,可以降低用户试驾的认知成本。第二,智驾的安全性需要很强的第三方证明。有了证明报告,消费者能看到实际的智驾价值。36氪汽车:现在智能驾驶的技术构型成熟了吗?还会有大的技术拐点吗?任少卿:从技术角度来看,基本框架都在了,后面需要持续迭代和运营,是个系统性工程。比如怎么证明蔚来的总体事故率(包括人驾、人机共驾)真的减少30%,很难。因为用户只有在出事故时,才有明显体感。但从规模群体来看,是有可能的。所以我们也在探索保险业务,跟第三方合作验证。36氪汽车:L3大概在什么节点?商业模式上会有大的变化吗?任少卿:L3就跟城区一样,小规模的使用和全量之间,还是会差1~2年。小规模可能会比较快。L3的决定性因素还是安全。如果遇到接管场景,用户可能要等一段时间,给系统几秒钟再接过来。商业角度,从保险和责任维度上肯定有一些转移,原来个人负责,L3状态的话车企主责,保险逻辑和商业逻辑可能就要变发生变化。我们也在筹备保险相关的东西。当然,还有政策等因素。蔚来也一直在积极推进政策落地,今年应该会有政策允许L3试点车型。原来的L4自动驾驶的测试都是纸质车牌,L3发会发铁牌,算是新型号的车。36氪汽车:蔚来智驾开始服务乐道,会考虑别的合作吗?技术复用度如何?任少卿:我们是一个很open的状态。现在我们的第二个品牌就在复用平台的技术,包括NT2.0和NT3.0也要同平台。硬件会换,但我们自己要求模块级的复用度——就是模块级复用的比例85%以上。我们也要在新的车辆平台验证,智驾架构能做到这些事,以及成本足够低。另外,我们是国内第一个能够跨洲量产智驾的。在欧洲我们的高速NOP已经推送了。这是我们纯自研的第一代NOP,2022年3月份在国内量产ET7后,我们在当年9月份在欧洲量产了ET7,建立了功能安全、智能安全这些大规模量产能力。现在我们在欧洲去测纯感知、纯无图的NOP+。当然,也要在欧洲建立当地的数据中心。36氪汽车:您从2020年8月加入蔚来,2022年12月全域智驾才推出来。这个过程应该是有很多外界的噪音和压力,您怎么应对的?任少卿:加入的一年半,开始半年是传感器、芯片选型,建立团队。因为Orin 是全球第一个量产的,而且提前了半年;高线束激光雷达也是全球第一个量产的,所以前一年半从团队和工程上的挑战是很大的。2022年3月份ET7量产之后,我们又在欧洲做量产,这又是一个很有挑战的事情。2022年底才推了高速NOP,这可能也让大家觉得慢了。但慢的背后故事是,为了推高速NOP功能,我们把所有架构都重建重写了。当时有两个选择,NT1.0的高速功能(基于Mobileye的方案)是比较成熟的,可以直接拿过来用,第二是全部推翻、重搞,我们选了后者。我们的判断是,智驾功能一定不会止于高速,但NT1.0的架构是不可能支持高速以外的东西,城区智驾做不了。所以在2022年3月量产了ET7之后,花了9月时间,重构了高速NOP的功能,到2022年12月才推出,接着推出城区功能。而其他家,是用原来的方案做完高速领航,再做重写城区架构,车上有两套不一样的架构,然后反过来把城区智驾架构开放给高速NOA功能。但我们不一样。我们是先把能够进化的架构重建了,先推了高速,然后再顺着推城区。我们是第一个有城区智驾架构,只是功能还没有实际推给用户。大家各自有的东西不一样,我们习惯于把基础的东西先做完。任少卿:全量全国都开了,往后走,还有城区的持续优化。我们觉得,智驾开城整体需要两年的周期。开点是去年年中,第一年大家要解决的问题是智驾功能可用,全国道路能开。第二年要解决的问题就是,智驾好用。所以我们还需要花一年左右的时间,把城区的智驾体验推到现在高速领航的等级。
36氪汽车:你之前在微软研究院提出了Resnet图像识别架构,那怎么看Transformer也用来做图像识别,它会是更加主流的东西吗?怎么看行业端到端智驾趋势?任少卿:Transformer已经是主流的东西。AI未来10-15年就两个趋势,一是性能更好,比人干的好。原来AI对话觉得很傻,但现在已经靠谱很多,看起来更像人了。二是追求更通用,原来模型只能做3件事,现在做5件事。Transformer架构的好处就是,一下这两个方向都卷完了,算是一个里程碑,但演进还会持续。36氪汽车:端到端会对现在的城区智驾是个颠覆性的事吗?任少卿:特斯拉FSD V12在北美的表现已经非常好了,但特斯拉也不容易,搞了6年才全量推给用户。大家都说“端到端大模型”,我把它分为三个事儿,第一层叫模型,现在国内车辆完整上模型的都没几家,别说端到端大模型了。感知模型大家可能都上了,但规控还没有。但这里有很多工程的挑战。举个例子,原来的多模块方案,如果要改个控制策略,就在10万行代码中找到具体的几行参数改写一下。这10万行代码可能写了一年,但只改三行,只测1%的case,3天能完成。现在上了模型后,如果场景的规控策略不行,就得重新训练一个,重新测一遍。那三天能不能测完?很难。这都不是算法的问题,是底层能力,只能靠自动化。去年中,蔚来在高速NOA的规控里加入AI神经网络。所以第二层是端到端,其核心是把感知模型、下游的规控模型连在一起。有了模型,才能有端到端。之前感知模型输出、规控模型的输入是一个数据结构,由人工来定义,很容易有信息丢失的。比如描述一个人,人工会定义描述身高、体重、性别,但写的再多,也不全面。如果某天AI神经网络需要知道人的表情,但不好意思,之前没有定义没有学习。而端到端不用再定义数据结构,直接把原始数据扔进去,AI神经网络需要什么就自己选择,解决了数据流失的问题。我们今年也会推出一些端到端的东西,但最大的挑战还是在工程上。第三是大模型。大模型有两种,一种是语言模型,另一种是世界模型。语言模型是对一些人工抽象概念的认知能力。世界模型则是要建立对世界时间、空间的认知能力。比如现在会议室有四个人,但如果要把场景细节都说出来,是说不完的。除了精细描述,还要学一些物理规律,比如杯子掉了会碎,路面下雨会打滑,建立这种世界认知。这还非常早阶段。我们从去年底开始训练世界模型。某种程度上它是一个预测器,或者是对世界仿真器。表现形式就是,车辆预测一个场景之后发生的事情,如果跟人的认知一致,某种程度上可以说他学会了认知。36氪汽车:那这个世界模型会首先用在智驾哪些地方?任少卿:一种方式是,直接让模型输出轨迹去控制车辆,这有点激进了。现在我们只把它作为一种预测参考,接到下游的规划模型。36氪汽车:端到端方案的过程比较黑盒,智驾系统的下限是可以把握的吗?任少卿:现在能看到提升,但下限确实是需要工程化手段去保证。毕竟马斯克只是说他在FSD v12删了多少行代码,但没说他留了多少代码。如果功能回退,要么改模型,但周期很长,要不然就加规则。这是个螺旋上升的过程。36氪汽车:自动驾驶会遭遇高质量数据的瓶颈吗?大语言模型已经遇到了。任少卿:语言模型的瓶颈是因为互联网的语言数据要没了,但机器人的世界模型,远没到那个阶段。语言本身是个高信息密度的东西,用人类几万年、几千万年的数据来训练。但如果把它转成图像或者说激光雷达信息,同样的时间长度数据会非常可怕。现在上万小时的视频训练,已经是大家的极限。只要付得起带宽费用,几十万上百万的车辆数据几乎是无穷的,没有到瓶颈阶段。但机器人训练的数据没有互联网这么公开,相对比较难弄,这点车企会比较有优势。36氪汽车:车企真的有可能成为一个领先的人工智能企业吗?任少卿:现在AI更在虚拟世界发挥作用,还没进入真实世界终端。进入真实世界时,就需要更大规模的实际数据源。车企一定会是真实世界中领先的人工智能企业。36氪汽车:端到端大模型实际上车会是什么时间节点?任少卿:我们其实会分开来看,端到端肯定已经在桌上了。大模型我们还在验证,把它接进去到底能产生多大的价值。大模型不是指绝对的大小,而是训练方式和逻辑不一样,太太底层了,并且用户其实没有太大的体感。它是一个渐进的过程,很多公司连模型化的工程积累都还没有,就要考虑端到端,跨度有点大。36氪汽车:现在AI大模型成为新风口,车企怎么跟AI科技公司拼人才吸引力?任少卿:AI的风口其实是一波接一波的。2016年火的是AI四小龙,后面是L4自动驾驶、然后AI制药、2022年开始是量产智能驾驶,2023年是AI大模型。风口热闹的时候,赛道都是最有吸引力的时候。但对从业者来说,肯定要经历风口到冷静期的阶段,更多还是要看长期价值、长期竞争力。自动驾驶所代表的机器人赛道,肯定是有长期价值的。中国和中国车企在这些点上是有长期竞争力的。回到语言模型,国内的语言模型的劣势在于,用户的规模,说英语和中文的用户体量不是一个量级。但机器人世界模型,中国是有一定优势的。世界的本质是一样的,而国内公司的优势在于,需要硬件去触摸世界。生产能力、供应链能力,是中国公司的强项,数据积累的能力并不弱。大模型这一仗能打一打,就看怎么打。所以AI人才是一波一波的,但要讲好自己的故事,走好自己的路。从业者也不傻,想清楚自己的积累,找到要发挥的价值,就可以搞明白。36氪旗下电动汽车公众号
来个“分享、点赞、在看”👇