进击的“端到端”,与迎头赶上的中国企业
面对FSD V12的来势汹汹,国内端到端模型也将在今年“亮剑”。
作者 | 虞 超
编辑 | 李雨晨
2024年伊始,特斯拉FSD V12正式开始推送。对于广大国内智驾企业来说,这或许意味着一次“暴击”。
自特斯拉的FSD V12问世以来,有许多的业者和投资人对其赞誉有加。一位来自某国际金融机构的工作人员甚至对新智驾表示,如若FSD能够入华,对于国内智驾企业而言,不是简单的“掀起新一轮智能化浪潮”,而是对国内高新技术企业投下了一枚大杀器,将造成后果难以估量的毁灭性打击。
在他看来,特斯拉是以国别来开启智驾的使用范围,不像国内是以城市或者里程数来“开城”。他表示,特斯拉FSD的开放范围,如果换算成实际的里程数和覆盖面积,各方面都是远高于国内,但很多国内同行对此还没有引起足够的重视。
就上述观点,新智驾与国内某智驾公司的技术人员进行了交流。该工作人员表示,FSD的性能相当强悍,现阶段国内消费市场能与之PK的,只有“那家”通讯技术出身的大厂。
他认为,基于目前公开的资料来看,FSD V12强大的关键,在于使用了端到端技术。
众所周知,传统自动驾驶方案通常采用模块化的方法,分为感知、预测、规划和控制等不同的子系统。每个子系统完成特定的任务,然后将结果传递给下一个模块,最终形成驾驶操作方案。
而端到端自动驾驶方案则采用一种统一的架构,直接将传感器输入数据映射到驾驶控制信号上。这种方法不需要单独的感知、预测和规划模块,而是通过一个单一的神经网络来处理所有的任务,其优势在于能够进行联合特征优化,提高计算效率,并且有潜力通过扩展训练资源来改进系统的性能。
简而言之,传统方案强调模块间的明确分工和顺序处理,端到端方案则侧重于通过深度学习方法,实现直接从感知到控制的转换。由于它模仿了人类如何直接从视觉输入中做出驾驶决策这一过程,也被认为是更接近人类的驾驶方式。
一位高级感知算法工程师告诉新智驾,目前的端到端模型,从技术层面上大致有三种分类:
第一种是轻模块化级联方案,将原本利用规则和经验构造的算法代码用设计好的神经网络来代替,保证下游网络结构也能提取到原始信息。
第二种方案则是借助近期快速爆发的大语言模型,利用大语言模型出色的涌现能力和推理能力,将网络级别的知识迁移到自动驾驶系统中,使其同时具备场景理解和解决实时驾驶问题的能力,例如商汤。
第三种,则较为激进,类似特斯拉这样,利用海量传感器和用户行车数据,忽略中间过程,直接监督最终控制信号的真正的端到端大模型。
FSD V12的跑火,让“端到端”成为智驾圈的热词。同时,也为国内智驾行业染上了一丝悲观情绪:
有业者向新智驾表示,国内智驾行业的发展速度,相比全球最顶尖的技术,滞后了一年左右。他表示,很多国内公司对于国外的顶尖技术亦步亦趋,原创性不足,因此有一定的滞后性,而这一特性在端到端技术出现时较为明显。
对于端到端技术,国内依旧有具备敏锐技术嗅觉的企业,例如元戎启行。
据新智驾了解,早在23年初,元戎启行就和英伟达高层交流并展示了自己的端到端计划。并且,元戎的端到端模型今年就会在消费市场落地。
在元戎启行CEO周光看来,端到端能够以一种很好的、AI Driven的方式,去打造更具智慧、可靠的智能驾驶汽车。只不过有AI背景的他,更早察觉到了这一点。
他说,传统的模块化模型是基于规则的,本质上是由人通过不断敲代码制定规则的方式,让智驾系统来驾驶,因此驾驶动作的“机械感"很强,但实际的道路状况千变万化,规则无法全部解决。
端到端模型则不一样,它锻炼的是系统的自主学习、变通的能力,对驾驶环境全场景的理解能力更强。
周光举了两个例子:
比如,搭载端到端模型的车会顾虑后车需求,在停车的状态下,可以“看到”后车打转向灯,主动礼让后车右转,而传统的模块化模型没有办法这么”人性化”。
再比如,压实线的规则在不同城市的执行方式是不一样的,有一些城市或一些路段非常严格,必须严格遵守。但有一些城市的路边会有很多违停车辆,或者道路施工,所以车辆不得不压点实线,借个道才能通过。如果单纯基于规则,那车辆到底该不该压实线?这很难回答。
遇到这样的情形,端到端模型则更能体现优势:它的全场景理解能力更强,会根据当地人的驾驶风格以及实时路况来做决策。
而且在效率方面,模块化模型也存在一定的劣势。
周光表示,传统模块化模型的信息传递,需要经过不同模块,而模块间存在gap,造成信息减损,带来安全隐患。
出现问题时,模块化模型也需要工程师手动处理case。一位熟练工程师一天只能处理10多个case,而技术水平略低的工程师,能够处理的case则更少。这意味着数据越多,处理起来越棘手,效率也更低,只能不断增添人手。
假如这种情况发生在某款已经量产的车型上,那么后果会很严重。
与之相反,端到端模型则是数据越多越聪明。
依据OpenAI已经验证过的Scaling Law(比例定律),在数据集规模以及计算资源不断增长的情况下,模型的性能将会单调提升。因此只需要给满足Scaling Law的端到端模型,“投喂”大量人类老司机的驾驶数据,它就能学习到驾驶方法。
周光认为,之所以准确判断出端到端技术的重要性,源于自己的Tech Vision。
他说,Tech Vision是AI公司的命脉,其核心是要对技术有准确的预判,以及具备终局思维。一家公司不应该耗费精力去做一些过分雕花的事情,却没能解决用户真正的痛点。
凭借这种敏锐的技术嗅觉,早在2017年,周光就意识到了前融合的重要性,虽然当时很多企业还在做后融合,但周光坚持进行了前融合的技术规划。如今看来,这一举措让元戎启行在all in端到端时,避免了“大象转身”般的窘迫。
但在真正打造端到端模型的时候,周光还是选择了循序渐进的方式。他将这一过程,总结为“三步走”:
第一步,将后融合感知技术,变成了多传感器前融合感知技术,把多个传感器感知的数据放到一个神经网络里。
在物体检测层面,元戎用 AI 的能力把全场景感知的能力建立起来,让感知的准确率、鲁棒性大大提升。
第二步,让系统摆脱了对高精度地图的依赖,让模型可以进一步感知道路拓扑结构,让预测和规划由规则驱动变成了数据驱动。
第三步,是推出端到端模型,将感知、预测、规划三个模型一体化。
周光称,可以将这一模型理解为,原本三个独立模块,现在被直接相连,看到不同的路况都能做出相应的驾驶反应,“所见即所得”。
他表示,这其中跨出的每一步,都是一次重要的技术突破。由于坚持技术原创,所以在研发时面临很多不确定性,也被质疑过。但他强调,AI 2.0 的时代已然来临,竞争只会更加激烈,走在行业前列的公司几乎都会选择闭源,这是必须认清的现实。
元戎启行对技术的执念,使其成为国内最早能够将端到端模型应用到车端的企业。
此时,行业内同样有质疑的声音,认为国内公司现阶段谈端到端上车还不太成熟,尤其是基础建设和数据方面的储备都不够。
对此,周光表示,打造端到端模型的核心因素有三个:模型、算力和数据。
端到端模型,元戎已经打造好了;算力方面,元戎和英伟达有深度技术合作,元戎的大股东阿里也会提供支持;数据层面,元戎和多家车企有了量产合作,客户为元戎提供了很多真实的、脱敏后的行车数据,而且涵盖的场景很全面,足够训练模型,可谓是万事俱备。
同时,各家主机厂对于端到端方案的上车,态度也非常积极。
周光称,当下高速路段的智能驾驶,各家已经做得比较成熟。相反,城区才是真正的战场,可以说得城区者得“天下”。但城区的路况非常复杂,也存在很多长尾场景。
所以,周光认为城区的智能驾驶还没有跨越早期市场与成熟市场的鸿沟,消费者对城区NOA没有产生依赖。鉴于此,主机厂非常期望能找到一个厉害的技术伙伴,帮他们做好城区NOA体验,而元戎提供的端到端模型正好符合他们的需求。
据周光介绍,目前主机厂对于端到端方案,有以下几个关注点:
第一,系统是否能够在复杂路段流畅行驶,保证舒适的体感。
第二,全场景的理解能力强不强,能否有一些类人的决策。譬如,会顾虑后车需求,在停车的状态下,“看到”后车打转向灯,主动礼让后车右转。
第三,安全层面的兜底策略是否可靠。
第四,后期OTA的天花板高不高,是否能新增一些让人惊艳的功能。例如,雨天车辆在靠近人行道的车道行驶时,遇到积水会主动减速,避免把水溅到行人身上。
周光说,以上所述的几点核心需求,元戎都能满足。
然而,顺利上车只是第一步。有多位行业人士向新智驾表示,更大的挑战其实在于工程化。
周光也承认,工程化能力是一项很大的挑战,需要去遵循汽车工业的整套车规标准,精细地拆解、解读标准,再把这些标准融合到整个研发流程中,实现工程化的转变。
不过同时他也表示,元戎的研发同事都期望能够推动产品更好更快地落地,促进形成技术闭环,所以大家都有很大的决心去迅速补齐工程化能力,让搭载元戎方案的量产车在今年顺利落地。
对于很多科技企业而言,搭载了端到端模型的特斯拉,属实是个实力强劲的对手。但换个角度来看,FSD虽然在美国和加拿大都已经开通,可众所周知,两国的人口密度都相对较低,城市规划也和许多国家或地区不同。如果换成中国的北上广深、日本的东京、韩国的首尔这种人口更为密集,路况更为复杂的城市,FSD又会有怎样的表现呢?鹿死谁手,或许犹未可知。
同时,端到端模型实际上也具备着相当强的技术复用能力,智能驾驶是重要的应用场景之一,但同时也是最能击穿“次元壁”的应用场景,它就像阿基米德口中的那个支点,能够撬动一个全新的世界,一如借助于手机这个“支点”而被撬动的物联网世界。假以时日,通过智能驾驶而不断完善的端到端模型,将会赋能于更多的场景。
比如,包括周光在内,许多人心心念念的人形机器人。
自动驾驶领域,「决策」和「感知」终于握手言和
国内「端到端模型」能围剿特斯拉FSD吗?业内人士:我们技术至少晚了一年
微信扫码关注该文公众号作者