毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项
对此,毫末智行技术副总裁艾锐直言:「相不相信都没关系,关键要看持续的效果。」
针对大模型的热潮和DriveGPT的意义,「首席智行官」于近日对艾锐进行了一场对话,对其中问题进行释疑和解析。
DriveGPT并非临时起意
早在ChatGPT大火之前,毫末就一直在建设认知大模型。也就是说,毫末已经认识到当时技术路线的短板,并笃定自动驾驶需要一套全新的技术范式。
「面对一些认知层面的难题,我们先尝试运用了一些简单的Transformer模型来求解决策问题,但效果未达预期。」艾锐说道。
例如,毫末曾利用标准的监督学习方式,直接拟合人的驾驶轨迹进行训练。但后来发现,该方式虽然也产生了一些成果,但可行的场景受限,长久来看很难得到大范围扩展,天花板较低。
「而当ChatGPT出现后,我们从底层技术的角度仔细研究了它对自然语言问题的解法,然后发现其技术架构,实际上和自动驾驶认知要解决的问题非常像,于是便决定采用这条路径。」
作为一家每季度都要举办AI DAY的公司来说,毫末智行可以说是迭代速度内卷的代表之一。从「雪湖」到「五个大模型」再到DriveGPT,毫末的每次AI DAY几乎都不是「凑数」的,而且一直有较大的升级。艾锐称,这是因为,在自动驾驶进入洗牌期时,「不提前做起来,可能就会完蛋。」
「你跟不上(新的思路),不代表别人跟不上,一旦有人能跟上,整个故事就不一样了。」艾锐认为,不能把宝押在「假设所有人都做不出来」。虽然他不敢说DriveGPT是最终解,但显然不能干等着别人验证成功。
「如果不提前做足准备,一心想等别人的成功案例,对不起,那你两年之后未必还能活着。」
自动驾驶与「生成式预训练」
虽然如今大模型来势汹涌,但究竟如何定义大模型,国际上仍无定论。而对于艾锐来说,大模型的核心能力,就是要拥有足够高的「数据规模-基础能力」转换效率,这也是其战略意义。「目前有些专家也认为,其实包括ChatGPT在内的大模型,距离通用人工智能还很远。但是从毫末的角度来说,我们追求的就是能实现质变的方法,并且要匹配战略优势,这是我们新路线最关键的一点。」
艾锐介绍称,DriveGPT是一种标准的生成式预训练操作方式,与此前毫末的五个大模型相比,是两种完全不同的路径。它不仅能将五个大模型的功能融合在一起,还使训练效率得到跃升。
据了解,DriveGPT采用decoder only的transformer结构、通过生成式(GPT)进行预训练,首先使用海量老司机的驾驶行为进行预训练,再引入司机接管数据和人工标注数据进行强化学习,筛选最佳驾驶决策。
从功能上看,这套方法能够根据10秒内获得的图片,预测生成未来2-3秒后的车辆感知结果,例如周边车辆的变道、行人的下一步动作等等。在生成这些结果的同时,也能够提供驾驶决策。
此前毫末数据智能科学家贺翔提过:「在开车时,周围的环境无时无刻不在变化。当人在开车时,不是基于过去的情况来做驾驶决策的,而是要基于以前的经验,来实时预测下一秒钟可能出现的情况,这种预判就叫做生成。」
同时,DriveGPT也需要以海量的数据进行预训练,这相当于有数万个司机,在用他们的驾驶行为来训练机器如何生成驾驶策略。
对于艾锐来说,数据最重要的标签是「分布」——「不是说总量多就行,最关键的是什么你都得有。」
在这一点上,他认为,AI在很多领域上的逻辑实际上是一致的。比如有人为了「净化」数据,曾将语料库中一些价值取向不好的文字和语料都删掉了,结果训练出来的语言模型整体效果反而下降了「这对自动驾驶也是一样,如果数据分布不全,那系统对世界的认识就是有缺陷的。」
「大模型上车」
需要整个行业发展成熟
虽然毫末在新的技术范式上要争分夺秒地进行验证,但有些理想化的长远目标,却还需要观望——例如,大模型上车。
这既不是短期内可以规划的目标,也不是一家公司能够推进的事情。「现在,各种大模型,都不太可能直接上车。」艾锐直言,现在业界也有人在尝试大模型上车,但差得还比较远。
这其中最大的阻碍,就是算力需求——大模型往往需要上千块GPU进行训练,推理成本也非常高,数十亿甚至上千亿参数在车端是不可能实现的。
毫末曾经提出,从训练大模型的角度,传统的数据存在90%以上简易、重复的场景数据,从辅助驾驶的应用角度来看,后期或许可以减少这部分数据,而采集更多的高价值数据,以此降低训练成本。
但即便如此,也仅仅是节省了云端成本,还是没办法上车。大模型上车首先需要在保持模型效果的前提下大幅度降低参数规模,同时也需要在芯片设计上做大胆创新,提升芯片运行大模型的计算效率、并降低芯片成本。
「现在车上的模型容量,与大模型容量相差至少四个数量级,所以必须要缩小一千倍,才有可能直接上车。」艾锐说道。
虽然毫末也被传出在与一些芯片公司在合作,但目的并非是大模型上车,而是提升自身自动驾驶产品的性价比。「现在大部分的芯片对Transformer的小模型支持得都不够好,就更别说支持大模型了。」艾锐认为现在谈大模型上车为时尚早。
目前,毫末的做法是,用一个大模型去训练真正上车的小模型。
「大模型相当于可以了解任何事情,如果再用小模型去拟合它,就像是老师带着一个学生,这会比直接从原始数据中去训练更简单,因为它模型的很多参数可以被直接借鉴。」艾锐介绍道。
同时他也认为,类似矿山,园区等低速领域的自动驾驶,对实时性要求较低,即便大模型不上车,也可以从云端直接控制这些车辆,这会产生巨大的变化。目前,毫末针对其物流配送小车,就在做类似的研究。
总体看来,大模型上车的解法和时间仍是未知,艾锐预测或许在3-5年后可以实现,但这需要整个行业的发展成熟,而不是由某一家企业单打独斗。
「我认为现在最重要的,是把大模型搞好。因为它本身还未达到我们预期的状态,更没法想『上车』的问题。目前还有很多人在研究大模型的工程优化,大家可以分头行事。」艾锐认为,大模型上车虽然很难,但一旦做成了收益极高,而高收益的事情就总会有人尝试。
城市NOH与重感知技术
关于已开始在北京、上海,保定三地运行的城市NOH,艾锐提供了两条思路,首先,毫末想给用户更大的可用范围,而非局部路线;其次,在重感知路线中,将会只使用SD地图——「预计我们内部在今年年底就会使用SD地图,但要推送得看测试情况。」
而毫末的重感知技术,同样是利用大模型来推进。对此,艾锐还是做了个拟人的比喻:「如果你只有一个导航地图,那就意味着你需要理解眼前的世界。因此,模型也需要像人一样,它需要理解中国的复杂道路。」
他表示,既然之前通过地图已经得到了拓扑结构,现在就需要去总结知识。「反向来说,就像你自己修了那些路一样,你得知道路是怎么修的,为什么修成那样,才能仅凭传感器数据就能推测出来后面道路的走向,这仅仅依靠小模型是做不好的。」
如今,毫末在DriveGPT上付出了极大成本,但其产品面对的主要市场还是20万元左右的中低端车型。对此,艾锐解释称,在顾及商业化考虑时,既要盯着眼下,也要兼顾未来。确实在简单场景中,不使用DriveGPT也可以保证效果。但是竞争的路很远,毫末的打法是,宁可先付出一些技术成本,但要保证方法可以扩展,走到最后的。
「我们每次在AI Day上都会放出最新的进展效果,有没有用,大家届时就能看到。」他说道。
微信扫码关注该文公众号作者