Redian新闻
>
毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项

毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项

公众号新闻
作者 / 曹锦
今年3月,OpenAI发布了多模态预训练大模型GPT-4,其带来的飞跃式表现在AI行业内外掀起了轩然大波。在近一个月后,毫末智行(以下简称「毫末」)趁势推出了DriveGPT雪湖·海若,由于其概念定义、技术难度,应用挑战等问题,此次发布引发了许多讨论。

对此,毫末智行技术副总裁艾锐直言:「相不相信都没关系,关键要看持续的效果。」

针对大模型的热潮和DriveGPT的意义,「首席智行官」于近日对艾锐进行了一场对话,对其中问题进行释疑和解析。

DriveGPT并非临时起意

早在ChatGPT大火之前,毫末就一直在建设认知大模型。也就是说,毫末已经认识到当时技术路线的短板,并笃定自动驾驶需要一套全新的技术范式。

「面对一些认知层面的难题,我们先尝试运用了一些简单的Transformer模型来求解决策问题,但效果未达预期。」艾锐说道。

例如,毫末曾利用标准的监督学习方式,直接拟合人的驾驶轨迹进行训练。但后来发现,该方式虽然也产生了一些成果,但可行的场景受限,长久来看很难得到大范围扩展,天花板较低。

「而当ChatGPT出现后,我们从底层技术的角度仔细研究了它对自然语言问题的解法,然后发现其技术架构,实际上和自动驾驶认知要解决的问题非常像,于是便决定采用这条路径。」

作为一家每季度都要举办AI DAY的公司来说,毫末智行可以说是迭代速度内卷的代表之一。从「雪湖」到「五个大模型」再到DriveGPT,毫末的每次AI DAY几乎都不是「凑数」的,而且一直有较大的升级。艾锐称,这是因为,在自动驾驶进入洗牌期时,「不提前做起来,可能就会完蛋。

「你跟不上(新的思路),不代表别人跟不上,一旦有人能跟上,整个故事就不一样了。」艾锐认为,不能把宝押在「假设所有人都做不出来」。虽然他不敢说DriveGPT是最终解,但显然不能干等着别人验证成功。

「如果不提前做足准备,一心想等别人的成功案例,对不起,那你两年之后未必还能活着。」

自动驾驶与「生成式预训练」

虽然如今大模型来势汹涌,但究竟如何定义大模型,国际上仍无定论。而对于艾锐来说,大模型的核心能力,就是要拥有足够高的「数据规模-基础能力」转换效率,这也是其战略意义。「目前有些专家也认为,其实包括ChatGPT在内的大模型,距离通用人工智能还很远。但是从毫末的角度来说,我们追求的就是能实现质变的方法,并且要匹配战略优势,这是我们新路线最关键的一点。」

艾锐介绍称,DriveGPT是一种标准的生成式预训练操作方式,与此前毫末的五个大模型相比,是两种完全不同的路径。它不仅能将五个大模型的功能融合在一起,还使训练效率得到跃升。

据了解,DriveGPT采用decoder only的transformer结构、通过生成式(GPT)进行预训练,首先使用海量老司机的驾驶行为进行预训练,再引入司机接管数据和人工标注数据进行强化学习,筛选最佳驾驶决策。

从功能上看,这套方法能够根据10秒内获得的图片,预测生成未来2-3秒后的车辆感知结果,例如周边车辆的变道、行人的下一步动作等等。在生成这些结果的同时,也能够提供驾驶决策。

此前毫末数据智能科学家贺翔提过:「在开车时,周围的环境无时无刻不在变化。当人在开车时,不是基于过去的情况来做驾驶决策的,而是要基于以前的经验,来实时预测下一秒钟可能出现的情况,这种预判就叫做生成。」

同时,DriveGPT也需要以海量的数据进行预训练,这相当于有数万个司机,在用他们的驾驶行为来训练机器如何生成驾驶策略。

对于艾锐来说,数据最重要的标签是「分布」——「不是说总量多就行,最关键的是什么你都得有。」

在这一点上,他认为,AI在很多领域上的逻辑实际上是一致的。比如有人为了「净化」数据,曾将语料库中一些价值取向不好的文字和语料都删掉了,结果训练出来的语言模型整体效果反而下降了「这对自动驾驶也是一样,如果数据分布不全,那系统对世界的认识就是有缺陷的。

「大模型上车」

需要整个行业发展成熟

虽然毫末在新的技术范式上要争分夺秒地进行验证,但有些理想化的长远目标,却还需要观望——例如,大模型上车。

这既不是短期内可以规划的目标,也不是一家公司能够推进的事情。「现在,各种大模型,都不太可能直接上车。」艾锐直言,现在业界也有人在尝试大模型上车,但差得还比较远。

这其中最大的阻碍,就是算力需求——大模型往往需要上千块GPU进行训练,推理成本也非常高,数十亿甚至上千亿参数在车端是不可能实现的。

毫末曾经提出,从训练大模型的角度,传统的数据存在90%以上简易、重复的场景数据,从辅助驾驶的应用角度来看,后期或许可以减少这部分数据,而采集更多的高价值数据,以此降低训练成本

但即便如此,也仅仅是节省了云端成本,还是没办法上车。大模型上车首先需要在保持模型效果的前提下大幅度降低参数规模,同时也需要在芯片设计上做大胆创新,提升芯片运行大模型的计算效率、并降低芯片成本。

「现在车上的模型容量,与大模型容量相差至少四个数量级,所以必须要缩小一千倍,才有可能直接上车。」艾锐说道。

虽然毫末也被传出在与一些芯片公司在合作,但目的并非是大模型上车,而是提升自身自动驾驶产品的性价比。「现在大部分的芯片对Transformer的小模型支持得都不够好,就更别说支持大模型了。」艾锐认为现在谈大模型上车为时尚早。

目前,毫末的做法是,用一个大模型去训练真正上车的小模型。

「大模型相当于可以了解任何事情,如果再用小模型去拟合它,就像是老师带着一个学生,这会比直接从原始数据中去训练更简单,因为它模型的很多参数可以被直接借鉴。」艾锐介绍道。

同时他也认为,类似矿山,园区等低速领域的自动驾驶,对实时性要求较低,即便大模型不上车,也可以从云端直接控制这些车辆,这会产生巨大的变化。目前,毫末针对其物流配送小车,就在做类似的研究。

总体看来,大模型上车的解法和时间仍是未知,艾锐预测或许在3-5年后可以实现,但这需要整个行业的发展成熟,而不是由某一家企业单打独斗。

我认为现在最重要的,是把大模型搞好。因为它本身还未达到我们预期的状态,更没法想『上车』的问题。目前还有很多人在研究大模型的工程优化,大家可以分头行事。」艾锐认为,大模型上车虽然很难,但一旦做成了收益极高,而高收益的事情就总会有人尝试。   

城市NOH与重感知技术

关于已开始在北京、上海,保定三地运行的城市NOH,艾锐提供了两条思路,首先,毫末想给用户更大的可用范围,而非局部路线;其次,在重感知路线中,将会只使用SD地图——「预计我们内部在今年年底就会使用SD地图,但要推送得看测试情况。

而毫末的重感知技术,同样是利用大模型来推进。对此,艾锐还是做了个拟人的比喻:「如果你只有一个导航地图,那就意味着你需要理解眼前的世界。因此,模型也需要像人一样,它需要理解中国的复杂道路。」

他表示,既然之前通过地图已经得到了拓扑结构,现在就需要去总结知识。「反向来说,就像你自己修了那些路一样,你得知道路是怎么修的,为什么修成那样,才能仅凭传感器数据就能推测出来后面道路的走向,这仅仅依靠小模型是做不好的。」

如今,毫末在DriveGPT上付出了极大成本,但其产品面对的主要市场还是20万元左右的中低端车型。对此,艾锐解释称,在顾及商业化考虑时,既要盯着眼下,也要兼顾未来。确实在简单场景中,不使用DriveGPT也可以保证效果。但是竞争的路很远,毫末的打法是,宁可先付出一些技术成本,但要保证方法可以扩展,走到最后的。

「我们每次在AI Day上都会放出最新的进展效果,有没有用,大家届时就能看到。」他说道。

关于首席智行官
「首席智行官」为机器之心推出的智慧出行垂直媒体,我们时刻关注业内动态及权威专家最新观点,不定期深度访谈业界代表人物,内容涉及自动驾驶、新能源、芯片、软件、汽车制造和智能交通等方向的前沿研究与技术应用,透过权威思路以洞察产品、公司和行业,帮助汽车领域专业从业者和相关用户了解技术发展与产业趋势。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型向量数据库再迎新变化!头部公司产品更新引热议,开启大模型落地新范式如何解锁大模型时代AI研究开发新范式 ?尽在2023WAIC AI开发者领袖论坛亮相博鳌科创会,vivo首谈自研AI大模型DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战预告 | 快,终于上新了!入秋第一场「一站式穿搭」必须是它!马斯克直播特斯拉自动驾驶;居然之家创始人:我把包括CTO在内的IT部门全裁了;首批8个大模型正式上线 | AI一周资讯CVPR最佳论文:大模型成就端到端自动驾驶|焦点分析《僭越之殇》(15)——守护天使首个感知决策一体化自动驾驶通用大模型!商汤联合团队获CVPR 2023最佳论文从电影“满江红”看老谋子的闹剧以全新范式理解中国经济的巨变​大模型时代,CodeArts定义软件开发新范式2024,寻找“拐点”|毫末智行:智能驾驶进入普惠阶段360 周鸿祎:大模型不是「原子弹」,而是「AK47」中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报通用大模型转向行业大模型:腾讯云、华为云们的下一个战场全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens何三坡:美国最好的诗人们从「生成式AI」转化为「生产力」,亚马逊云科技划出重点百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报大模型竟塞进自动驾驶,AI会解说自己怎么开车了!对标特斯拉,大模型成为自动驾驶又一「强心针」?「进退维谷」的毫末智行:背靠千亿车企,一个「打工人」的梦醒时分CVPR最佳论文颁给自动驾驶大模型!中国团队第一单位,近10年三大视觉顶会首例自动驾驶下半场:算力王国,汽车大模型从“大陆不惜死亡一亿四千万年轻人”谈起百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了阿里云开源「通义千问」大模型;马斯克:特斯拉有望年底实现完全自动驾驶;妙鸭相机上线 B 端工作站 | 极客早知道【广发策略戴康团队】高股息:新范式下的长牛策略——“新投资范式”系列报告三葡萄牙政府最终提议保留黄金签证,只取消房产选项和资本转移选项两情难相知CVPR上的新顶流:BEV自动驾驶感知新范式
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。