城市NOH量产、超算中心官宣，毫末智行1000天交卷 | 甲子光年

2022-09-14 05:09

毫末智行第6次AI Day的核心亮点。

作者 | 赵健

或许是因为频次较高，毫末智行昨天举办的第6次AI Day并没有带来太多新的“重磅”信息。

实际上，这家号称中国发展最快、量产自动驾驶第一名的公司，在今年8月的成都车展上已经把“大招”释放了：长城汽车魏牌宣布搭载毫末城市NOH（Navigation On HPilot）的全新摩卡DHT-PHEV激光雷达版，计划9月量产，年内发售。

毫末智行的城市NOH搭载了高通Snapdragon Ride自动驾驶芯片，也是高通自动驾驶芯片落地的首款车型。这款新车的上市这也意味着毫末智行将与小鹏汽车的城市NGP，争夺国内首家城市辅助驾驶量产落地的头衔。

今天，毫末辅助驾驶系统行驶总里程已突破1700万公里，到今年年底，搭载毫末辅助驾驶系统的车型将达数十款。在人才组织建设上，毫末目前在职员工已超过1000人（4月的AI Day为600人），其中技术研发占比在90%以上。

成立至今1000天，毫末智行刚好穿越了一家创业公司从0到1的生死线。现在，毫末正进入从1到N的快速发展阶段。

「甲子光年」根据毫末智行董事长张凯、毫末智行CEO顾维灏在本次AI Day的发言，整理以下核心要点：

毫末智行的最新成绩单；

自动驾驶3.0时代：大模型的应用与挑战；

毫末智行城市NOH的技术进展；

毫末智行超算中心官宣，尚未公布合作云厂商。

1.毫末智行从0到1的成绩单

毫末智行是“渐进式”自动驾驶路线的代表玩家，成立之初就提出了“从低速到高速，从载物到载人，从商用到民用”的发展路线。毫末智行将其发展战略总结为“风车战略”：风车战略的“三叶”分别是乘用车、低速无人车生态平台和智能硬件，通过数据智能体系形成数据闭环。

毫末智行董事长张凯认为，智能驾驶产品能力的快速迭代，是场景化户用体验设计、AI人工智能技术、技术工程化能力三者的高度有效协同。

在场景化用户体验设计方面，张凯表示毫末智行总结出一整套用户交互体验和产品开发的一体化设计方法，是国内首个实现基于用户真实数据驱动产品迭代的公司。两年来，毫末的智能驾驶产品共实现了6次OTA在线升级；

在人工智能技术方面，毫末于2021年12月推出国内首个智能驾驶数据智能体系MANA，目前已经完成数十万全要素、多模态CLIPS的标注；已经建设完成300万小时中国道路驾驶认知场景的场景库。MANA数据智能体系也是毫末所有产品迭代的核心动力；

在技术工程化方面，毫末智行2年时间开发了三代智能驾驶系统，并落地了10余款不同平台车型，可以做到在4个月内将全新车型复用开发达到量产落地状态，在2个月内完成全新车型匹配标定；通过长城汽车对生产产线的理解与鲁棒性设计，毫末能够做到智能驾驶产品100%的一次性过线率；基于多款不同平台车型落地经验，毫末可以做到超过30个智能驾驶项目的异步并行开发。

张凯表示：“毫末智行是国内智能驾驶技术落地经验最丰富的公司，没有之一。”

在去年年底，毫末提出了2022年的三大战役；数据智能技术之战、辅助驾驶城市场景之战、末端物流自动配送车规模之战。近一年过去，毫末也交出了一份成绩单：

在数据智能方面：中国首个自动驾驶数据智能体系MANA基本完成数据闭环，截止目前，MANA的学习时长超过31万小时，虚拟世界驾龄相当于人类司机的4万年的驾龄。

在乘用车辅助驾驶方面：中国首款大规模量产的城市NOH辅助驾驶系统，即“毫末HPilot3.0”即将交付，毫末的HPilot3.0具有重感知、轻地图、大算力的特点。2022年，其可落地区域预计将会覆盖10座城市，2023年毫末的计划是 HPilot3.0 落地城市超过100个，目前已在北京、保定等区域开展最后阶段的量产冲刺。

在末端物流自动配送方面：毫末在4月份发布了第二代末端物流自动配送车——小魔驼2.0，是业内首款面向商用市场的10 万元级末端物流自动配送车，目前小魔驼2.0正在陆续交付到客户手中。

张凯表示，刚刚过去的1000天，毫末智行刚好穿越了一家创业公司从0到1的生死线。现在，毫末正进入从1到N的快速发展阶段。

2.自动驾驶3.0：大模型的应用与挑战

过去几年，“AI大模型”在自动驾驶领域的应用，是推动行业发展的重要变量。

毫末智行CEO顾维灏表示，在过去很长一段时间中，不同类型任务所使用的AI模型，其结构完全不同，各有各的建模方式，并不统一。

Attention机制（又称为注意力机制，是一种能让模型对重要信息重点关注并充分学习吸收的技术，能够作用于任何序列模型中）最早是2014年在NLP（自然语言处理）领域出现的，并在迅速在各项NLP任务上超越了传统的word2vec、lstm等技术，基本上统一了NLP。大家常听到的BERT、GPT-3等语言大模型都是基于Attention机制的Transfomer类模型。

过去，在CV（计算机视觉）领域的二维信息的处理上，CNN是绝对的主流选择。但是从2020年起，Attention机制在CV领域取得了明显的突破，从Google的VIT到MSRA的SwinTransformer，轻松刷爆各大排行榜。

基于Attention机制的transformer结构似乎能成为一种有效的通用AI模型范式。很快，各种基于Attention机制的多模态大模型奔涌而出，并涌现了Graph Attention等各类变种，它们可以接受多种不同模态的输入——语言、图像、视频、语音等等，也可以输出多种模态，在各个领域取得了惊人的效果。

单纯从模型结构来看，Attention机制最大的特点就是结构简洁，可以无限堆叠基本单元得到巨大参数量模型，已经达到了千亿、万亿量级。随着参数量的增加和训练方法的提升，大模型的效果也稳步提升，在很多NLP任务上已经超越了人类的平均水平。

但这是有成本代价的。基于Attention的大模型对算力的需求远远超出了摩尔定律，导致大模型的训练成本非常高、落地很难、尤其是在终端设备上的落地尤其困难。

顾维灏表示：“我们和一些研究学者发现，一般Transformer所需算力是CNN所需算力的100倍。但在这算力下平均6.9%的算力贡献了94%的价值，还有大量的弱关联、低价值的运算在乘加操作和功耗上产生了很多浪费。”

首先，大模型对芯片提出了要求，在这个领域学术界和工业界都做了研究和实践，比如模型轻量化、自适应弱关联计算、超大带宽等transformer加速芯片等。

在数据上，Attention也有非常大的突破。谷歌近期发布的PaLM是拥有5400亿参数的AI自然语言处理模型，在204项任务的基准测试中平均水平超过了人类，甚至可以完成逻辑推理和笑话解释等任务。PaLM的训练语料包括7800亿个token，包括了结构化的新闻、wiki高质量的数据，但是这种所谓高质量的数据只占了5%，更多的数据来自看似信息价值更低的社交媒体对话记录和各种网页。

顾维灏表示，自然语言领域的应用实践，带给毫末两个启发，一个是数据规模要足够大，自动驾驶里程要至少达到1亿公里；另一个是数据的多样性要足够充分，包括不同类型、不同像素、不同角度的传感器数据以及不同的场景数据，对于大模型的训练都是非常有价值的。

结合技术发展的规律和近十年的发展历史，顾维灏将自动驾驶技术发展分成了三个阶段：1.0的硬件驱动、2.0的软件驱动、3.0的数据驱动。

顾维灏认为，从全球范围内来看，真正进入到3.0阶段的企业，也只有特斯拉一家。

毫末智行一直在为自动驾驶3.0时代做准备。2021年7月开始，毫末就启动了对transformer的研究和落地尝试。在一年多的时间里面，毫末完成了训练平台的改造升级、数据规格和标注方法的切换准备，以及针对感知、认知具体任务的模型细节探索，并最终将其应用在毫末城市NOH功能中。

当下，毫末正处在冲刺自动驾驶3.0时代的阶段。

3.毫末城市NOH的技术进展

在数据驱动的理念下，顾维灏也分享了数据智能体系MANA在城市NOH场景下的进化。

开启自监督学习

在自动驾驶中应用大模型，业界常用的方式是监督学习。但由于有数据标注，时间成本和金钱成本还是很高。

因此，毫末选择的方式是将所有的感知任务backbone都统一，然后利用无标注数据先训练好这个统一backbone并锁定，模型剩余部分再用标注样本来训练。

相比只用标注样本做训练，毫末自监督学习实验的结果是训练效率可提升3倍以上，同时精度有显著提升。

构造增量式学习训练平台

在训练过程中，毫末并不会使用全量存量数据，因为又贵又慢，而是抽取部分存量数据加上新数据组合成一个混合数据集。训练时要求新模型和旧模型的输出保持尽量一致，对新数据的拟合尽量好。

相比常规做法，毫末达到同样的精度可以节省80%以上的算力，收敛时间也可以提升6倍以上。

使用时序transformer提供实时空间认知能力

毫末的城市NOH采用了重感知、轻地图路线，在城市实现导航自动驾驶只用和人类驾驶员一样的普通导航地图，而不依赖业界常用的高精地图。

毫末使用Transformer建立强感知的时空理解能力，用时序transformer模型在BEV空间上做了虚拟实时建图，通过这种方式让车道线感知、障碍物的判断更加准确和稳定。

值得一提的是，近两年Transformer在CV领域的发展，也是毫末这一类成立时间相对较晚，但能够采用不用于小鹏汽车、华为等高精地图路线的技术原因。

利用人类世界的交互接口更精确地感知世界

上次AI Day上毫末介绍了如何在城市环境中不依赖高精地图解决自动驾驶系统和红绿灯的交互问题。最近毫末正在升级车上的感知系统，希望能够加入了对车辆信号灯状态的专门识别，包括刹车灯和转向灯。这样毫末就可以在前车减速、周围车辆切入等场景中开的更安全和更舒适。

使用交通流实景仿真

对于仿真，主要有三个层次的工作：一个是基础仿真能力，仿真环境和运动的基础能力，主要衡量的是精准性；一个构建场景的能力，主要看的效率；另一个定义场景的能力，主要看有效性。

毫末在之前的几次AI DAY中分享了部分第一层和第二层的能力，本次分享第三层的能力，就是更有效定义场景的能力。特别是城市路口，它是城市中最复杂的场景，也是毫末这段时间攻坚的重点。

针对这个问题，毫末和阿里以及浙江德清市政府合作，利用路端设备将路口处每时每刻的真实交通流都记录下来，再通过log2world的方式导入到仿真引擎里面，加上驾驶员模型之后，就可以用于路口场景的调试验证。

学习常识和动作拟人化

毫末借鉴多模态大模型的方法来更好解决认知问题，让系统的动作更加拟人，具备常识。具体做法是对覆盖海量人驾进行深度理解，构建毫末自动驾驶场景库，并基于典型场景挖掘海量司机的实际驾驶行为，构建taskpromt，训练一个基于时空Attention的驾驶决策预训练大模型，使得自动驾驶决策更像人类实际驾驶行为，以保证实现自动驾驶决策的可控、可解释。

在复杂的城市中，毫末NOH在路口左拐、右拐等各种场景种，不但能结合实际情况选择最优路线保证安全，还能学习人类驾驶特点，给出最合理的行为序列和参数，体感更像老司机。

本次毫末带来了城市NOH的功能更新，包括智能识别交通灯、智能左右转、智能变道、智能躲避障碍物。