马斯克这次带来了三路人马,分别来自人形机器人 Optimus、Autopilot 以及超算 DOJO 团队,浩浩荡荡到一度在演讲台前面挤不下。最先亮相的是 Optimus,它除了能够自由行走,也能抓取、搬动一些小型物体。此外,搭配运用在特斯拉汽车上的同款 FSD 计算机,Optimus 也拥有了一定程度的人工智能。马斯克介绍,这款机器人即将投入生产使用,未来产量有望突破数百万,价格将降至 2 万美元以下。自动驾驶技术分享一直是特斯拉 AI Day 的重磅栏目,这一次 Autopilot 团队带来了新的玩法:将占用网络(Occupancy)引入到自动驾驶中,将现实世界映射到矢量空间,实现更好体验的车辆规划。与此同时,「数据驱动」也被特斯拉玩出新高度,在 30PB 的数据积累下,每 8 分钟就能训练一个模型。如今,FSD Beta 已迭代到 10.69.2.2 版本,测试人数来到 16 万。按照马斯克新立下的 FLAG,今年底将向全球开放。另一边,超算 DOJO 也传来好消息。不仅提供超高算力,还拥有比肩英伟达的带宽、减少延迟、节省成本等优势。据了解,特斯拉将于 2023 年第一季度在美国帕洛阿尔托完成七台 EXA POD 的建设。尤为值得一提的是,如今 AI Day 也成了特斯拉的招聘宣讲会,马斯克在会上多次表示希望吸引有才能的人加入,「硅谷那些大公司可能会辜负你,但特斯拉不会,在这里,你会享受到未曾想象的自由。」在本届 AI Day 上,最新亮相的特斯拉人形机器人 Optimus 无疑吸引了大量目光。就连 Autopilot 负责人 Ashok 在接棒该部分之后的演讲时,也不免捏了汗,自嘲道:「我尽量做到不冷场。」尽管如此,无论从时间篇幅,还是从演讲人数上来说,自动驾驶仍是这次盛会的重头戏。与前几届 AI Day 侧重感知技术突破交流不同,这次的分享更多聚焦在规划/「Planning」上面。Ashok 用上面这张框图基本概括了这次 AI Day 上有关自动驾驶的主要内容,可以看到:左边的训练基础设施(Training Infra)和右边的 AI 编译器&推理引擎(AI Compiler& Inference),以及下方的训练数据(Training Data),共同输入信息进入神经网络(Neutral Networks)中,对占用网络(Occupancy)和一些几何形状(Lanes and Objects)进行分析,最后整体输出结果,生成自动驾驶车辆的路径规划。以一个十字路口的通行交通流为例,当前车辆处于待左转进东西方向车道的位置,而对向有行人横穿马路,待转入的车道也有川流不息的车流,这时自动驾驶车辆该如何通过?从策略上来说,先让行车流,待行人走远后再通行,无疑是最优选择,然而这看似平常的操作,对于仅依赖 8 颗摄像头做感知的特斯拉来说,却没有那么简单。这里面涉及许多物体(包括人)之间相互关联的判断,以及智能汽车应该如何作规划协调。特斯拉的做法是首先通过 8 个摄像头的视频流,形成一个基于 3D 定位的「可见空间」,即所谓的占用网络区域。该区域将扫描到的物体边缘用方块显示,类似《我的世界》游戏中对于各类建筑物的网格化描述,并渲染到向量空间,以此来呈现现实世界。与此同时,也有一些摄像头覆盖不到的地方,例如被遮挡的障碍物。这时,特斯拉 FSD 能够通过 AI 编译器&推理引擎,预测可能有路缘、道路上各种标线等等。更值得一提的是,对于车辆或者人,特斯拉还考虑到他们的运动学状态,比如说速度和加速度,来进行多模态的预测。这相对传统的目标检测网络来说非常复杂,后者完全不可实现。对应到特斯拉的训练数据上,分为三个部分:自动标注(Auto Labeling)、仿真 (Simulation)、数据引擎(Data Engine)。据 Autopilot 团队成员介绍,特斯拉积累了海量的视频片段,其中的数据达 30PB,需要 10 万个 GPU 同时工作 1 小时才能处理完。要对这些片段进行训练,需要一个强大的标注网络,不仅需要效率足够高,还要能满足和人类标注一样的高质量、多样性以及扩展性要求。对此,特斯拉采用「人机合作」的方式,既使用人力标注,也采用自动标注。不过 Autopilot 团队正在加强自动标注的能力,例如与占用网络相结合,与运动学信息结合,让 FSD 变得更加智能和高效。「我们可能需要 10 万个片段进行标注来训练 FSD,这真的像专门的标注工厂,可以让我们的技术基础更扎实。」现实世界收集到的数据不足以覆盖所有场景,要完善 FSD 的功能,还需要做仿真模拟。Autopilot 团队成员介绍,目前特斯拉仅用 5 分钟时间,就可以生成与现实世界非常接近的虚拟场景,他还以旧金山街道地图为例,包括地面标线、行人车辆、信号灯,甚至树木树叶也能随时换景。此外,针对城市、郊区、农村不同地区,也能建立十分逼真的道路场景。而如果由人工来绘制设计,或许需要一两周甚至几个月时间。数据引擎也是本届 AI Day 上自动驾驶技术的一大亮点。按照 Autopilot 成员 Kate Park 的说法,数据引擎是将通过将数据输入到神经网络,提高确定性,以更好地去解决现实世界的预测问题。她引入了一个如何判断交叉路口转弯处的车辆是否停止的问题:如果车辆在拐弯的地方速度降低,该如何应对,能否判定为停车。对此,特斯拉创建了许多网络进行评估,针对这一问题收集了 1.4 万个类似的视频,或来自当前车队,或来自仿真模拟,添加到训练集中,以帮助自动驾驶车辆做更好的预测和判断。从其演示的视频中可以看到,特斯拉用不同颜色标注了不同转弯处的车辆行驶情况。「红色或许意味着是处于停止状态,从结果来看,我们当前判断已经不错了。」事实上,以上所有这些功能都已在特斯拉最新的 FSD Beta 10.69.2.2 上推送。据了解,目前特斯拉 FSD Beta 的测试人数已经扩充到 16 万人,而在去年这一数据还仅为 2000 人。Ashok 表示,特斯拉持续一年,以 7 天训练 75,000 个神经网络模型的节奏推进研发,基本上相当于每 8 分钟就训练了一个模型。与此同时,马斯克也透露,按照这样的速度,特斯拉可以在 2022 年年底向不限于美国和加拿大在内的全球推出 FSD。「我们在技术层面已经做好了,可以适应任一国家的不同的路况。」至于监管审批上的问题,特斯拉也正在和各地保持密切沟通。按照马斯克此前的描述,FSD 的测试人群将在今年年底扩大至 100 万人。DOJO 蓄势待发,降本增效打英伟达
作为特斯拉云端训练的超级计算机,DOJO 无疑是特斯拉 AI DAY 的压轴大作。
马斯克曾在 2019 年首次提到 DOJO 的概念:
DOJO 是性能野兽,能够处理海量的数据,用于「无人监管」式的标注和训练,相当于是无需人工对训练数据集进行标注,系统能够自行通过样本间的统计规模对样本集进行分析,进而提高效率。
言外之意,DOJO 的使命是如何用最高的效率,训练特斯拉的纯视觉自动驾驶。
在去年特斯拉 AI Day 和 Hot Chips 34 会议上,特斯拉先后披露了 DOJO 的架构、细节参数,包括建立主机 CPU 与训练处理之间桥梁的接口处理器(DIP),以及 AI 算力高达 362TFLOPs 的 D1 芯片等等。时隔一年,特斯拉不仅带来更具有象征意义的研究成果,并计划在 2023 年第一季度正式量产 DOJO EXA POD。特斯拉 Autopilot 硬件工程副总裁 Pete Bannon 表示,DOJO 相较于去年的工作测试,今年的进度主要在于 DOJO 背后如何将芯片组成、以及更加高效的编译。「省时、省力、省成本、省空间」,EXA POD 的出现便是遵循了马斯克强调的第一性原理。简单来说,如果将 DOJO 视为一个超算集群,那么 EXA POD 可以视为这个集群当中的一组成员。一个 EXA POD 将由两层计算托盘和存储系统组成,每一层托盘包括 6 颗 D1 芯片、20 个接口处理器,包含 1.3TB 的高速 SRAM、13TB 的高带宽 DRAM,以及 1.1 EFLOP 的算力。除此之外,为了解决 EXA POD 极限的高集成度带来的热膨胀系数(CET)问题,特斯拉曾在 24 个月内迭代了 14 个版本,最终采用了自研的电压调节模组(VRM),降低了超过 50% 的 CTE,并扩大 3 倍以上的性能指标。特斯拉工程师表示,EXA POD 在具有人工智能训练超高算力的同时,拥有扩展带宽、减少延迟、节省成本等优势。比如在 Batch Norm Results 测试上,EXA POD 相比 GPU 有数量级的延迟优势。其次在跑经典图像项目 RESNET-50 上,EXA POD 的计算能力超越英伟达 A100。最后在跑自动标注算法测试上,EXA POD 以倍增的性能超越英伟达 A100。一个 EXA POD 相当于六个 GPU 的成本,四个 EXA POD 可以替代 72 个 GPU RACKS,相当于在同样的成本下,EXA POD 的性能高 4 倍,能耗比高 1.3 倍,空间缩小 5 倍。总而言之,特斯拉 DOJO 的研发进度其实已经接近尾声。这也意味着马斯克再一次清晰勾勒出 FSD 的最终形态,毕竟对于那些无数的边缘场景,只能通过真实世界的视觉 AI 来解决,AI 芯片只能算是锦上添花。只有解决了真实世界的 AI 问题,才能解决自动驾驶问题——除非拥有很强的 AI 能力以及超强算力,否则根本没办法。以 Alpha Go 专攻围棋为例,在经过人工参与调整和标注的训练,进而击败全球围棋高手。而 DOJO 可以视为专攻自动驾驶领域的 Alpha Go,通过深度学习和分析海量的特斯拉车队数据,DOJO 可以自动处理标注数据、自动寻找问题最优解。按照规划,特斯拉将于 2023 年第一季度在美国帕洛阿尔托完成七台 EXA POD 的建设。这意味着 DOJO 超级计算机将成为世界上最强大的超级计算机之一,能够将需要花费数月的标注工作缩减至一周。「至少可以帮助你用更少的钱,更快地训练模型的在线服务。」最后马斯克补充道,DOJO 超级计算机将来会像 Amazon Web 服务一样,通过付费的形式提供给其他用户在云端使用。
仅仅一年时间,特斯拉就不仅把去年的人形机器人彩蛋变为现实,包括背后的工程技术、开发逻辑、成本费用等等,特斯拉背后的工程师团队已经信心满满。值得一提的是,特斯拉人形机器人的感知和技术部分基本沿用特斯拉 FSD 方案,包括特斯拉 D1 芯片集成的系统作为」大脑「,以及面部八颗 Autopilot 摄像头。特斯拉工程师表示,特斯拉人形机器人通过头部的摄像头采集感知数据,再通过 FSD 视觉算法进行识别,从而行走、执行指令等等。言外之意,特斯拉人形机器人并不是按照传统程序单一的执行指令,而是通过 AI 模型自主学习。正如马斯克所言,通过 AI Day,我们希望外界对特斯拉的认知能够超越电动车,我们是 real-world AI(人工智能)领域的时代先锋。」活动现场,马斯克也再次重申特斯拉举办 AI Day 活动和展示机器人原型产品,「是为了说服像你们这种全世界最有才华的人加入特斯拉,帮助我们把它变成现实。确实,对于这样一家火力无限的公司,特斯拉或许已经是一个新时代名词。智能汽车技术与商业创新论坛首站,将于今年 11 月在广州举行。关于本次论坛更多信息,欢迎扫描上方二维码加入「粤港澳大湾区智能汽车交流群」了解。▼ 欢迎点击阅读原文,观看往期「汽车之心·行家说」回放。