机器人、自动驾驶、超算中心......从特斯拉AI Day一窥马斯克的野心

科技

2022-10-01 14:10

特斯拉 AI Day 终于来了。

马斯克这次带来了三路人马，分别来自人形机器人 Optimus、Autopilot 以及超算 DOJO 团队，浩浩荡荡到一度在演讲台前面挤不下。

最先亮相的是 Optimus，它除了能够自由行走，也能抓取、搬动一些小型物体。

此外，搭配运用在特斯拉汽车上的同款 FSD 计算机，Optimus 也拥有了一定程度的人工智能。马斯克介绍，这款机器人即将投入生产使用，未来产量有望突破数百万，价格将降至 2 万美元以下。

自动驾驶技术分享一直是特斯拉 AI Day 的重磅栏目，这一次 Autopilot 团队带来了新的玩法：将占用网络（Occupancy）引入到自动驾驶中，将现实世界映射到矢量空间，实现更好体验的车辆规划。

与此同时，「数据驱动」也被特斯拉玩出新高度，在 30PB 的数据积累下，每 8 分钟就能训练一个模型。

如今，FSD Beta 已迭代到 10.69.2.2 版本，测试人数来到 16 万。

按照马斯克新立下的 FLAG，今年底将向全球开放。

另一边，超算 DOJO 也传来好消息。不仅提供超高算力，还拥有比肩英伟达的带宽、减少延迟、节省成本等优势。据了解，特斯拉将于 2023 年第一季度在美国帕洛阿尔托完成七台 EXA POD 的建设。

尤为值得一提的是，如今 AI Day 也成了特斯拉的招聘宣讲会，马斯克在会上多次表示希望吸引有才能的人加入，「硅谷那些大公司可能会辜负你，但特斯拉不会，在这里，你会享受到未曾想象的自由。」

「占用网络」被特斯拉引入自动驾驶

FSD Beta 测试人数已达 16 万人

在本届 AI Day 上，最新亮相的特斯拉人形机器人 Optimus 无疑吸引了大量目光。

就连 Autopilot 负责人 Ashok 在接棒该部分之后的演讲时，也不免捏了汗，自嘲道：「我尽量做到不冷场。」

尽管如此，无论从时间篇幅，还是从演讲人数上来说，自动驾驶仍是这次盛会的重头戏。与前几届 AI Day 侧重感知技术突破交流不同，这次的分享更多聚焦在规划/「Planning」上面。

Ashok 用上面这张框图基本概括了这次 AI Day 上有关自动驾驶的主要内容，可以看到：

左边的训练基础设施（Training Infra）和右边的 AI 编译器&推理引擎（AI Compiler& Inference），以及下方的训练数据（Training Data），共同输入信息进入神经网络（Neutral Networks）中，对占用网络（Occupancy）和一些几何形状（Lanes and Objects）进行分析，最后整体输出结果，生成自动驾驶车辆的路径规划。

以一个十字路口的通行交通流为例，当前车辆处于待左转进东西方向车道的位置，而对向有行人横穿马路，待转入的车道也有川流不息的车流，这时自动驾驶车辆该如何通过？

从策略上来说，先让行车流，待行人走远后再通行，无疑是最优选择，然而这看似平常的操作，对于仅依赖 8 颗摄像头做感知的特斯拉来说，却没有那么简单。

这里面涉及许多物体（包括人）之间相互关联的判断，以及智能汽车应该如何作规划协调。

特斯拉的做法是首先通过 8 个摄像头的视频流，形成一个基于 3D 定位的「可见空间」，即所谓的占用网络区域。

该区域将扫描到的物体边缘用方块显示，类似《我的世界》游戏中对于各类建筑物的网格化描述，并渲染到向量空间，以此来呈现现实世界。

与此同时，也有一些摄像头覆盖不到的地方，例如被遮挡的障碍物。这时，特斯拉 FSD 能够通过 AI 编译器&推理引擎，预测可能有路缘、道路上各种标线等等。

更值得一提的是，对于车辆或者人，特斯拉还考虑到他们的运动学状态，比如说速度和加速度，来进行多模态的预测。这相对传统的目标检测网络来说非常复杂，后者完全不可实现。

自动驾驶离不开数据的「喂养」。

对应到特斯拉的训练数据上，分为三个部分：自动标注（Auto Labeling）、仿真 (Simulation)、数据引擎（Data Engine）。

据 Autopilot 团队成员介绍，特斯拉积累了海量的视频片段，其中的数据达 30PB，需要 10 万个 GPU 同时工作 1 小时才能处理完。

要对这些片段进行训练，需要一个强大的标注网络，不仅需要效率足够高，还要能满足和人类标注一样的高质量、多样性以及扩展性要求。

对此，特斯拉采用「人机合作」的方式，既使用人力标注，也采用自动标注。

不过 Autopilot 团队正在加强自动标注的能力，例如与占用网络相结合，与运动学信息结合，让 FSD 变得更加智能和高效。

「我们可能需要 10 万个片段进行标注来训练 FSD，这真的像专门的标注工厂，可以让我们的技术基础更扎实。」

现实世界收集到的数据不足以覆盖所有场景，要完善 FSD 的功能，还需要做仿真模拟。

Autopilot 团队成员介绍，目前特斯拉仅用 5 分钟时间，就可以生成与现实世界非常接近的虚拟场景，他还以旧金山街道地图为例，包括地面标线、行人车辆、信号灯，甚至树木树叶也能随时换景。

此外，针对城市、郊区、农村不同地区，也能建立十分逼真的道路场景。而如果由人工来绘制设计，或许需要一两周甚至几个月时间。

数据引擎也是本届 AI Day 上自动驾驶技术的一大亮点。

按照 Autopilot 成员 Kate Park 的说法，数据引擎是将通过将数据输入到神经网络，提高确定性，以更好地去解决现实世界的预测问题。

她引入了一个如何判断交叉路口转弯处的车辆是否停止的问题：如果车辆在拐弯的地方速度降低，该如何应对，能否判定为停车。

对此，特斯拉创建了许多网络进行评估，针对这一问题收集了 1.4 万个类似的视频，或来自当前车队，或来自仿真模拟，添加到训练集中，以帮助自动驾驶车辆做更好的预测和判断。

从其演示的视频中可以看到，特斯拉用不同颜色标注了不同转弯处的车辆行驶情况。「红色或许意味着是处于停止状态，从结果来看，我们当前判断已经不错了。」

事实上，以上所有这些功能都已在特斯拉最新的 FSD Beta 10.69.2.2 上推送。据了解，目前特斯拉 FSD Beta 的测试人数已经扩充到 16 万人，而在去年这一数据还仅为 2000 人。

Ashok 表示，特斯拉持续一年，以 7 天训练 75,000 个神经网络模型的节奏推进研发，基本上相当于每 8 分钟就训练了一个模型。

与此同时，马斯克也透露，按照这样的速度，特斯拉可以在 2022 年年底向不限于美国和加拿大在内的全球推出 FSD。

「我们在技术层面已经做好了，可以适应任一国家的不同的路况。」至于监管审批上的问题，特斯拉也正在和各地保持密切沟通。

按照马斯克此前的描述，FSD 的测试人群将在今年年底扩大至 100 万人。

DOJO 蓄势待发，降本增效打英伟达

作为特斯拉云端训练的超级计算机，DOJO 无疑是特斯拉 AI DAY 的压轴大作。

马斯克曾在 2019 年首次提到 DOJO 的概念：

DOJO 是性能野兽，能够处理海量的数据，用于「无人监管」式的标注和训练，相当于是无需人工对训练数据集进行标注，系统能够自行通过样本间的统计规模对样本集进行分析，进而提高效率。

言外之意，DOJO 的使命是如何用最高的效率，训练特斯拉的纯视觉自动驾驶。

在去年特斯拉 AI Day 和 Hot Chips 34 会议上，特斯拉先后披露了 DOJO 的架构、细节参数，包括建立主机 CPU 与训练处理之间桥梁的接口处理器（DIP），以及 AI 算力高达 362TFLOPs 的 D1 芯片等等。

时隔一年，特斯拉不仅带来更具有象征意义的研究成果，并计划在 2023 年第一季度正式量产 DOJO EXA POD。

特斯拉 Autopilot 硬件工程副总裁 Pete Bannon 表示，DOJO 相较于去年的工作测试，今年的进度主要在于 DOJO 背后如何将芯片组成、以及更加高效的编译。

「省时、省力、省成本、省空间」，EXA POD 的出现便是遵循了马斯克强调的第一性原理。

什么是 EXA PDO？

简单来说，如果将 DOJO 视为一个超算集群，那么 EXA POD 可以视为这个集群当中的一组成员。

一个 EXA POD 将由两层计算托盘和存储系统组成，每一层托盘包括 6 颗 D1 芯片、20 个接口处理器，包含 1.3TB 的高速 SRAM、13TB 的高带宽 DRAM，以及 1.1 EFLOP 的算力。

除此之外，为了解决 EXA POD 极限的高集成度带来的热膨胀系数（CET）问题，特斯拉曾在 24 个月内迭代了 14 个版本，最终采用了自研的电压调节模组（VRM），降低了超过 50% 的 CTE，并扩大 3 倍以上的性能指标。

特斯拉工程师表示，EXA POD 在具有人工智能训练超高算力的同时，拥有扩展带宽、减少延迟、节省成本等优势。

比如在 Batch Norm Results 测试上，EXA POD 相比 GPU 有数量级的延迟优势。

其次在跑经典图像项目 RESNET-50 上，EXA POD 的计算能力超越英伟达 A100。

最后在跑自动标注算法测试上，EXA POD 以倍增的性能超越英伟达 A100。

而在替代性方面：

一个 EXA POD 相当于六个 GPU 的成本，四个 EXA POD 可以替代 72 个 GPU RACKS，相当于在同样的成本下，EXA POD 的性能高 4 倍，能耗比高 1.3 倍，空间缩小 5 倍。

总而言之，特斯拉 DOJO 的研发进度其实已经接近尾声。

这也意味着马斯克再一次清晰勾勒出 FSD 的最终形态，毕竟对于那些无数的边缘场景，只能通过真实世界的视觉 AI 来解决，AI 芯片只能算是锦上添花。

这也是马斯克曾经认清的一个事实：

只有解决了真实世界的 AI 问题，才能解决自动驾驶问题——除非拥有很强的 AI 能力以及超强算力，否则根本没办法。

而这，也是特斯拉启动 DOJO 项目的原因。

以 Alpha Go 专攻围棋为例，在经过人工参与调整和标注的训练，进而击败全球围棋高手。

而 DOJO 可以视为专攻自动驾驶领域的 Alpha Go，通过深度学习和分析海量的特斯拉车队数据，DOJO 可以自动处理标注数据、自动寻找问题最优解。

按照规划，特斯拉将于 2023 年第一季度在美国帕洛阿尔托完成七台 EXA POD 的建设。

这意味着 DOJO 超级计算机将成为世界上最强大的超级计算机之一，能够将需要花费数月的标注工作缩减至一周。

「至少可以帮助你用更少的钱，更快地训练模型的在线服务。」最后马斯克补充道，DOJO 超级计算机将来会像 Amazon Web 服务一样，通过付费的形式提供给其他用户在云端使用。

特斯拉，一个新时代名词

仅仅一年时间，特斯拉就不仅把去年的人形机器人彩蛋变为现实，包括背后的工程技术、开发逻辑、成本费用等等，特斯拉背后的工程师团队已经信心满满。

值得一提的是，特斯拉人形机器人的感知和技术部分基本沿用特斯拉 FSD 方案，包括特斯拉 D1 芯片集成的系统作为」大脑「，以及面部八颗 Autopilot 摄像头。

特斯拉工程师表示，特斯拉人形机器人通过头部的摄像头采集感知数据，再通过 FSD 视觉算法进行识别，从而行走、执行指令等等。

言外之意，特斯拉人形机器人并不是按照传统程序单一的执行指令，而是通过 AI 模型自主学习。

正如马斯克所言，通过 AI Day，我们希望外界对特斯拉的认知能够超越电动车，我们是 real-world AI（人工智能）领域的时代先锋。」

活动现场，马斯克也再次重申特斯拉举办 AI Day 活动和展示机器人原型产品，「是为了说服像你们这种全世界最有才华的人加入特斯拉，帮助我们把它变成现实。

确实，对于这样一家火力无限的公司，特斯拉或许已经是一个新时代名词。