摩根士丹利的一篇报告带火了Dojo,让大家看到了特斯拉自研超算中心的能力以及未来超算中心的规划。其实特斯拉的D1芯片和Dojo早在2021年的AI Day上就进行了发布,但却是在2023年的7月份才开始正式量产,背后到底是什么原因?Dojo的大规模量产和部署意味着什么?
1、特斯拉的D1从性能上和英伟达的A100相差不大,A100是通用算力,而D1主要只能是特斯拉自用,别人使用的效率将大打折扣。在自动驾驶还不需要大规模算力部署的时候,云端的超算中心对特斯拉的重要性就不大。因此Dojo在发布之后也没有着急量产,而继续选择英伟达的GPU的来做云端的超算中心。
2、在FSD V12开始之前,特斯拉自动驾驶的训练算力消耗有很大部分(三分之一左右)在数据的自动标注之上,虽然FSD V11已经开始在各个环节采用基于Transformer的大模型,但模型的效率和数据的使用量(标注限制了数据的使用)都不够大。
3、FSD V12进入端到端的大模型时代之后,数据已经不再需要标注可以直接进行投喂。特斯拉积累的超百亿英里的Autopilot形式里程数(21年即已超50亿英里)和超过3.5亿英里的FSD累计行驶里程数的数据才会真正排上用场。因此,特斯拉FSD V12才是真正进入了完全数据驱动的大模型时代,对于云端算力的要求才会呈现出指数级的提升。因而,特斯拉才会在2023年加速Dojo的大规模量产来降低云端超算中心搭建的成本,并且规划到2024Q4算力要达到100EFLOPS。
4、特斯拉的FSD算法进入端到端的V12之后和Optimus算法可以完全复用,而人形机器人的算法难度和对于数据的需求更高于自动驾驶,因此长期来看Dojo对特斯拉的意义非常重大。
5、Dojo本身其实是特斯拉很早就进行技术部署的产品,其技术领先性和英伟达的A100基本接近。Dojo大规模的量产和布局的意义其实更大在于表明:自动驾驶已经真正进入了大模型时代,数据和算力是驱动自动驾驶水平提升的核心能力,自动驾驶也将成为AI真正大规模应用的最重要方向之一。Dojo是基于特斯拉自研D1芯片的数据中心(主要训练FSD)用于替代目前基于A100的数据中心(截止22年9月,1.4万片A100,全球第七大数据中心)。19年AI Day马斯克第一次提及(Dojo目标是解决海量视频数据的训练问题);Dojo的落地形式为ExaPOD(Dojo集群,由3000片D1芯片构成),单精度算力为1.1EFlops。23财年大概出货4-5万片D1,23年7月第一个ExaPOD已经投入运营,且预计在短期内向Palo Alto数据中心投入6个ExaPOD(共7.7EFlops)。24Q4目标是Dojo算力达100EFlops(约91个集群)。D1针对FSD的视觉神经网络做了专门的架构设计;且特斯拉打造了包括底软、编译器在内的全栈软件配套,结果就是:1)Dojo训练效率高于DGX A100,25个D1芯片组成的tile推理速度是24块A100的30x;FSD训练时间可从一个月缩短到一周以内;2)较之A100同成本下性能提升4x;功耗降低1.3x;体积节省5x;占用网络训练速度提升4.4x;自动标注速度提升3.2x;3)成本是1/6(100EFlops需要30万片A100,成本大概75亿美元;上91个Exapod大概12.5亿美元;节约50亿刀)。凭借着更强的计算能力与处理速度,训练效率显著提升,算法加速成熟;与用A100相比,将大大加速特斯拉迈向完全自动驾驶的时间线,引致软件业务(FSD授权等)与共享出行业务(Robotaxi等)的付费率与ARPU均显著提升:1)软件业务(DCF估值从每股60美元上调到119美元,+59):大摩直接把30年的ARPU提升了80%(从100到180),付费率不变;还新增了给合作车企提供的软件服务收入(FSD授权/充电协议许可等,之前的估值没有这块),假设2030年全球11%的第三方EV使用特斯拉的软件服务,ARPU为36美元。2040年假设40%使用,ARPU提升到66美元。2030年软件业务运营利润率直接从50%调到65%(22年40%)。还拆了下30年ARPU的构成(FSD/充电/维护/OTA/内容服务/其他等占比)。2)共享出行业务(估值从每股11美元到81美元,+70):2030年车队规模预期从50万辆上调到57.7万辆;收费价格从每英里1.7美元提升到每英里1.8美元。运营利润率从12.1%提升到18.5%。3)第三方电池服务(估值从28美元提升到41美元,+13):短期面向第三方的出货时间预期从24年下修到25年;35年的供应量却上修到439kWh(之前预期为325kWh)。运营利润率拍25%。4)主业整车销售(估值从每股95美元到每股102美元,+7),提升了运营利润率预期。1)马斯克的其他公司将受益Dojo(例如X、SpaceX等);2)未来可能搞类似亚马逊的云租赁,把Dojo向非特斯拉客户开放,有数百美元的回报潜力;3)FSD授权其他车企后,自然而然需要通过部署Dojo来提升训练效果;4)如果后续验证Dojo体系的模型训练效率优于包括NV在内的其他计算体系,特斯拉可能成为市场上最好的机器视觉训练体系提供商。对标NV与高通。5)其他涉及类似复杂视觉感知任务的场景也能用到Dojo(机器人、航空、安防等等)。大摩文章的主旨是用D1芯片替代掉A100后,训练效率/成本均大幅度优化,加快实现完全自动驾驶的步伐,并实现利润率改善;并给出了Dojo赋能千行百业的构想,给得各项指标预期都很乐观,也很卖方。但能涨就是牛。3)算力租赁有点牵强,Dojo能讲租赁逻辑是因为FSD可以授权友商且Dojo体系智驾训练效果可能全球最佳,租赁标的有弹性但可能偏择时;