Redian新闻
>
特斯拉公布Dojo超算路线图!披露全家福,首个ExaPOD明年见

特斯拉公布Dojo超算路线图!披露全家福,首个ExaPOD明年见

科技

特斯拉超级计算机的愿景,是构建一个统一的加速器。
作者 |  ZeR0
编辑 |  漠影
芯东西10月1日消息,今日上午,在第二届特斯拉AI Day上,特斯拉分享了其自研Dojo超级计算机系统的更多技术进展,并公布未来路线图。

据介绍,特斯拉首款人形机器人“擎天柱”的大脑就将采用Dojo超级计算机系统。
在去年的首届特斯拉AI Day上,特斯拉展示了其首款AI训练芯片Dojo D1,以及基于该芯片构建的完整Dojo集群ExaPOD,用于执行AI训练任务,为其上路车辆庞大的视频处理需求提供支撑。
当前特斯拉已经拥有基于英伟达GPU的大型超算,以及一个存储30PB视频素材的数据中心。

特斯拉技术专家称,特斯拉的车队在日常行驶中积累了很多视频片段,每个视频有多帧图像,需要14亿帧才能训练一个神经网络,需要使用10万个GPU工时。而特斯拉自研的Dojo超算,能够提升30%的网络训练速度。
Dojo首席系统工程师Bill Chang说,特斯拉超级计算机的愿景是构建一个统一的加速器。

会上,Dojo团队展示了通过Dojo实现Stable Diffusion在火星上运行Cybertruck的图像。
据介绍,只用4个Dojo机柜就能取代由4000个GPU组成的72个GPU机架。Dojo能将通常需要几个月的工作减少到了1周。

自去年特斯拉AI Day至今,Dojo开发迎来了一系列里程碑,包括安装第一个Dojo机柜、进行2.2mW负载测试等,现在特斯拉正以每天打造一个Tile的速度推进工作。
特斯拉还宣布其第一个ExaPOD预计将在2023年第一季度完工,计划在帕洛阿尔托总建造7台ExaPOD。


01.
快速试错,看重热膨胀系数


特斯拉一直试图优化Dojo设计的可扩展性,并以“快速试错”的心态来克服挑战。

Dojo加速器具有单个可扩展计算平面、全局寻址快速存储器和统一的高带宽+低延迟。

Bill Chang特别谈到电压调节模块,它具有高性能、高密度(0.86A/mm²)、复杂集成性。

其电压调节模块在24个月内更新了14个版本。
热膨胀系数(CTE)很重要,因此特斯拉与供应商合作提供电力解决方案。其CTE降低了50%以上,Dojo的性能是初始扩展的3倍。

在Bill Chang看来,解决每个级别的密度是实现系统性能的关键,所有系统组件必须集成到电源模块中。其集成解决方案包括用软终端电容器来减少振动等。

特斯拉还展示了一组过去两年间从交付定制冷液分配单元(CDU)到安装第一台集成Dojo机柜、再到2.2MW机组负载测试的照片。


02.
秀Dojo系统全家福,首个ExaPOD明年完工


下图是Dojo超级计算机系统,包括D1芯片、训练Tile和ExaPOD集群。

D1采用台积电7nm制程工艺,在645mm²的面积上塞了500亿颗晶体管,BF16、CFP8算力可达362TFLOPS,FP32算力可达22.6TFLOPS,TDP(热设计功耗)为400W。
相比之下,同样采用台积电7nm制程工艺、TDP达400W的英伟达旗舰计算卡A100 GPU,面积为826mm²,晶体管数量达542亿颗,FP32峰值算力为19.5TFLOPS。
基于D1芯片,特斯拉推出晶圆上系统级方案,通过应用台积电InFO_SoW封装技术,将所有25颗D1裸片都集成到一个训练Tile上,每个Dojo训练Tile消耗15kW特斯拉Dojo训练Tile中有计算、I/O、功率和液冷模块。

Dojo System Tray有高速连接、密集集成等特性,75mm高度能支持135kg。其BF16/CFP8峰值算力可达到54TFLOPS,功耗100+kW。

Dojo接口处理器是一个具有高带宽内存的PCIe卡,利用特斯拉自家TTP接口。

特斯拉传输协议TTP还可以桥接到标准以太网,TTPOE可将标准以太网转换至Z平面拓扑,拥有高Z平面拓扑连接性。

Dojo主机接口的介绍如下:

据介绍,在10机柜系统中,Dojo ExaPOD集群将突破E级算力。
其BF16/CFP8峰值算力达到1.1EFLOPS(百亿亿次浮点运算),并拥有1.3TB高速SRAM和13TB高带宽DRAM。


03.
对打英伟达A100,显著降本增效


接下来是Dojo ExaPOD的软件栈。

其软件性能由硬件性能、利用率和加速器占用率的综合加成决定。其中利用率涉及编译器,加速器占用率涉及Ingest Pipeline功能。

在软件方面,整个系统可以被视为一个整体。

借助Dojo编译器,用户可将Dojo大型分布式系统视作一个加速器。

现场,特斯拉首席工程师Rajiv Kurian分享了在Dojo上运行Stable Diffusion,根据“火星上Cybertruck”的提示创建由AI生成的图像。他打趣道,看起来它在匹配特斯拉设计团队之前还有很长的路要走。

Dojo编译器的归一化Batch Norm结果如下,相比GPU有数量级的延迟优势。

同样跑经典图像分类模型ResNet-50,Dojo可以实现比英伟达A100更高的帧率。

跑自动标注算法、预测汽车周围所有物体空间占用率的神经网络模型Occupancy Networks时,相比英伟达A100,Dojo能实现性能的倍增。

结果,以前要用6个GPU Box的计算开销,现在不到1个GPU Box就能搞定。

72个GPU机架才能跑完的自动标注算法,现在只要4台Dojo Cabinet机柜就能做到。


04.
结语:特斯拉不止是一家汽车制造商


此前在为特斯拉AI Day预热时,马斯克已经发推文预告说此次活动的目的是为了招募人工智能和机器人领域的工程师,因此内容会非常硬核。
结果也如其所述,本届AI Day俨然是特斯拉前沿技术能力的集中展示,从人形机器人的核心技术,到全自动驾驶(FSD)的各种先进算法,再到Dojo超算的软硬件系统,干货相当丰富。
从这些在人工智能、自动驾驶、机器人及计算硬件相关的技术布局,可以看到特斯拉在押注高精尖技术上的布局之深之广,这也将是特斯拉吸引更多高端工程人才的绝佳金字招牌。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
摄影系师生,10年为近7000个乡村家庭拍全家福!英语启蒙的路线图,我都为大家规划好啦!双11特惠来咯从三星路线图看DRAM发展新动向直击!披荆斩棘舞台上的重大法语发现!集度瞄准特斯拉,首款车打算跟Model Y掰掰手腕《JOJO》动画10th石鬼面壁挂画:我也和屌爷一起不做人啦!热溪温泉,加州荒岭中的小黄石翡翠池出游住民宿有没有陷阱6啊!这是一张来自太空的全家福他们用上万张全家福,记录山村十年变化!CALex 及 LexYouth成功组织新学年见面会特斯拉人形机器人真机发布!能跳舞能干活,完整技术路线公布刚刚!皇艺公布DDL,及申请开放日期!你们等的自然拼读学习路线图,我给大家归纳好啦!是美,是色,更是爱!深入起底《JOJO》动人心魄的秘密!李小龙女儿晒出全家福,老婆满脸皱纹老了平局 | 我们这代人会见证核战吗?:俄欧核危机临近,美俄发布城市核避难点路线图~蜜雪冰城披露A股招股书;瑞幸将合作JOJO;奈雪的茶联名苍兰决... | 刀法品牌热讯武汉真好,《暗恋桃花源》我们明年见!全球超算TOP500强出炉!「弃考」一年,中国超算数量仍遥遥领先简报:21世纪美国-太平洋岛屿伙伴关系路线图【11.14今日折扣】Ocado超市限时五折!La Prairie护肤/香奈儿/阿玛尼巨折!&OtherStories3折!不论面子、里子---嘴炮,其实是。。。找到职场发展“最佳路线图”的两种方法瑞幸xJOJO上新;蒙牛要约收购妙可蓝多5%股份;美团外卖或进入香港市场... | 刀法品牌热讯三星分享存储芯片最新路线图"本届G20没有全家福合照,联合声明也…"你们难道都是媒婆转世吗?不灭的黄金精神!JOJO10周年声优签名复刻画华府消息|美台经贸谈判路线图将在几天内公布机器人、自动驾驶、超算中心......从特斯拉AI Day一窥马斯克的野心双11收官战!常爸来讲语文启蒙路线图+大语文神级课程免费赠送!现世姻缘 (三十一)英国水电费+家里wifi怎么办理?租房Move-in全家福攻略![评测]Corsair 美商海盗船 JoJo的奇妙冒险 石之海联名套装赏析
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。