解读特斯拉 HW4.0:二代 FSD 与英伟达 Orin 比,谁更优秀?
在推特号称「绿神」的 @greentheonly 最近公开了特斯拉最新 HW4.0 的硬件实物图片。
这些信息非常有价值,我们可以一窥 HW4.0 中二代 FSD 芯片的最新进展和相关技术水平。
HW4.0 的硬件是「绿神」拆解自最新款的 Model X 车型。
据悉,特斯拉 HW 4.0 或将在特斯拉举办的投资者日上正式亮相,并开始全系量产上车。
从硬件实物来看,全新的 HW 4.0 不仅拥有性能更强的芯片,摄像头分辨率、数量以及位置也发生了相应变化,同时 HW 4.0 还将新增一个 4D 毫米波雷达。
01
特斯拉二代 FSD 由三星代工,
采用 7 纳米工艺
早在 2021 年,外界就有传闻 FSD 二代将由三星代工,也有一种说法是特斯拉与三星联合开发。
到了 2022 年下半年,又有传闻称 FSD 二代由台积电代工完成,且言之凿凿地说是 5 纳米甚至 4 纳米,还有消息称这是第一颗车载 4 纳米芯片。
特斯拉二代 FSD 芯片真身,根据芯片表面丝印的数字,编号 H2238,可以推断出这是三星代工,并且极有可能只是 7 纳米,不是 5 纳米。
上图为初代 FSD 芯片,编号 H1834
另外,Green 在推特上说「still samsung exynos IP」,这一点信息有误。
众所周知,三星自研 CPU 架构早在 2015 年就停止了,现在三星都是采用 ARM 的公版架构,没有自主 IP,并且初代 FSD 是三星代工的,所以用「still」,实际上是二代 FSD 仍然由三星代工。
芯片代工捆绑程度很高,如果一开始选定某家晶圆厂代工,需要双方合作建立该芯片制造工艺的 library,想要中途改换,需要重建 library,时间周期很长,最少需要 1 年时间,浪费大量研发成果。
特斯拉为什么选择三星?
主要原因恐怕还是成本——7 纳米芯片,三星的代工价格不到台积电的 1/3 甚至 1/4,三星低价抢单后果就是晶圆代工部门营业利润很低,2021 年大约 6%,2022 年大约 10%,而台积电是接近 50%,是三星的 5 倍。
台积电的产能一向不宽松,相对于苹果、高通、英伟达和 AMD 动辄千万上亿的出货量,特斯拉的订单台积电根本看不上。
5 纳米,台积电更是完胜三星,3 纳米也是如此。
无论闸极还是内联线宽,台积电都完胜三星。这意味着在功耗方面,三星比台积电逊色不少。
特斯拉选择三星,就不大可能选择还不太成熟的 5 纳米工艺,因为三星的 5 纳米比 7 纳米提升不多,功耗也偏高。
特斯拉选择三星只能选 7 纳米,因为工艺更成熟。
此外,还有地理优势。
特斯拉总部目前在德克萨斯州奥斯汀哈罗德格林路,特斯拉最大工厂也在奥斯汀,特斯拉 Cybertruck 唯一工厂也在奥斯汀,而三星的晶圆代工厂跟特斯拉在同一个城市,也在德克萨斯州的奥斯汀。
准确地说是在奥斯汀略微偏北的 Taylor,离特斯拉并不远,双方可以互相高效沟通。
2021 年 11 月月,三星响应美国政府号召宣布在美国德州投资 170 亿美元建立 S2-2 晶圆厂。
此前的 S2-1 工厂最高只有 11 纳米,S2-2 厂可以到 7 纳米,预计 2023 年年初投产。
特斯拉的二代 FSD 芯片应该就在 S2-2 厂代工。
台积电在美国也在建厂,不过地址在亚利桑那州的大凤凰城,且在 2024 年底才能投产。
02
详解 HW 4.0,
特斯拉第二代 FSD 究竟实力几何?
特斯拉 HW4.0 正面 PCB 如上图,Green 在推特上说二代 FSD 的 CPU 内核由 12 个增加至 20 个,运行频率在 1.37GHz-2.35GHz 之间。
初代 FSD 使用了 12 个 ARM Cortex-A72 CPU 内核。
A72 是 ARM 在 2015 年推出的架构,性能大约为 6.1-6.5DMIPS/MHz,最高运行频率差不多也是 2.4GHz,像后来推出的 A76、A77、A78 最高运行频率可以达到 3GHz 以上。
从搭载 CPU 的性能来看,这也反证特斯拉 HW4.0 使用的还是 2015 年的 A72。
按初代频率 2.2GHz 计算,20 内核 A72 的算力是 20*2.2K*6.5=286K,与英伟达 Orin 的 12 核心 A78AE 比稍微低一点,Orin 是 300K DMIPS。
与 HW3.0 相比,HW4.0 一个明显的区别是 HW4.0 元件更多。
HW4.0 上下还各多了 24 路供电,尤其下面的 12 路供电,电感体积颇大,并联的钽电容阵列也颇为壮观(大概率是松下的高精度钽电容)。
HW3.0 的供电只有 4 路,HW4.0 则多了 20 路。我个人推测是因为二代 FSD 的功率大幅度增加了,估计每片二代 FSD 的功率是 80-90 瓦,甚至有可能是 100-120 瓦,否则没必要增加这么多路供电。
这同样也反证了二代 FSD 采用的是 7 纳米工艺。
为什么这么说?
这实际上与电脑主板供电类似。
上图是典型的电脑主板,完整的 CPU 供电设计一般都需要包含上述部分。
PWM 芯片起到总控制作用,每一相完整的供电都是由:
1-2 个电感(一般是并联或倍相的情形)
1-4 个 MOS(一般是高级的 Dr.MOS/2~4 个就是常规的上桥+下桥)
数个滤波电容(中低端主板固态电容,高端主板用钽电容)等构成
电脑主板供电和车载运算系统供电是完全相同的:一般是开关电路。
开关电路是控制开关管开通和关断的时间和比率,维持稳定输出电压的一种供电系统,主要由电容、电感线圈、MosFET 场效应管以及 PWM 脉冲宽度调制 IC 组成。
这一电路系统发热量低,转换效率高,而且稳压范围大、稳压效果好。
一般来说,功率 65 瓦的电脑 CPU 一般是 4 相或者 6 相供电,250 瓦的显卡一般需要 8 相供电,500 瓦的 RTX 4070 Ti 显卡一般是 12+3(12 路 GPU,3 路显存),更为高级的是 16+4 路。
多相供电的好处很多:
提供更大的电流;
降低供电电路的温度,因为电流多了一路分流,每个器件的发热量自然减少了。多相供电电路可以非常精确地平衡各相供电电路输出的电流,以维持各功率组件的热平衡;
利用多相供电获得的核心电压信号也比单相的来得稳定。
但多相供电的缺点是成本较高,而且对布线设计、散热的要求也更高,因此功率越大的产品所用的供电相数越多。
特斯拉使用了 24 相供电(估计两颗 FSD 是 18 路,6 路是显存的),尽管采用了水冷,推测两颗 FSD 的功率仍然有大约 150-200 瓦。
而 Orin 是多少呢?顶配 64GB 的 Orin AGX 最大功率为 60 瓦。
与 HW3.0 不同,HW4.0 的背板多了 8 颗内存,FPGA 代号为 D9ZPR,实际型号是 MT61M512M32KPA-14 AAT:C,特斯拉不惜血本,用上了最顶级的 GDDR6。
GDDR 是 Graphics Double Data Rate 的缩写,为显存的一种。
GDDR 有专属的工作频率、时钟频率、电压,因此与市面上标准的 DDR 存储器有所差异,与普通 DDR 内存不同且不能共用。
一般来说,GDDR 比主内存中使用的普通 DDR 存储器时钟频率更高,发热量更小,更适合搭配高端显示芯片。
GDDR 则是电脑爱好者熟悉的高级显存,GDDR6 是英伟达 2018 年发布 20 系列显卡才开始出现的。
目前最强的消费级内存是 2020 年英伟达携手美光推出的 GDDR6X。
不过和 AI 训练用芯片普遍使用的 HBM2 内存还是差距明显,当然了,HBM2 价格远高于 GDDR6X。
车载领域目前都是 LPDDR,特斯拉又开创先河:第一次在车载领域用 GDRR。
为什么之前没有车企使用?
一是算力需求不高;二是 GDDR 功耗高,用于车载领域并不适合。
不过特斯拉不在意,台式机的 GPU 都敢放在车里,更不用说功耗略高的 GDDR 了。
LPDDR 参数
GDDR6 参数
GDDR6 最高运行频率远高于 LPDDR5,最高可达 1750MHz,传输速率大约是 12800MT/s,是 LPDDR5 的两倍,代价是——功耗也差不多是 LPDDR5 的两倍。
特斯拉不惜血本,用了 16 颗 GDDR6,总计 32GB,仅此一项成本就有大约 200-250 美元,HW3.0 则是 8 颗 LPDDR4,总容量 16GB,估计要 20 美元。
Flash 存储方面,HW3.0 是东芝的 THGAF8G8T23BAIL,这是 32GB 的 UFS,不过是较为陈旧的 UFS2.1 标准。HW4.0 改用三星的 KLUDG8J1ZD,容量提高到 128GB,但依旧是 UFS2.1 标准。
03
二代 FSD 的算力有多高?
对于特斯拉这种 One Shot 型的 NPU,增加算力就是增加晶体管数量,同样的 Die 大小就要提高密度。
二代 FSD 的 Die 面积看起来差不多大小,考虑到 A72 的核心增加到了 20 个,也会占用部分 Die 面积,估计算力最多提高三倍,也就是 216TOPS,仍然低于 Orin。
不过 FSD 的 SRAM 容量比较足,这是特斯拉一贯特色,二代 FSD 的实际算力和理想值会比较接近。
左边是 HW4.0,右边是 HW3.0
上面一层是座舱车机,下面一层是智能驾驶
单从接口看,HW4.0 至少有两个以太网接口,从连接器判断是标准的单对线车载以太网,不是早期的 EAVB 以太网。
在两片 FSD 下面似乎有两片车载以太网物理层芯片,应该是较新的 88Q2112。
新增以太网接口正是为了对接特斯拉自己开发的 4D 毫米波雷达,传统毫米波雷达用 CAN 或 CAN-FD 连接,4D 毫米波雷达信息量大,需要用百兆以太网。
板子中间最下方可能是以太网交换机,HW3.0 是 Marvell 的 88Q6321。
HW4.0 显然不会在使用这种相对落后、非严格车规以太网芯片。
据推测,HW4.0 应该换成了性能较为先进的博通 BCM8956X 或 BCM8947X,也有可能是来自中国台湾瑞昱,因为车机板上的以太网交换机正是瑞昱的产品。
左图是 HW3.0 的智能驾驶接口。右图是 HW4.0,上面一层是 HW4.0 的智能驾驶的接口,座舱有两个显示屏输出接口。
智能驾驶方面:
红色作为预留接口;
蓝色代表驾驶员行为监测。
白色为连接两个后向摄像头;
黑色为前视摄像头,可能两个都是 500 万像素。
我个人推测,特斯拉 HW4.0 减少了一个前视摄像头,增加了一个后向摄像头。
特斯拉用了两片 4 路解串行芯片,估计是美信的 MAX96712,这个芯片在国内非常抢手。还有一片可能是 2 路解串行。
HW3.0 则是两片德州仪器的 DS90UB960 和一片 DS90UB954,尺寸明显比美信的要小。
其余地方差别不大,仍然是 Spansion 的 64MB Nor Flash 做 Boot Loader。
电源管理似乎还是美信的 MAX20005。U-BLOX 的 GPS 被取消了,换成了更高级的三波段 GPS。
这是 HW4.0 的车机部分,将 CPU 与 GPU 合二为一,放在一张 PCB 板上。
车机背板,无线通信模组还是 AG525R-GL,蓝牙与 WiFi 还是 LG INNOTEK 的 ATC5CPC001。
总结一下,HW4.0 与 HW3.0 相比,进行了如下的更新:
(1)HW4.0 比 HW3.0 的面积更大,集成度更高。例如 HW4.0 的车机部分,将 CPU 与 GPU 合二为一,集成在一张 PCB 板上;
(2)内核部分升级不大,HW4.0 CPU 内核从 12 个增加到 20 个,最大频率 2.35GHz,默认频率 1.37Ghz,TRIP 内核数量从 2 个增加到 3 个,最大频率 2.2GHz。
(3)HW4.0 NPU 芯片封装面积增大,供电部分加强,HW4.0 功耗大概是 HW 3.0 的 2 倍;
(4)HW4.0 开创先河,在车载领域率先使用 GDDR,HW4.0 将显存升级到 16G GDDR6 每核心,超过 HW3.0 每核心 8G LPDDR4,推测 FSD 整体算力得到 3-5 倍提升;
(5)在域控模块的 PCB 板上,摄像头接口增加:由 HW 3.0 的 9 个接口增至 12 个摄像头接口。具体来说,由原来的前置三目摄像头变为了双目,布局为:2 个侧视摄像头,1 个前摄像头、1 个倒车影像摄像头、4 个侧向 ADAS 摄像头以及座舱内的 1 颗摄像头,一共 11 颗,还有 1 颗备用摄像头。前向感知摄像头从 120 万像素提升到了 500 万像素。
(6)GPS 模块升级,使用了三频 GPS 天线模块,新增 L5 频率,以提升定位精度;
(7)新增了毫米波雷达接口以及雷达加热器;
(8)HW4.0 主板整体采用对称设计,配置均为双备份;
总体而言,HW4.0 的升级主要集中在 FSD 芯片和传感器架构。
英伟达 Orin 是 2019 年 12 月推出,特斯拉的二代 FSD 估计是 2020 年开始设计。
两相对比,谁更优秀,相信聪明的读者已有答案。
▼ 欢迎点击阅读原文,观看往期「汽车之心·行家说」回放。
微信扫码关注该文公众号作者