苹果用谷歌TPU,英伟达的AI帝国有了第一道裂缝?
“ 苹果端侧模型使用谷歌的TPU训练,英伟达AI帝国现第一道裂缝
万物皆有裂痕,自古打天下难,守天下更难
周期到了股王英伟达吗?”
还清晰记得足球诗人贺伟在2014年世界杯上,卫冕冠军西班牙出局战上面的一段经典解说:“西班牙球员们尽管赢球但是心情依旧比较沮丧,但是他们完全不应为此感到抱歉。因为他们已经到过很多人永远无法企及的高度。
作为他们的球迷当然是得到满足还会想要更多的满足,这无可厚非,但是这种要求并不实际, 因为自古打天下难,守天下更难,没有人可以永远站在顶峰。即使可以做到居安思危未雨绸缪,但是你身边全都是和你一样充满野心、充满激情和充满渴望的年轻人,他们可以把你的长处和短处放在显微镜下去研究,以你为标靶,你说守天下难不难?”
如今,作为AI领域霸主,当红炸子鸡英伟达面临的境况可能就如同2014年的西班牙,彼时西班牙将攻势足球与传切配合打到如水银泻地一般流畅,让人叹为观止,赏心悦目,所有球队都盯着西班牙,各种学习,以期击败西班牙。
而现在英伟达也一样,在AI芯片高度垄断的当下,所有的下游公司,从谷歌到微软、Meta、亚马逊大家都卯足了劲头来研发自己的芯片以期降低对英伟达的依赖。这些芯片包括谷歌的TPU、微软的Maia 100和Cobalt、Meta的MTIA、亚马逊的Trainium和Inferentia、特斯拉的Dojo,以及英特尔的FPGA系列。每家公司都在根据自身的需求和技术优势,推动AI芯片的创新和应用,为未来的AI发展提供强有力的硬件支持。
公司 | 芯片名称 | 性能提升 | 主要应用 |
TPU | FLOPS和高带宽内存(HBM)分别提高2倍和3倍 | 谷歌云计算平台、TensorFlow | |
Microsoft | Azure Maia 100和Azure Cobalt | 未公开具体提升 | 微软Azure数据中心,支持OpenAI/Copilot等服务 |
Meta | MTIA | 功耗仅有25瓦 | 加快生成式AI模型的训练和推理,数据中心项目支持AI工作 |
Amazon | Trainium Inferentia | 未公开具体提升 | 亚马逊AWS云平台,专为机器学习任务设计,目标是提供高性能和低成本的解决方案 |
Tesla | Dojo | 未公开具体提升 | 自动驾驶系统训练,大规模AI模型训练,能源管理 |
Intel | Altera FPGA系列 | 未公开具体提升 | AI推理,硬件定制 |
对于英伟达来说,曾经的荣耀毋庸置疑,而打天下难,守天下更难
英伟达在AI硬件领域取得了显著的成功,特别是在GPU市场中占据了主导地位。然而,取得成功是一回事,保持这种成功则更加困难。市场竞争激烈,科技进步迅速,英伟达需要不断创新来保持其领先地位。
市场中的新兴公司和年轻企业家充满野心和创新精神,他们不断研究市场领导者的长处和短处,并寻找机会进行突破。
英伟达在AI硬件领域的成功无疑是显著的,但保持这种成功需要持续的努力和创新。面对来自谷歌TPU、亚马逊AWS和AMD等竞争对手的挑战,英伟达需要在技术创新、市场扩展、成本控制和人才引进等方面做出战略调整。尽管市场竞争激烈,但通过居安思危、未雨绸缪,英伟达仍有机会在未来的市场中保持领先地位。然而,没有人可以永远站在顶峰,英伟达也必须时刻保持警惕,积极应对市场变化和竞争挑战。
01
—
苹果为何选择谷歌的TPU来训练模型?
2024年7月29日,苹果公司发布了一篇技术论文,详细介绍了其人工智能(AI)系统“苹果智能”(Apple Intelligence)的两个AI模型在谷歌设计的云端芯片上进行预训练的情况。这一决定表明,苹果正在寻找英伟达以外的替代品来支持其AI研发。
英伟达目前在AI处理器市场占据主导地位,拥有大约90%左右的市场份额。然而,苹果此次选择依赖谷歌的云基础设施,使用谷歌自主开发的Tensor处理单元(TPU)进行训练,这一举措反映了科技巨头们在尖端AI训练方面寻求更多元化的解决方案。
苹果的技术报告中提到,Apple Foundation Model(AFM)和AFM服务器是在“云TPU集群”上进行训练的。具体来说,苹果使用了2048颗TPUv5p芯片来构建设备端AFM模型,而在AFM服务器中,部署了8192个TPUv4处理器。这些TPU是谷歌最新一代的处理器,能够高效且可扩展地支持苹果的AI模型训练。
苹果并没有在报告中明确表示未使用英伟达的芯片,但其对AI工具和功能的硬件和软件基础设施的描述中没有提到英伟达的硬件。谷歌的TPU与英伟达的GPU不同,通过谷歌云平台销售使用权,而不是作为独立产品销售。根据谷歌网站,最新的TPU在三年订购期限内,每小时使用成本不到2美元。
谷歌的TPU自2015年推出以来,已成为人工智能领域最成熟的定制芯片之一。此外,谷歌也是英伟达的主要客户之一,在其AI系统训练中使用了英伟达的GPU和自家的TPU,同时也在其云上出售英伟达技术的使用权限。
苹果的工程师在论文中表示,使用谷歌的芯片有可能制造出比当前两种型号更大、更复杂的模型。此外,苹果还计划在其数据中心的自有芯片上部分进行推理过程,即使用预训练的AI模型生成内容或做出预测。
苹果决定在AI训练中使用谷歌的TPU,反映了科技公司在AI处理器市场上寻求多样化选择的趋势。尽管英伟达目前在市场中占据主导地位,但其他公司如谷歌提供的解决方案也在逐步获得认可和应用。
根据Apple Foundation Models的报告,AFM-on-device模型的训练使用了TPU集群:
AFM-server模型
使用的TPU数量: 8192 TPUv4芯片 训练配置: 8192 TPUv4芯片被配置成8个1024芯片的切片(slices),这些切片通过数据中心网络(DCN)连接。 数据并行: 跨切片的只有数据并行,其他类型的状态分片只在切片内进行,因为切片内的互连带宽比DCN高出几个数量级。 训练效率: 持续的模型浮点运算利用率(MFU)约为52%。AFM-server模型从零开始训练,使用了6.3万亿个tokens,采用了8192个TPUv4芯片。AFM-on-device模型通过知识蒸馏和结构剪枝从一个更大的模型初始化,并使用了2048个TPUv5p芯片进行训练。
AFM-on-device模型
使用的TPU数量: 2048 TPUv5p芯片 训练配置: 在一个2048 TPUv5p芯片的切片上训练。 对于AFM-server和AFM-on-device模型,持续预训练使用了1万亿个tokens,并将序列长度延长到8192。使用了更高权重的数学和代码数据,以及包含授权数据的混合数据集。进一步使用1000亿个tokens进行预训练,序列长度延长到32768,数据集混合了合成的长上下文Q&A数据。 AFM-server模型:训练时使用了8192个TPUv4芯片,配置成8个1024芯片的切片。训练效率高,能够处理大量数据和复杂的模型。 AFM-on-device模型:使用了2048个TPUv5p芯片进行训练,通过知识蒸馏和结构剪枝优化了模型,使其能够在设备端高效运行。
通过使用大规模的TPU集群,Apple能够高效地训练其基础模型,同时在隐私保护和设备端高效运行方面取得显著成果。这种大规模的计算资源配置,使得AFM模型能够在保持高性能的同时,满足用户对隐私和本地计算的需求。
这一次,在训练模型上,苹果采用谷歌的TPU,为什么?
作为在AI投入最早也是最多的巨头,谷歌一直在AlphaGo出来以后就在不断研发迭代自己的训练芯片,而谷歌在云计算上的壁垒,有一个很重要的方面就是谷歌的自研芯片TPU,目前是几个大云厂商当中最为成熟的算力加速器。
谷歌具备软件+硬件的协同能力,是除了英伟达(AI芯片+cuda生态)外这两方面能力都非常强的公司。
“从这个角度来看,Google的TPU+XLA就是一个满足之前所属芯片-软件协同设计的案例。Google的自研TPU过程中和XLA编译器通过软硬件结合设计实现整体高性能方案(这也是TPU在MLPerf benchmark上和Nvidia的方案性能接近甚至领先的重要原因)。
谷歌AI上的壁垒,TPU+XLA
谷歌在2023年11月29日的Cloud Next 2023大会上,推出自己的自研AI芯片TPU v5e。第五代TPU训练性能提高2倍,推理性能提升2.5倍,成本降低50%。24年为大模型落地年,因此推理将逐步成为AI加速器的主要应用场景,所以推理性能提升2.5倍是更值得关注的点。所以经济性会更为关注。
谷歌官方声称,TPU v5e是目前最具成本效益、多功能且可扩展的Cloud TPU,并且能够和Google Kubernetes Engine (GKE)、Vertex AI 以及 Pytorch、JAX 和 TensorFlow 等领先框架的集成。主流的计算框架都包括了。PyTorch、JAX和TensorFlow是目前最最主流的AI模型框架。
最新的TPU v5e和H100以及GH200的对比目前没找到相关的数据,但是我们能够看到上一代产品TPU v4和英伟达A100的一个性能对比图,二者推出的时间基本同步。
我们来看一些数据对比:
运算能力:TPU v4 芯片提供高达 260 teraflops(每秒数万亿次浮点运算)的计算能力,而 NVIDIA A100 提供约 312 teraflops 的 FP32 性能。虽然 A100 具有更高的原始性能,但 TPU v4 的架构专为机器学习任务而设计,使其在这些应用中更加高效。据谷歌研究人员称,在各种ML工作负载中,TPU v4 比NVIDIA A100快 1.2 到 1.7 倍。 内存带宽:TPU v4 芯片具有 100 GB 高带宽内存(HBM),内存带宽为900 GB/s。相比之下,NVIDIA A100 配备 40 GB 或 80 GB 的 HBM2 内存,具体取决于配置,内存带宽高达 2 TB/s。尽管 A100 具有更高的内存带宽,但 TPU v4 提供了更多的内存容量,这有利于处理大型 ML 模型和数据集。 能源效率:是人工智能超级计算的一个关键因素,因为它直接影响运营成本和环境可持续性。TPU v4 经过专门设计,具有节能性,与传统 CPU 或 GPU 相比,每次计算消耗的功率更少。谷歌研究人员报告说,TPU v4 的功耗比 NVIDIA A100 低 1.3 到1.9 倍,使其在能耗方面具有显着优势。
因此对比的话,假如关注成本优势的话,TPU v4会是更好的选择,所以,苹果端侧模型选择用谷歌的TPU,我觉得更多的是从成本端考虑,不用过多解读,而假如关注多功能架构和广泛生态的话,那么A100是首选。考虑到24年为AI落地年,推理逐步取代训练成为最主要的AI需求,经济性考虑会成为第一优先级,那么谷歌的TPU还是有比较强的竞争力。
第二个壁垒就是谷歌自己研发的XLA计算编译器框架,专门为深度学习设计,主要目的是为了优化TensorFlow等深度学习框架中的计算图,将高层次的计算图转化为低层次和高效的机器代码,提高运行效率和硬件利用率。目前已经支持多种硬件包括CPU、GPU和TPU。
谷歌和英伟达CUDA的区别在于:对于使用TensorFlow、JAX等框架构建的LLM,XLA能够帮忙加速,CUDA是能够加速在英伟达自己GPU上运行的LLM。XLA属于一个生态中的一部分,目前绝大部分大厂商都在支持和维护,包括OpenAI、Meta、AMD等需求和供给方,目的就是为了跳出英伟达CUDA的内存墙。说白了就是天下苦CUDA久已。
为啥说TPU+XLA是一个有利的组合呢,因为TPU是张量处理单元,专门用来处理张量的。张量为Tensor,因此TPU和XLA是高度紧密集成的,用以提高运算效率和速度。这个组合就类似于CUDA和英伟达的GPU、ROCm和AMD的GPU。不同的地方在于,TPU以及XLA,都是基于深度学习进行开发的,比不过CUDA,但是比ROCm要接受程度高一些
02
—
TPU or GPU?
在AI领域,硬件资源的选择对于模型训练至关重要。苹果选择使用谷歌的TPU(Tensor Processing Units)来训练其端侧模型,反映了当前AI计算资源市场上的竞争态势。这一举措是否预示着英伟达在AI领域的主导地位受到挑战?让我们从几个角度进行分析。
为什么苹果端侧模型选择谷歌的TPU而不是英伟达的GPU?
1. 谷歌TPU的优势
谷歌的TPU(Tensor Processing Unit)和XLA编译器框架为深度学习任务提供了优化的硬件和软件支持。以下是谷歌TPU的一些主要优势:
专用性强:TPU是为机器学习任务专门设计的硬件,能够高效处理大规模矩阵运算,这使得它在深度学习任务中表现突出。 高效能:TPU在处理机器学习模型训练和推理方面表现出色。例如,TPU v4在各种机器学习工作负载中,比英伟达A100快1.2到1.7倍。 内存容量与带宽:TPU v4配备了100 GB的高带宽内存,尽管内存带宽稍低于A100,但更大的内存容量有助于处理更大规模的机器学习模型。 能源效率:TPU在能源消耗方面更为高效。据谷歌研究人员报道,TPU v4的功耗比英伟达A100低1.3到1.9倍。
2. 成本效益
在2023年11月29日的Cloud Next 2023大会上,谷歌推出了TPU v5e。新一代TPU显著提高了训练和推理性能,同时降低了成本:
训练性能提高2倍:TPU v5e在训练性能上提升了2倍。 推理性能提升2.5倍:推理性能的显著提升对于大模型落地尤为重要。 成本降低50%:成本效益的提升使得TPU在经济性上更具吸引力。
对于需要高效、大规模推理能力的应用场景,TPU v5e成为了一个非常有竞争力的选择。
3. 软件+硬件的协同优化
谷歌的TPU与XLA编译器通过软硬件结合设计实现了整体高性能:
XLA编译器:专为深度学习优化的计算图编译器,将高层次的计算图转化为低层次和高效的机器代码,提高运行效率和硬件利用率。 与主流框架的集成:TPU与TensorFlow、JAX和PyTorch等主流框架紧密集成,使开发者能够方便地使用这些框架进行模型开发和训练。
4. 英伟达的优势与劣势
英伟达的GPU在AI计算中也具有显著优势,但也存在一些劣势:
强大的生态系统:CUDA生态系统非常成熟,广泛应用于AI、科学计算和图形处理等领域。 高性能:英伟达的GPU如A100在计算性能上非常强大,适用于各种高性能计算任务。 成本较高:英伟达的GPU价格较高,对于注重成本效益的应用场景,可能不如TPU经济实惠。
5. 战略考量
苹果选择使用谷歌TPU进行端侧模型训练,除了技术和成本考虑外,也可能涉及到战略合作和供应链管理:
供应链多样化:通过使用TPU,苹果能够多样化其计算资源供应链,减少对单一供应商的依赖。 战略合作:与谷歌的合作可能不仅限于硬件,还包括云计算平台和软件生态系统的协同优化。
因此,综上可以看到,苹果选择谷歌TPU而不是英伟达GPU,主要是基于以下几个方面的考虑:
谷歌TPU的高效能和成本效益:TPU v5e在性能和经济性方面表现突出,尤其是在推理性能上有显著提升,成本也降低了50%。 软件+硬件协同优化:TPU与XLA编译器的结合实现了高效的深度学习计算,支持主流的深度学习框架。 战略合作和供应链多样化:通过使用谷歌TPU,苹果能够多样化其供应链,同时借助谷歌的云计算优势,实现更高效的AI计算。
在未来,随着AI应用的普及和技术的发展,TPU和GPU的竞争将会更加激烈,而这种竞争也将推动AI硬件和软件的持续创新和优化。
苹果选择使用谷歌TPU进行端侧模型训练,确实显示出在AI计算资源市场上,英伟达面临来自谷歌等竞争对手的挑战。然而,这并不意味着英伟达的AI帝国即将崩塌。相反,面对竞争,英伟达可能会进一步提升其技术创新能力,扩大市场应用,继续在AI领域保持领先地位。
万物皆有裂痕,但裂痕往往也是光照进来的地方,英伟达能否在新一轮的技术和市场竞争中继续引领潮流,还有待时间的验证。
但在高预期之下,英伟达面临的压力也越来越大,在硅谷群狼环伺的氛围里,英伟达的超高毛利率与净利率水平还能维持多久呢?
来源:贝叶斯之美
微信扫码关注该文公众号作者