Elon Musk的100000 个 GPU集群
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
埃隆·马斯克控制的公司——SpaceX、特斯拉、xAI和X(前身为Twitter)——都需要大量的GPU,而且都是用于他们自己的特定AI或HPC项目。问题是,没有足够的GPU来满足他们各自的野心。因此,马斯克必须优先考虑他能得到的GPU的去向。
早在 2015 年,马斯克就是 OpenAI 的联合创始人。在经历了 2018 年的一场权力斗争之后(我们认为这场斗争与推动 AI 模型所需的巨额投资以及这些 AI 模型的治理有很大关系),马斯克离开了 OpenAI,为微软打开了大门,让微软带着巨额资金进入该领域。看到 OpenAI 已成为生产级生成 AI 的主导力量,马斯克于 2023 年 3 月迅速成立了 xAI,从那时起,这家初创公司一直在努力筹集资金并寻找 GPU 分配,以建立具有竞争力的基础设施,与 OpenAI/Microsoft、Google、Amazon Web Services、Anthropic 等公司竞争。
获得钱是比较容易的部分。
5 月底,Andreessen Horowitz、Sequoia Capital、Fidelity Management、Lightspeed Venture Partners、Tribe Capital、Valor Equity Partners、Vy Capital 和 Kingdom Holding(沙特王室控股公司)都为 xAI 投入了 60 亿美元的 B 轮融资,使其总融资额达到 64 亿美元。这是一个好的开始,幸运的是,马斯克从特斯拉获得了 450 亿美元的薪酬待遇,因此他可以随时增加 xAI GPU 资金。(他可能明智地将其中一部分资金留作特斯拉、X 和 SpaceX 的 GPU 分配。)
某种程度上,特斯拉将一次性支付马斯克 2022 年 4 月收购 X 所需的 440 亿美元,外加 10 亿美元。这是一个 24,000 个 GPU 集群,只是零钱。公平地说,特斯拉已经撼动了汽车行业,2023 年的销售额为 968 亿美元,其中 150 亿美元为净收入,现金为 291 亿美元。但即使在这个新行会时代,这也是一份荒谬的薪酬待遇。但是,马斯克有大事要做,他的董事会愿意牺牲特斯拉的现金,甚至更多,让他高兴。
这给我们带来了 xAI 巨大的计算、存储和网络需求。Grok-0 大型语言模型涵盖 330 亿个参数,在 xAI 成立几周后,于 2023 年 8 月进行了训练。Grok-1 具有用于提示的对话式 AI,涵盖 3140 亿个参数,于 2023 年 11 月上市,该模型于 2024 年 3 月开源,就在 Grok-1.5 模型问世前不久,与 Grok-1 相比,Grok-1 具有更大的上下文窗口和更好的认知测试平均成绩。
如您所见,与来自 Google、OpenAI 和 Anthropic 的竞争对手相比,Grok-1.5 稍微不那么智能。
即将推出的 Grok-2 模型将于 8 月推出,该模型原定在 24,000 个 Nvidia H100 GPU 上进行训练,据报道,该模型正在 Oracle 的云基础设施上进行训练。(Oracle 已经与 OpenAI 签署协议,让其吸收 xAI 未使用的任何 GPU 容量。)
马斯克在多条推文中表示,Grok 3 将于今年年底问世,需要 10 万个 Nvidia H100 GPU 集群进行训练,与 OpenAI 和微软正在研发的未来 GPT-5 模型不相上下。甲骨文和 xAI 曾试图就 GPU 容量达成协议,当三周前传闻与甲骨文达成的 100 亿美元 GPU 集群交易破裂时,马斯克迅速改变策略,在田纳西州孟菲斯南部的一家旧伊莱克斯工厂建造了一座“计算超级工厂”,以容纳自己的拥有 10 万个 GPU 的集群。如果你住在孟菲斯,事情会变得有点疯狂,因为 xAI 希望获得 150 兆瓦的电力。
据彭博社报道,目前工厂已分配 8 兆瓦电力,未来几个月内可能增加到 50 兆瓦。若要超过这个数字,则需要田纳西流域管理局提供大量文件。
顺便说一句,如果你在孟菲斯有一台大型超级计算机,你绝对不可能给它起任何昵称,除非它与猫王埃尔维斯·普雷斯利有关。在未来几年里,你可以用猫王的不同阶段来命名连续的机器。你可能想把这台机器命名为“猎犬”,这是猫王早期摇滚阶段的产物。不过,如果马斯克不能在 12 月之前获得全部 10 万台 H100 的配额(除非 Nvidia 愿意提供帮助,否则这似乎不太可能),那么它可能会被称为“伤心旅馆”。
上周,,马斯克发表了以下言论:
因此,它或许会被称为 SuperCluster,这与Meta Platforms 在购买而非自行开发 AI 训练机器时使用的术语相同。(我们更喜欢“猎犬”这个名字。)
我们认为 100,000 个 GPU 数量是一个愿望,也许到 12 月 xAI 只会有 25,000 个 GPU,在这种情况下它仍然能够训练非常大的模型。我们看到的一些报告表明,孟菲斯SuperCluster要到 2025 年晚些时候才会完全扩展,我们认为这是有可能的。
我们可以从 Supermicro 创始人兼首席执行官 Charles Liang 的 xitts 中推断出 Supermicro 正在构建 xAI 在孟菲斯数据中心部署的水冷机器:
目前尚不清楚服务器基础设施的具体信息,但我们强烈怀疑这台机器将基于八路 HGX GPU 板,并且将是 Supermicro 的机架式系统,其灵感来自 Nvidia 的 SuperPOD 设置,但有自己的工程调整和较低的价格。使用八路 HGX 板,总共可实现 12,500 个节点,后端网络中有 100,000 个 GPU 和 100,000 个端点,前端网络中有 12,500 个端点,用于访问集群中的数据和管理节点。
瞻博网络首席执行官拉米·拉希姆 (Rami Rahim) 也谈到了参与孟菲斯超级集群的情况:
如果你刚刚看到这些推文,你可能会得出结论,Juniper 以某种方式赢得了孟菲斯超级集群的网络交易,考虑到 Arista Networks 和 Nvidia 本身在 AI 集群网络方面的努力,这确实令人惊讶。我们还没有看到 Arista 关于这个系统的任何消息,但在 5 月 22 日,当 Nvidia 正在讨论其 2025 财年第一季度的财务业绩时,首席财务官 Colette Kress 说道:
“第一季度,我们开始交付全新 Spectrum-X 以太网网络解决方案,该解决方案针对 AI 进行了彻底优化。它包括我们的 Spectrum-4 交换机、BlueField-3 DPU 和新软件技术,以克服以太网 AI 的挑战,为 AI 处理提供比传统以太网高 1.6 倍的网络性能。
Spectrum-X 的销量正在不断增长,客户包括多个客户,其中包括一个拥有 100,000 个 GPU 的大型集群。Spectrum-X 为 Nvidia 网络开辟了一个全新的市场,并使仅使用以太网的数据中心能够容纳大规模 AI。我们预计 Spectrum-X 的产品线将在一年内跃升至数十亿美元。”
让我们面对现实吧,世界上目前没有那么多 100000 GPU 交易正在进行中,而且我们现在看到马斯克对该系统的评价,我们非常肯定 Nvidia 在 5 月份的声明中谈论的是孟菲斯超级集群。因此我们认为 Nvidia 拥有 Spectrum-X 设备的后端(或东西)网络部分,而 Juniper 拥有前端(或南北)网络。而 Arista 则表示没有。
我们还没有看到有关孟菲斯超级集群将使用何种存储的任何信息。它可能是基于 Supermicro 的闪存和磁盘混合的原始存储阵列,运行任意数量的文件系统,也可能是 Vast Data 或 Pure Storage 的全闪存阵列。如果你拿枪指着我们的头,我们会大胆地说 Vast Data 参与了这笔交易,获得了大量存储,但这只是基于该公司过去两年在 HPC 和 AI 领域大型存储阵列的发展势头的猜测。
参考链接
https://www.nextplatform.com/2024/07/30/so-who-is-building-that-100000-gpu-cluster-for-xai/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3843内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者