Elon Musk的100000 个 GPU集群

2024-07-31 01:07

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自nextplatform，谢谢。

埃隆·马斯克控制的公司——SpaceX、特斯拉、xAI和X（前身为Twitter）——都需要大量的GPU，而且都是用于他们自己的特定AI或HPC项目。问题是，没有足够的GPU来满足他们各自的野心。因此，马斯克必须优先考虑他能得到的GPU的去向。

早在 2015 年，马斯克就是 OpenAI 的联合创始人。在经历了 2018 年的一场权力斗争之后（我们认为这场斗争与推动 AI 模型所需的巨额投资以及这些 AI 模型的治理有很大关系），马斯克离开了 OpenAI，为微软打开了大门，让微软带着巨额资金进入该领域。看到 OpenAI 已成为生产级生成 AI 的主导力量，马斯克于 2023 年 3 月迅速成立了 xAI，从那时起，这家初创公司一直在努力筹集资金并寻找 GPU 分配，以建立具有竞争力的基础设施，与 OpenAI/Microsoft、Google、Amazon Web Services、Anthropic 等公司竞争。

获得钱是比较容易的部分。

5 月底，Andreessen Horowitz、Sequoia Capital、Fidelity Management、Lightspeed Venture Partners、Tribe Capital、Valor Equity Partners、Vy Capital 和 Kingdom Holding（沙特王室控股公司）都为 xAI 投入了 60 亿美元的 B 轮融资，使其总融资额达到 64 亿美元。这是一个好的开始，幸运的是，马斯克从特斯拉获得了 450 亿美元的薪酬待遇，因此他可以随时增加 xAI GPU 资金。（他可能明智地将其中一部分资金留作特斯拉、X 和 SpaceX 的 GPU 分配。）

某种程度上，特斯拉将一次性支付马斯克 2022 年 4 月收购 X 所需的 440 亿美元，外加 10 亿美元。这是一个 24,000 个 GPU 集群，只是零钱。公平地说，特斯拉已经撼动了汽车行业，2023 年的销售额为 968 亿美元，其中 150 亿美元为净收入，现金为 291 亿美元。但即使在这个新行会时代，这也是一份荒谬的薪酬待遇。但是，马斯克有大事要做，他的董事会愿意牺牲特斯拉的现金，甚至更多，让他高兴。

这给我们带来了 xAI 巨大的计算、存储和网络需求。Grok-0 大型语言模型涵盖 330 亿个参数，在 xAI 成立几周后，于 2023 年 8 月进行了训练。Grok-1 具有用于提示的对话式 AI，涵盖 3140 亿个参数，于 2023 年 11 月上市，该模型于 2024 年 3 月开源，就在 Grok-1.5 模型问世前不久，与 Grok-1 相比，Grok-1 具有更大的上下文窗口和更好的认知测试平均成绩。

如您所见，与来自 Google、OpenAI 和 Anthropic 的竞争对手相比，Grok-1.5 稍微不那么智能。

即将推出的 Grok-2 模型将于 8 月推出，该模型原定在 24,000 个 Nvidia H100 GPU 上进行训练，据报道，该模型正在 Oracle 的云基础设施上进行训练。（Oracle 已经与 OpenAI 签署协议，让其吸收 xAI 未使用的任何 GPU 容量。）

马斯克在多条推文中表示，Grok 3 将于今年年底问世，需要 10 万个 Nvidia H100 GPU 集群进行训练，与 OpenAI 和微软正在研发的未来 GPT-5 模型不相上下。甲骨文和 xAI 曾试图就 GPU 容量达成协议，当三周前传闻与甲骨文达成的 100 亿美元 GPU 集群交易破裂时，马斯克迅速改变策略，在田纳西州孟菲斯南部的一家旧伊莱克斯工厂建造了一座“计算超级工厂”，以容纳自己的拥有 10 万个 GPU 的集群。如果你住在孟菲斯，事情会变得有点疯狂，因为 xAI 希望获得 150 兆瓦的电力。

据彭博社报道，目前工厂已分配 8 兆瓦电力，未来几个月内可能增加到 50 兆瓦。若要超过这个数字，则需要田纳西流域管理局提供大量文件。

顺便说一句，如果你在孟菲斯有一台大型超级计算机，你绝对不可能给它起任何昵称，除非它与猫王埃尔维斯·普雷斯利有关。在未来几年里，你可以用猫王的不同阶段来命名连续的机器。你可能想把这台机器命名为“猎犬”，这是猫王早期摇滚阶段的产物。不过，如果马斯克不能在 12 月之前获得全部 10 万台 H100 的配额（除非 Nvidia 愿意提供帮助，否则这似乎不太可能），那么它可能会被称为“伤心旅馆”。

上周，，马斯克发表了以下言论：

因此，它或许会被称为 SuperCluster，这与Meta Platforms 在购买而非自行开发 AI 训练机器时使用的术语相同。（我们更喜欢“猎犬”这个名字。）

我们认为 100,000 个 GPU 数量是一个愿望，也许到 12 月 xAI 只会有 25,000 个 GPU，在这种情况下它仍然能够训练非常大的模型。我们看到的一些报告表明，孟菲斯SuperCluster要到 2025 年晚些时候才会完全扩展，我们认为这是有可能的。

我们可以从 Supermicro 创始人兼首席执行官 Charles Liang 的 xitts 中推断出 Supermicro 正在构建 xAI 在孟菲斯数据中心部署的水冷机器：

目前尚不清楚服务器基础设施的具体信息，但我们强烈怀疑这台机器将基于八路 HGX GPU 板，并且将是 Supermicro 的机架式系统，其灵感来自 Nvidia 的 SuperPOD 设置，但有自己的工程调整和较低的价格。使用八路 HGX 板，总共可实现 12,500 个节点，后端网络中有 100,000 个 GPU 和 100,000 个端点，前端网络中有 12,500 个端点，用于访问集群中的数据和管理节点。

瞻博网络首席执行官拉米·拉希姆 (Rami Rahim) 也谈到了参与孟菲斯超级集群的情况：

如果你刚刚看到这些推文，你可能会得出结论，Juniper 以某种方式赢得了孟菲斯超级集群的网络交易，考虑到 Arista Networks 和 Nvidia 本身在 AI 集群网络方面的努力，这确实令人惊讶。我们还没有看到 Arista 关于这个系统的任何消息，但在 5 月 22 日，当 Nvidia 正在讨论其 2025 财年第一季度的财务业绩时，首席财务官 Colette Kress 说道：

“第一季度，我们开始交付全新 Spectrum-X 以太网网络解决方案，该解决方案针对 AI 进行了彻底优化。它包括我们的 Spectrum-4 交换机、BlueField-3 DPU 和新软件技术，以克服以太网 AI 的挑战，为 AI 处理提供比传统以太网高 1.6 倍的网络性能。

Spectrum-X 的销量正在不断增长，客户包括多个客户，其中包括一个拥有 100,000 个 GPU 的大型集群。Spectrum-X 为 Nvidia 网络开辟了一个全新的市场，并使仅使用以太网的数据中心能够容纳大规模 AI。我们预计 Spectrum-X 的产品线将在一年内跃升至数十亿美元。”

让我们面对现实吧，世界上目前没有那么多 100000 GPU 交易正在进行中，而且我们现在看到马斯克对该系统的评价，我们非常肯定 Nvidia 在 5 月份的声明中谈论的是孟菲斯超级集群。因此我们认为 Nvidia 拥有 Spectrum-X 设备的后端（或东西）网络部分，而 Juniper 拥有前端（或南北）网络。而 Arista 则表示没有。

我们还没有看到有关孟菲斯超级集群将使用何种存储的任何信息。它可能是基于 Supermicro 的闪存和磁盘混合的原始存储阵列，运行任意数量的文件系统，也可能是 Vast Data 或 Pure Storage 的全闪存阵列。如果你拿枪指着我们的头，我们会大胆地说 Vast Data 参与了这笔交易，获得了大量存储，但这只是基于该公司过去两年在 HPC 和 AI 领域大型存储阵列的发展势头的猜测。

参考链接

https://www.nextplatform.com/2024/07/30/so-who-is-building-that-100000-gpu-cluster-for-xai/

点这里👆加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。