Elon Musk公布基于自研芯片的集群,约等于8000个H100
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。
刚刚启动了孟菲斯超级集群(号称是“世界上最强大的人工智能集群”)的埃隆·马斯克现在分享了使用自己开发的 Dojo 人工智能加速器的超级计算机集群的图片。他还在特斯拉财报电话会议上宣布,由于 Nvidia 的 GPU 价格昂贵,他将加倍投入 Dojo 的开发和部署。
除了在田纳西州开设 xAI 工厂(该工厂的目标是在单一架构上安装 100,000 个 Nvidia H100 GPU)之外,马斯克还表示,他将在年底前让 Dojo D1 投入运行。正如马斯克所说,它的处理能力将相当于 8,000 个 Nvidia H100 芯片,这“不算庞大,但也不算小事”。
马斯克于 2021 年首次推出 Dojo D1 芯片,性能目标为 322 TeraFLOP。随后,去年 8 月,特斯拉被发现正在招聘数据中心高级工程项目经理,这通常是任何组织在规划自己的数据中心时要采取的第一步。特斯拉还在次月将 Dojo D1 的订单量翻了一番,这表明它对其性能充满信心。
据报道,到 2024 年 5 月,Dojo 处理器已投入量产。现在,Dojo 芯片似乎已经进入美国并到达 Elon 的手中,昨天他在数据中心分享了 Dojo 超级计算机的照片。
Dojo 芯片是具有 5×5 阵列的晶圆系统处理器。这意味着其 25 个超高性能芯片使用台积电的集成扇出 (InFO) 技术互连,因此它们可以充当单个处理器,并且比类似的多处理器机器更高效地运行。
台积电为特斯拉生产 Dojo 芯片,马斯克将与由 Nvidia 提供支持的孟菲斯超级集群一起运行这些芯片。然而,虽然田纳西州的工厂归 xAI 所有,主要用于训练 Grok,但 Dojo 芯片更适合人工智能机器学习和视频训练,尤其是因为它们将用于根据从特斯拉汽车收集的视频数据训练特斯拉的全自动驾驶技术。
当马斯克把他手头上的所有芯片加在一起时,他表示到2024年底,他将拥有9万块Nvidia H100芯片、4万块Nvidia AI4和Dojo D1晶圆。如此强大的算力,可见这位亿万富翁在人工智能领域投入了多少精力和资源。
全球最强的AI集群
日前,科技巨头埃隆·马斯克在 Twitter/X 上宣称,他已经启动了“世界上最强大的人工智能训练集群”,他将利用该集群打造自称“今年 12 月前,按各指标衡量,世界上最强大的人工智能”。今天,xAI 的孟菲斯超级集群开始使用 100,000 个液冷 Nvidia H100 GPU 进行人工智能训练,这些 GPU 通过单个 RDMA(远程直接内存访问)结构连接。
马斯克是否亲自按下开关来启动超级集群似乎不太可能,因为值得注意的是,它在美国中部夏令时间凌晨 4 点 20 分开始了这项艰巨的任务,但正如你在上图看到的,他确实帮助了光纤技术人员。
5 月份,我们报道了马斯克计划在 2025 年秋季之前开设超级计算工厂的雄心。当时,马斯克急于开始超级集群的开发,因此必须购买当前一代的“Hopper”H100 GPU。这似乎表明这位科技巨头没有耐心等待H200 芯片的推出,更不用说即将推出的基于 Blackwell 的 B100 和 B200 GPU。尽管人们预计较新的 Nvidia Blackwell 数据中心 GPU 将在 2024 年底之前发货,但情况仍然如此。
那么,如果超级计算工厂预计将于 2025 年秋季开业,那么今天的新闻是否意味着该项目提前一年实现?确实可能提前了,但更有可能的是,今年早些时候接受路透社和 The Information 采访的消息人士在项目时间方面说错了话或被错误引用了。此外,随着 xAI 孟菲斯超级集群已经启动并运行,关于 xAI 为什么不等待更强大或下一代 GPU 的问题得到了解答。
超微提供了大部分硬件,该公司首席执行官也在马斯克的帖子下发表评论,称赞该团队的执行力。此前,梁最近对马斯克的液冷 AI 数据中心大加赞赏。
在后续推文中,马斯克解释说,新的超级集群将“训练世界上所有指标中最强大的人工智能”。从之前的意向声明中,我们假设 xAI 的 100,000 个 H100 GPU 安装的功能现在将用于 Grok 3 训练。马斯克表示,改进后的 LLM 应该“在今年 12 月”完成训练阶段。
如果要将孟菲斯超级集群的计算资源放在某种背景下来看,当然,从规模上看,新的 xAI 孟菲斯超级集群在 GPU 马力方面轻松超越了最新 Top500 榜单上的任何一台超级计算机。世界上最强大的超级计算机,如 Frontier(37,888 个 AMD GPU)、Aurora(60,000 个 Intel GPU)和Microsoft Eagle(14,400 个 Nvidia H100 GPU),似乎都远远落后于 xAI 机器。
参考链接
https://www.tomshardware.com/tech-industry/artificial-intelligence/elon-musk-reveals-photos-of-dojo-d1-supercomputer-cluster-roughly-equivalent-to-8000-nvidia-h100-gpus-for-ai-training
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3837内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者