国际科技财经博客移民网络热点娱乐民生时事公众号

>

AI争霸战开启！OpenAI急建10万块GB200超算，马斯克10万块H100月末开训

AI争霸战开启！OpenAI急建10万块GB200超算，马斯克10万块H100月末开训

公众号新闻

2024-07-16 06:07

新智元报道

编辑：桃子

【新智元导读】马斯克官宣xAI建造的世界最大超算集群，由10万块H100搭建，预计本月末开始投入训练。另一边，OpenAI再次加码，将打造由10万块GB200组成的超算，完全碾压xAI。

为了抵达AGI，全世界的公司们准备要烧掉所有的GPU！

Information独家报道称，OpenAI的下一个超算集群，将由10万块GB200组成。

这可用上了英伟达迄今为止最强的AI芯片。

另一边，xAI也在打造号称「世界上最大超算集群」，由100k H100组成，并将在本月末投入训练。

在马斯克最新帖子中，针对报道——xAI与甲骨文终止服务器交易谈判，立即做出了回应。

他表示，xAI已经向甲骨文购买了24000块H100，并在这些芯片上训练的Grok 2。

Grok 2目前正在进行微调、错误修复，预计下个月准备就绪发布。

与此同时，xAI也在自行建设10万块H100搭建的集群，目标是实现最快的训练完成时间，计划本月晚些时候开始训模型。

这将成为世界上最强的训练集群，优势不言而喻。

我们决定自行建设10万块H100芯片系统，以及下一代主要系统的原因是，我们的核心竞争力取决于能否比其他AI公司更快。这是赶上竞争对手的唯一途径。

甲骨文是一家优秀的公司，还有另一家公司（暗指微软）在参与OpenAI的GB200集群项目中也表现出很大潜力。但是，当我们的命运取决于成为速度最快的公司时，我们必须亲自掌控，而不能只做一个旁观者。

简言之，在这个日新月异的时代下，想要超越竞争对手，必须确保有绝对的速度优势。

xAI甲骨文谈崩，百亿美元打水漂

今年5月，Information曾报道，xAI一直在讨论一项多年协议，即从甲骨文租用英伟达AI芯片。

这笔交易预计高达100亿美元，却因一些问题陷入僵局。

其中就包括，马斯克要求超算建造的速度，完全超越了甲骨文勺想象。还有甲骨文勺担心xAI首选地点没有足够的电力供应。

为了改变这一现状，只能依靠自力更生了。

现在，xAI在田纳西州孟菲斯市，正建起自己的AI数据中心，其中用到了Dell和Supermicro出货的英伟达芯片。

根据参与谈判的人士透露，甲骨文并没有参与这个项目。

其实，在此之前，xAI已经从甲骨文租用了许多英伟达芯片，成为这家云计算GPU供应商最大的客户之一。

尽管更广泛的谈判失败，但这项协议目前仍将继续。

从马斯克最新回应中，可以看出，甲骨文芯片数量已经从5月份的16000块增长到了24000块。

10万块H100串联

不过，马斯克依旧希望建造一台配备10万块英伟达GPU的超级计算机，将其称为「Gigafactory of Compute」。

他表示，xAI需要更多的芯片，来训练下一代AI模型——Grok 3.0。

老马在5月曾向投资者表示，希望在2025年秋季之前让这台超级计算机运行起来，而且他将个人负责按时交付超级计算机，因为这对于开发LLM至关重要。

他多次公开称，10万个H100组成的液冷训练集群，将在几个月后上线。

之所以Grok模型迭代至关重要，因其为X社交应用订阅套餐的一部分，起价为每月8美元，包含了各种功能。

就在上周，xAI还发布了马斯克和其他员工，在数据中心合照。照片后背景中，摆满了服务器。

虽然帖子中，并没有指明位置。但在6月的时候，Greater Memphis Chamber的主席表示，xAI正在孟菲斯的伊莱克斯工厂建造一台超算。

位于田纳西州孟菲斯的新xAI工厂的公用设施布局

戴尔公司CEO Micael Dell表示，戴尔正帮助xAI建立一个数据中心。

另外，Supermicro的CEO Charles Liang还曾发布了一张自己与马斯克在数据中心的合影，也证实这家公司和xAI的合作关系。

值得一提的是，上个月马斯克宣布xAI已经完成，惊人的60亿美元B轮融资，公司估值达到240亿美元。

B轮融资的投资者包括Andreessen Horowitz、红杉资本、Valor Equity Partners、Vy Capital和Fidelity Management&Research等8位投资者。

他个人表示，最新一轮融资中，大部分资金将投入到算力建设之中。

显然，xAI建设的超算项目，是其追赶OpenAI努力的一部分。

10万块GB200超算，两年租用50亿美金

其实，另一边，OpenAI也在马不停蹄地加速研发速度，不敢有一丝懈怠。

两位知情人士透露，甲骨文与微软的交易，涉及一个由10万块英伟达即将推出的GB200芯片组成的集群。

等这一超算建成之时，马斯克10万块H100也就不算什么了。

有网友对此惊叹道，集群中英伟达GB200芯片数量，大致相当于英特尔80286处理器中的晶体管数量我很惊讶在我的有生之年能看到这一幕。

还有人对此分析道，「GB200的训练性能将是H100的4倍」。

GPT-4是在90天内用25,000个A100（H100的前代产品）训练出来的。

所以理论上你可以用100,000个GB200在不到2天内训练出GPT-4，尽管这是在理想条件下，可能并不完全现实。

但这确实让人不禁想象，他们用这个超级计算机集群在90天内能训练出什么样的AI模型，而这个集群预计将在2025年第二季度投入运行。

在GTC 2024大会上，老黄曾介绍道，H100比A100要快4倍，B200比H100快3倍。

据熟悉GPU云定价的人士称，假设两家公司签署了一份多年期协议，那么租用这样一个集群的成本可能会在两年内达到50亿美元左右。

这一集群，预计在2025年第二季度准备就绪。

甲骨文将从英伟达购买芯片，然后租给微软，微软再把芯片提供给OpenAI。毕竟，这已经成为微软和OpenAI互利互惠一贯的做法了。

微软向OpenAI投钱，作为回报，获得OpenAI新模型的访问权。

根据参与规划的人士称，甲骨文计划将这些芯片放在德克萨斯州阿比林的一个数据中心。

这笔交易同时表明，微软自己还无法获得足够的英伟达芯片。

而且，云计算供应商之间相互租用服务器的情况，其实并不常见，但对英伟达芯片的强烈需求，才导致了这场不寻常的交易。

去年，微软曾与CoreWeave达成了类似的租用服务器协议，以增加英伟达服务器的容量。

参考资料：

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

特朗普重归X，马斯克1.6亿砸摇摆州，美国将陷入大分裂搭建100000 个 H100 的集群，需要哪些芯片？这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单继宝马后特斯拉即将大量召回汽车！2025财年H1B二轮抽签即将开启！从本周末开始！澳洲这里或开启“寒冬”模式！要去旅游的朋友们一定要注意...百亿量化 | 天演资本 Open Day 报名开启！均价300万美元？英伟达GH200超级芯片落地9个超算中心，每秒两百亿亿次flop 豪赌！哈佛辍学华人竟然发布了只支持Transformer一种算法的AI芯片，一张顶20张H100 ，比GB200快晚讯｜减肥药大战开启，国内药企追赶，至少有15种司美格鲁肽仿制药进入临床？3800万，中国大药企买了一条临床前管线传苹果正洽谈 Apple TV+ 入华；马斯克调整1万块 H100 给 xAI；瑞士公司研发生物活体处理器 | 极客早知道【深度】通向AGI的钥匙：10万H100超级AI算力集群 iOS18新功能曝光，马斯克确认今年没Modle Y改款，柔宇科技破产清算，微信输入法内测AI功能，这就是今天的其他大新闻！马斯克豪掷40亿购10万张H100训Grok 3！自曝Grok 2下月上线，巨额博弈剑指OpenAI 抢人大战开启！莱斯新增ED2轮次，想冲TOP30就盘它！多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」马斯克18岁儿子变女儿，“觉醒病毒”正在“杀死”美国青少年英伟达赢麻了！马斯克xAI超级算力工厂曝光，10万块H100、数十亿美元燃! OpenAI谷歌苹果AI争霸战再次打响! 对留学生的利好消息是...宁可亏大钱，马斯克都要灭了LGBT思想英伟达又涨了！“中国特供”B20芯片被曝，马斯克豪掷10万块H100训Grok，算力是GPT-4的四倍！马斯克19天建成世界最强AI集群！10万块H100「液冷怪兽」即将觉醒 10万块芯片，马斯克用最大超算挑战GPT 仅用19天，马斯克建成全球最强“超算工厂”！10万块H100 GPU上线，Grok 3预计年底发布奥特曼挂帅新团队，OpenAI新一代大模型开训，前任高管却「投敌」了苹果跟OpenAI搞一起，马斯克怎么就破防了？1.6万块H100训Llama 3.1，每3小时故障1次！罪魁祸首竟是GPU和HBM3显存财经早参丨孙志刚受审，被控受贿8.13亿元；乌方称已控制库尔斯克1097平方公里地区；买房送飞机礼包？楼盘销售人员回应买不到GPU，马斯克自曝AI巨兽Dojo！自研超算挑战英伟达，约等于8千块H100 “只有更快才有竞争力”！马斯克叫停与甲骨文的100亿美元谈判，拟自建“超算工厂”加速AI布局马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

热点事件追踪