Redian新闻
>
英伟达、云厂商们也没有H100余粮了!未来全球顶级芯片缺口达40多万张

英伟达、云厂商们也没有H100余粮了!未来全球顶级芯片缺口达40多万张

公众号新闻


作者|冬梅、核子可乐
整个 AI 世界的运转,怎么就着落在英伟达身上了?

对人工智能的巨大需求也暴露了用于开发和部署人工智能模型的强大芯片的全球供应链的局限性。GPU 是一种关键的硬件,可帮助运行训练和部署人工智能算法所涉及的无数计算。行业分析师表示,持续的 GPU 紧缩已经影响了大大小小的企业,包括人工智能行业的一些领先平台,并且至少在一年或更长时间内可能不会出现有意义的改善。

AI 圈里,
苦 H100 GPU 久矣

OpenAI 联合创始人兼职科学家 Andrej Karpathy 近日发文称“目前硅谷最热门的八卦,就是谁谁又买了多少块 H100 GPU。”

特斯拉掌门人马斯克曾经向整个科技行业发出警告,称巨大的 GPU 危机即将来临。今年 4 月,马斯克曾发表推文说,“如今不管是人是狗,都在疯狂购买 GPU。”而巨大的需求,势必引发严重的供应短缺。时间快进到当下,每个人都想搞自己的 AI 产品和业务。面对这样一场声势浩大的 AI 洪流,即使是像英伟达这样的全球巨头也难以及时制造出充足的 GPU 货源。

市场对高性能 GPU(特别是英伟达 H100)的需求仍在猛增。截至 2023 年 8 月,科技行业正经受英伟达 H100 短缺的严重折磨。GPU 供应不足,正在对严重依赖其进行模型训练和推理任务的 AI 厂商造成重大影响。

微软最近的年度报告显示了人工智能芯片可能长期短缺的最新迹象。该报告首次将 GPU 的可用性确定为投资者可能会遇到的的风险因素。

微软写道:“我们将继续寻找和评估扩大数据中心位置和增加服务器容量的机会,以满足客户不断变化的需求,特别是考虑到对人工智能服务不断增长的需求。” “我们的数据中心取决于许可的可建设土地、可预测的能源、网络供应和服务器,包括 GPU 和其他组件。”

微软对 GPU 的认可凸显了计算能力的获取如何成为制约 AI 发展的关键因素。该问题直接影响正在构建人工智能工具和产品的公司,并间接影响希望将该技术应用于自己目的的企业和最终用户。

来自 OpenAI 公司的 Andrej Karpathy 表示,“目前硅谷最热门的八卦,就是谁谁又买了多少块 H100 GPU。”有趣的是,AWS Lambda CEO Stephen Balaban 也提到,“Lambda 将于今年年底之前上线数千块 H100——如果您需要 64 块或者更多的 H100,请提前私信预约。”没错,这宝贝现在就是这么紧俏。

包括 Quora 公司 CEO Adam D’Angelo 和 OpenAI 创始人 Sam Altman 在内的多位 AI 领导者,也都表达了自己对于 GPU 短缺问题的担忧。OpenAI 透露,GPU 供应不足阻碍了他们的短期计划,包括模型微调和划拨专用容量。也许这正是 OpenAI 目前拘囿于 GPT-4,无法进一步履行其大语言模型开发承诺的原因之一。

谁,需要多少?

不只是 AI 公司,其他几类组织也对 H100 GPU 有着迫切需求。其中既包括研究大语言模型的初创企业,也有 Azure、GCP 和 AWS 等云服务供应商(CSP),CoreWeave、Lambda 等大型私有云,以及马斯克的特斯拉等其他知名公司。说到马斯克,他自己已经抢先一步购买了数千块英伟达 GPU,给自己的 xAI 储备“战略物资”。面对这块人人抢夺的现状,马斯克甚至曾劝 Altman 买下 ai.com 域名来换取 GPU 资源。

据报道,GPT-4 的训练过程可能用到了约 1 万到 2.5 万块英伟达 A100。至于 GPT-5,马斯克估计可能需要 3 万到 5 万块 H100。2023 年 2 月,摩根士丹利预测 GPT-5 大概需要使用 2.5 万个 GPU。面对如此庞大的 GPU 需求,加之英伟达又是市场上唯一可靠的供应商,似乎整个 AI 世界的运转都着落在了这家显卡巨头身上。

根据最近一篇博文,OpenAI 预计需要约 5 万块 H100 GPU,Inflection AI 的采购计划则大致在 2.2 万块左右。Meta 的需求尚不明确,但有传言称他们可能需要约 2.5 万个 GPU,且实际上限甚至可能超过 10 万块。

目前硅谷最热门的八卦,就是谁谁又买了多少块 H100 GPU。近日,在 Twitter 上广为流传的一张“我们需要多少张 GPU”的图片引发了网友们热议。

包括 Azure、Google Cloud、AWS 和甲骨文在内,各大主要云服务供应商可能各自需要约 3 万个 GPU。AWS Lambda 和 CoreWeave 等私有云预计共需 10 万个 GPU。其他专注于 AI 业务的厂商,例如 Anthropic、Helsing、Mistral 和 Character 等,可能分别需要约 1 万个 GPU。

无法在云端按需获取 A100 了。

根据马斯克的说法,GPT-5 可能需要 3 万 -5 万张 H100。

值得注意的是,这些数字只是近似估值,云服务商及其最终客户间可能存在一些需求重合。综合来看,H100 GPU 的市场总需求可能在 43.2 万块左右,按每个 GPU 价格 3.5 万美元计算,意味着产品总价值高达 150 亿美元——没错,全部要被英伟达赚走。

此外,值得一提的是,上述估算还不包括字节跳动(TikTok)、百度和腾讯等中国公司。这些公司可能对 H800 这款专为中国市场设计的 GPU 同样有着大量需求。

尽管前景充满不确定性,但业界仍希望随着供应增加和 GPU 技术的进步,最终逐步缓解短缺问题。例如,英伟达一直在谈论发布 A800——号称能在 AI 模型构建方面提供同样的算力,只是目前还没有可靠的实证。而在需求缺口得到填补之前,AI 公司只能探索其他替代性 GPU 选项,并借助合作伙伴关系来应对这段充满挑战的时期。毕竟 AI 热度如此之高,该做的工作也还是得做。

GPU 稀缺性已成新的护城河

令事态雪上加霜的是,业界专家担心当前 GPU 稀缺性可能引发自我强化的循环。换言之,这种稀缺性本身成为新的护城河,增强各方囤积 GPU 资源的心理、进一步加剧资源不足。也许这就是马斯克当初囤积 GPU 的原因所在。下一代 H100 继任者预计要到 2024 年底才会推出,这漫长的一年半将反复折磨用户们脆弱的神经。

2010 年,我们使用黄仁勋的英伟达 GPU,证明无需任何无监督预训练,即可通过简单的反向传播实现对深度前馈网络的训练。2011 年,我们的 DanNet 成为首个超级卷积神经网络。而到如今,计算成本降低到当初的百分之一,但英伟达公司的市值则涨了 100 多倍……

获取 H100 已经成为 AI 公司面临的重大难题,也开始阻碍他们的正常运营,导致产品发布和模型训练纷纷出现延迟。AI 热潮带来的对算力前所未有的需求也在加剧这种情况,导致 GPU 制造中使用的各种基本组件均告短缺。

英伟达一直在支持全球几乎所有 AI 初创公司,而且似乎在为初创公司提供资助,帮助他们建立业务并购买 GPU。如今的英伟达已经在 GPU 市场上建立起垄断地位,而其他参与方也不得不抱紧这条大腿。于是乎,满足市场需求的责任将无人分担,只能着落在英伟达自己身上。

但 GPU 的制造涉及复杂的工艺流程,需要各种关键组件。内存、互连速度(例如 InfiniBand)、缓存和缓存延迟等因素,在 GPU 的实际性能表现上起着至关重要的作用。其中任何一种组件的短缺,都有可能导致 GPU 生产延迟、进而引发整体供应不足。

参考链接:

https://analyticsindiamag.com/why-the-ai-world-is-looking-up-to-nvidia/

https://edition.cnn.com/2023/08/06/tech/ai-chips-supply-chain/index.html

活动推荐

以「启航·AIGC 软件工程变革」为主题的 QCon 全球软件开发大会·北京站将于 9 月 3-5 日在北京•富力万丽酒店举办,此次大会策划了从 BI 到 BI+AI,新计算范式下的大数据平台、AIGC 浪潮下的研发效能提升、面向 AI 的存储、大前端融合提效、大模型应用落地、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近 30 个精彩专题。

现在购票即可享受 9 折优惠,立减 ¥880。咨询购票可联系票务经理 18514549229(微信同手机号)。

点击「阅读原文」即可查看全部专题,期待与各位开发者现场交流。  

今日荐文

英伟达挖走小鹏自动驾驶负责人;爱奇艺被曝VR业务停摆、全员欠薪;室温超导新进展:韩国学会称LK-99并非超导体 | AI一周资讯


GitHub工程师分享开发Copilot所采用的提示词工程


顶级黑客组织出手,将推出新的反数据收集开源框架Veilid:用Rust编写,已有10万行代码


解锁 Serverless 新进展:与 AIGC 结合会有哪些搞头?


大模型时代的程序员:不会用AIGC编程,未来5年将被淘汰?


日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!



你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%英伟达H100的唯一替代芯片?MLPerf认证!不止台积电,他们也拿下英伟达芯片订单英伟达H100供给缺口:43万张!好人难做地主家没余粮了,老钱风变烤肉风基金公司“心酸要账”实录:为了200多万年息,“搭”进去2400多万黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】大降价!多伦多这套房产比去年便宜 100多万! 房主还花了10多万装修碾压H100,英伟达下一代GPU曝光!首个3nm多芯片模块设计,2024年亮相英伟达发布新一代超级芯片平台/苹果能在芯片上省数十亿美元/华为系统云翻新功能上线黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片苹果将在iPhone芯片上省数十亿美元/英伟达推出AI超级芯片/万达回应副总裁被带走调查英伟达L40S GPU架构及A100、H100对比韩厂通知手机大厂NAND Flash缺口达20%,诱逼接受新一轮涨价英伟达最强芯片性能公布,比H100高17%年度最绝融资:拿英伟达H100抵押贷款165亿,买更多英伟达GPU扩建10个数据中心被控受贿1200多万,其中1000万“未遂”!年薪曾达600多万的金融圈大佬,为20年贪欲付出惨重代价GPT-5出世,需5万张H100!全球H100总需求43万张, 英伟达GPU陷短缺风暴代工一颗英伟达H100,台积电挣1000美金AI工程师或成未来世界大热职业,岗位缺口达230万!人工智能将成美国未来顶流专业英伟达H100所获利润高达1000%!亚太将主导全球汽车传感器;微软Meta均在挑战OpenAI地位 | AIoT情报英伟达生成式AI超级芯片GH200,两倍H100算力,黄仁勋:它会疯狂推理2.2万张H100造全球最大超算,ChatGPT劲敌融资13亿美元!微软英伟达领投,Inflection一年撼动OpenAI霸权万达高级副总裁涉贪腐被带走调查;英伟达推出新一代超级芯片平台;碧桂园否认存在逾期未交付情况丨邦早报挑战英伟达H100霸权!IBM模拟人脑造神经网络芯片,效率提升14倍,破解AI模型耗电难题T-,小藤级每个人都有犯错误的时候篝火与诗,最是难凉美国工厂很缺人:缺口达80万人,年薪90万元招不到建筑工报名最后一天!全球汽车芯片创新峰会下周举行,解构车规级芯片国产替代全球GPU缺口超40万张!算力之困,中国大模型有解了如日中天的英伟达,下一个目标是抢走云厂商的生意?浅谈德国医院和医生微软英伟达领投,2万张H100打造全球最强超算!一跃成为OpenAI最强劲敌!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。