Redian新闻
>
GPU用得太多了,数据中心碰到大麻烦

GPU用得太多了,数据中心碰到大麻烦

公众号新闻

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。


GenAI GPU Squeeze的直接影响是降低可用性(无论是直接购买还是云访问)、增加成本并推动需求激增。


过去几年来,一个次要问题一直在发展。即使您的组织使用 GPU 保护了多个机架,您将如何为它们供电以及将它们放置在哪里?


例如,许多大学此前已在其校园数据中心放置了新设备。许多数据中心现在已经“耗尽”,没有更多的空间或电力。当前“GPU 机架”的估计范围为每个机架 50 至 100 KW(千瓦)(之前“CPU 机架”的估计为每个机架 10-17 KW)。如果你想共置 4 个 GPU 机架,那么能够提供 400 千瓦电力的数据中心可能很难找到。


这同样适用于提供 HPC 托管服务的小型公司。他们发现当前的数据中心已经耗尽,必须寻找空间和电力。这些公司是非超大规模企业,无法支撑整个数据中心园区。


JLL公司最近发布的一份报告《Data Centers 2024 Global Outlook》分享了一些有趣的趋势。该报告探讨了数据中心需要如何设计、运营和采购,以满足全球经济不断变化的需求,特别是 GPU 密集型 GenAI 集群所需的功率增加。


人工智能推动的增长预计将持续到不久的将来。预计消费者和企业在未来五年内生成的数据量将是过去十年创建的所有数据的两倍。


除了GPU计算需求外,GenAI的需求不断增长,数据中心存储容量预计将从2023年的10.1 ZB增长到2027年的21.0 ZB,五年复合增长率为18.5%。存储容量的增加将产生对更多数据中心的需求,而生成人工智能的更大能源需求(每个园区 300 至 500 多兆瓦)也将需要更节能的设计和位置。对更多电力的需求将要求数据中心运营商提高效率并与地方政府合作寻找可持续能源来支持数据中心的需求。


报告称,人工智能专用数据中心看起来与传统设施不同,可能需要运营商根据处理的数据类型或 GenAI 开发阶段来规划、设计和分配电力资源。在散热方面,GPU 的大幅增加将超过当前标准。在典型的数据中心中,空气冷却通常占数据中心平均用电量的大约 40%。用户,特别是超大规模企业和运营商,正在从传统的空气冷却方法转向液体冷却和后门热交换器。案例研究表明,液体冷却可显著降低功耗,高达 90%,同时提高性能并允许更密集的系统,从而增加机架功耗。


超大规模企业一直处于采用人工智能和高性能计算 (HPC) 的最前沿,对高密度基础设施的需求最大。目前,他们的大型设施的平均密度预计为每机架 36kW,随着液体冷却密度和 GPU 硬件的增加,IDC 预计未来几年复合年增长率将达到 7.8%,到 2027 年每机架密度将接近 50kW。


来源:仲量联行 数据中心2024全球展望


在采访 JLL 美国数据中心市场董事总经理 Andy Cvengros 时, HPCwire 了解到数据中心部署面临的许多问题。


他建议的第一个也是最重要的问题是规划。例如,Cvengros 提到,随着电网的有效利用和变压器的交付时间超过 三年,运营商将需要进行创新。 


GPU 的挤压正在数据中心层面上进行,其中 4-5 个机架的小型托管部署将很难找到数据中心,因为超大规模企业正在请求整个数据中心园区。


Cvengros 表示,所有主要都市区基本上都已经闲置,而内华达州里诺或俄亥俄州哥伦布等次要地区现在是新数据中心建设的黄金地段。预计需求将持续下去,新的数据中心预计需要 3.5 年才能建成。他重申,“计划是关键。”


他建议与一家专门为小型 HPC GPU 集群托管提供高性能系统的公司合作(即完全耗尽电力和空间的大学)。根据他的经验,数据中心提供商必须积极跟踪全球机会的使用情况和可用性,以提供任何近期托管功能。


数据中心挑战是一个全球性问题


仲量联行报告还列出了全球范围内为解决用电量增加问题所需的关键变革。


  • 在欧洲,三分之一的电网基础设施已有 40 多年的历史,到 2030 年估计需要 5840 亿欧元的投资才能实现欧盟的绿色目标。

  • 在美国,要实现升级电网并为电力供应提供更多可再生能源的能源转型目标,估计需要 2 万亿美元。

  • 数据中心的快速增长也给许多国家有限的能源带来了压力。例如,在新加坡,政府颁布了暂停令,暂时停止某些地区的建设,以仔细审查新的数据中心提案并确保符合该国的可持续发展目标。


全球 GenAI 能源“要求”为数据中心行业带来了机遇和挑战。GenAI 需要的电力规模是前所未有的。为 HPC 找到 GPU 只是问题的一半;在哪里插入它们可能会成为一个更大的挑战。



点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3664期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
互联网行业的从业者太多了,得裁揭秘EQDS:AI时代数据中心的新宠AI狂飙时代,数据中心的角色与使命冲上热搜第一,中产的大麻烦苹果、AMD和高通GPU被爆存在漏洞!只需十行代码即可窃取数据,数百万台苹果设备或将受到影响大麻烦!华人飞往多伦多航班紧急取消:大批乘客滞留超24h!数据中心:CPU空间巨大,国内厂商份额却极低英伟达首次透露:上季度 180 亿美元数据中心收入,AI 推理已高达四成火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型Gemini台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!KKR和华平在AI与云热潮下进军亚洲数据中心不麻烦了!COSTCO同步折扣跨境直买,从此海淘不麻烦亲朋好友,说买就买了!新的AI模型,将GPU用量降低100倍人工智能和加密挖矿业务导致数据中心能耗快速增加突发!美国拟限制中国公司使用其云数据中心训练AI模型;TikTok、英雄联盟开发商裁员;哄哄模拟器爆火 | AI周报AMD推出锐龙8040系列APU,采用Zen4 CPU+RDNA3 GPU清华女博士这页PPT,图表太多了,但简约!数据中心芯片,英特尔能王者归来吗?历史车轮大提速,百年会有王者兴孩子有这种表现,暗示他的内心碰上了过不去的坎儿英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200芒格走后,巴菲特遇到的第一个大麻烦:与亿万富翁家族对簿公堂78、长篇民国小说《永泰里》第十六章 生死一线(2)摩根士丹利:AI数据中心就是“吞铜兽”,今年铜价或再涨18%耗资 2.2 亿美元的数据中心项目落户北沃斯堡2700万!本周四,澳洲的大麻烦来了!《十七帖》读议(四)6063 血壮山河之随枣会战 第三章 173.8送礼,几百块买包,买不到大牌,但可以买到大牌品质!大麻合法发家致富!20岁大温妹子开大麻店赚百万,一棵能赚一个gucci包!芯片巨头,决战数据中心割得太多了?微软或将在Win11推出Copilot文件分析功能;贾斯汀·霍塔德将出任英特尔数据中心与AI事业部负责人丨AIGC日报教育;学习;评价标准;相信未来39 项 Linux 基准测试:英伟达数据中心 CPU Grace 媲美 Threadripper 7000
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。