Redian新闻
>
AI芯片成为耗电大户,负载功耗接近一个小国家

AI芯片成为耗电大户,负载功耗接近一个小国家

公众号新闻

来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。

如今,对人工智能的需求巨大。法国施耐德电气公司估计,2023年人工智能工作负载的功耗总计约为4.3吉瓦(GW),略低于塞浦路斯国家2021年的功耗( 4.7吉瓦)。该公司预计,人工智能工作负载的功耗将以26%至36%的复合年增长率(CAGR)增长,这意味着到2028年,人工智能工作负载的功耗将从13.5吉瓦增至20吉瓦,这比冰岛2021年消费的电力消耗还要多。


巨大的电力需求


据施耐德电气称,到 2023 年,所有数据中心的总功耗预计将达到 54 GW,其中人工智能工作负载将占到 4.3 GW。在这些人工智能工作负载中,训练和推理之间的分配特点是 20% 的功耗用于训练目的,80% 分配给推理任务。这意味着人工智能工作负载将占今年数据中心总功耗的约8%。


展望 2028 年,施耐德预计数据中心的总能耗将增至 90 吉瓦,其中人工智能工作负载的能耗将达到 13.5 吉瓦至 20 吉瓦。这表明,到 2028 年,人工智能可能消耗数据中心总用电量的 15% 至 20% 左右,这表明数据中心人工智能工作负载的功耗比例在五年内显着增加。根据施耐德电气的估计,训练和推理之间的分布预计将略有变化,训练消耗 15% 的电力,推理则占 85%。


AI GPU 变得更加“饥饿”


人工智能数据中心功耗不断上升的主要原因是人工智能工作负载的加剧、人工智能GPU和人工智能处理器的进步以及其他数据中心硬件的要求不断增加。例如,Nvidia 2020 年的 A100 功耗高达 400W,而 2022 年的 H100 功耗高达 700W。除了 GPU 之外,AI 服务器还运行耗电的 CPU 和网卡。


AI 工作负载,尤其是与训练相关的工作负载,需要大量计算资源,包括配备 AI GPU、专用 ASIC 或 CPU 的专用服务器。人工智能集群的规模受人工智能模型的复杂性和规模的影响,是功耗的主要决定因素。更大的人工智能模型需要更多数量的 GPU,从而增加总体能源需求。例如,拥有 22,000 个 H100 GPU 的集群使用大约 700 个机架。基于 H100 的机架在安装八台 HPE Cray XD670 GPU 加速服务器时,机架总密度为 80 kW。施耐德电气指出,因此,整个集群需要大约 31 兆瓦的电力,这还不包括冷却等额外基础设施需求所需的能源。


这些集群和 GPU 在整个训练过程中通常几乎满负荷运行,确保平均能耗几乎与峰值功耗相同。该文件指出,大量AI集群的机架密度在30kW到100kW之间,具体取决于GPU的数量和型号。


网络延迟在人工智能数据中心的功耗中也起着至关重要的作用。复杂的网络基础设施对于支持分布式训练过程中强大的 GPU 所需的高速数据通信至关重要。对高速网络电缆和基础设施(例如能够支持高达 800 Gb/s 速度的电缆和基础设施)的需求进一步增加了总体能耗。


鉴于人工智能工作负载需要高耗电的 ASIC、GPU、CPU、网卡和 SSD,冷却构成了重大挑战。鉴于高机架密度和计算过程中产生的巨大热量,有效的冷却解决方案对于保持最佳性能并防止硬件故障或失效至关重要。与此同时,空气和液体冷却方法在功耗方面也“昂贵”,这就是为什么它们也对用于人工智能工作负载的数据中心的功耗造成很大影响。


一些建议


施耐德电气预计AI硬件的功耗不会很快降低,公司充分预计AI机架的功耗将达到100kW或更高。因此,施耐德电气对专门处理人工智能工作负载的数据中心提出了一些建议。


施耐德电气特别建议从传统的120/208V过渡到240/415V配电,以更好地适应人工智能工作负载的高功率密度。对于冷却,建议从空气冷却转向液体冷却,以提高处理器的可靠性和能源效率,尽管沉浸式冷却可能会产生更好的效果。使用的货架应更宽敞,其规格例如宽度至少为 750 毫米,静态承重能力大于 1,800 公斤。


参考链接

https://www.tomshardware.com/news/power-consumption-of-ai-workloads-approaches-that-of-small-country-report

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3565期内容,欢迎关注。

推荐阅读


半导体产业,未来十年路线图

CXL,新蓝海!

半导体并购,从未止步


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
iPhone"低耗电模式"真省电? 实测结果好失望...华为首家完成5G蜂窝低功耗高精度定位关键技术验证;移动“破风”芯片上架淘宝|AIoT情报解密网络流量管理:深入了解负载均衡类型“茅台德芙巧克力”价格曝光!入门款1颗接近一杯酱香拿铁,你会买吗?“奶茶妹妹”现身马耳他带娃,西欧小国,为何成为中国富人的最爱千种黑五折扣更新!Canadian Tire戴森直减$100!Walmart电视小家电大特价!Costco手机计划特惠!奔驰纯电大G曝光:仰望U8最强对手来了?!机器人前沿:负载1吨与0.1毫米精度如何兼得?知存科技詹慕航:AI算力提升数百倍、功耗降低数十倍!加速存内计算芯片端到边应用丨GACS 2023Sara倩,女,中央广播电大,外贸SOHO,年入20W+,90年,高150,广州白云5G基站功耗等于一个灯泡!华为秀到了迪拜,背后是能源与5G双向奔赴大势小说:兰欣与乌茶 29一次流片成功率超过99%,芯片定制服务商灿芯股份即将上会冰山英特尔酷睿 Ultra 第 1 代处理器引入“低功耗能效核”,适用于轻型负载慢慢体悟生成式人工智能RocketMQ生产者负载均衡(轮询机制)核心原理锡金溃坝,印度是如何吞并这个小国的?这国宣布与以色列断交,大家一点都不吃惊?这个小国曾经干过更大的事!黑五全年最低价~星级大厨离不开的厨电大公开,立减$60!!大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?第十一章 现代社会经济体系的运作 (2)美国国税局启用AI工具抓逃漏税大户,已锁定1600名富翁、75家合伙企业……救亡图存是百十年来中国人的统一制服,九十几的资中筠,一百出头的杨绛都穿着它。就张爱玲穿旗袍。———兼复江天云月挑战英伟达H100霸权!IBM模拟人脑造神经网络芯片,效率提升14倍,破解AI模型耗电难题美国“脑计划”发布史上最大人类脑细胞图谱;AI耗电量可为40个普通美国家庭供电一年 | 环球科学要闻苹果亮出全球首个3nm PC芯片!920亿晶体管,功耗直接砍半?MBP换芯不换面美国国税局启用AI工具抓逃漏税大户,已锁定1600名富翁、75家合伙企业预计2024年量产,台积电3nm工艺天玑芯片成功流片抢走成龙、与董明珠对骂,广东家电大佬失联3nm天玑流片成功;比亚迪海豹DM-i发布;微信上线腾讯混元助手亚美尼亚:亚洲小国,为何是全球第一个信仰基督教的国家?一个小国,竞贡献了英伟达15%的营收?2023中国无线电大会在青岛开幕[电脑] 伪翻累死!轻负载零噪音主机搭建,DENG A4X 2.0 装机展示分享
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。