人工智能芯片,太耗电了
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。
生成式人工智能将消耗全球更大一部分电力,以满足运行应用程序所需的大量硬件需求。半导体研究公司 TechInsights 在上个月的一份研究报告中表示:“未来五年,人工智能芯片将占全球用电量的 1.5%,占全球能源的很大一部分。”
TechInsights 对 2025 年至 2029 年期间全球电力消耗总量为 153,000 TWh 进行了基准测量,数据来源于美国能源信息署。
该研究公司估计,人工智能加速器将在同一时间段内消耗全球 2318 TWh 的电力,占全球电力消耗的 1.5%。
该测量基于每块 GPU 使用 700W 的功率,这是 Nvidia 旗舰 Hopper GPU 的功耗。Nvidia 即将推出的 GPU 名为 Blackwell,速度更快,但功耗为 1,200W。
TechInsights 的假设仅包括芯片消耗的电量,不包括用于生成 AI 的存储、内存、网络和其他组件的测量。
TechInsights 分析师欧文·罗杰斯 (Owen Rogers) 在一份研究报告中表示:“考虑到对 GPU 容量的巨大需求,以及需要投入这些昂贵资产才能带来回报,如此高的利用率是可行的。”
绿色还是非绿色?
麦肯锡人工智能调查显示,65% 的受访者打算采用生成式人工智能。
为了满足需求,云提供商和超大规模企业正在投资数十亿美元来扩大 GPU 容量。微软依靠 Nvidia GPU 来运行其 AI 基础设施,而 Meta 将拥有一个相当于“近 600,000 个 H100”GPU 的计算环境,该公司表示。
据 TechInsights 称,2023 年 Nvidia 的 GPU 出货量约为 376 万块,高于 2022 年的约 260 万块。
去年,Gartner 对电力消耗做出了更为激进的预测,称人工智能“可能消耗全球 3.5% 的电力”。Gartner 的方法尚不明确,但可能包括网络、存储和内存。
人工智能竞赛的特点是企业提供最快的基础设施和更好的结果。在商业领域实施人工智能的热潮已经扰乱了长期以来的企业可持续发展计划。
微软、谷歌和亚马逊正在斥资数十亿美元建设配备 GPU 和 AI 芯片的大型数据中心来训练和服务更大的模型,这增加了电力负担。
成本挑战
罗杰斯在研究报告中指出,虽然服务器的采购价格为2万美元,但企业需要考虑不断增长的电力成本以及电网面临的挑战。
数据中心的设计也需要满足人工智能的电力需求。这一需求可能取决于电网容量和备用电源容量的可用性。
能源供应商也有责任为人工智能时代做好准备,建立电力基础设施,包括发电站、太阳能发电场和输电线路。
“如果需求无法满足,能源供应商将采取市场化方式管理产能——即提高价格以减少消耗——而不是削减产能。同样,这可能会给人工智能技术的用户带来成本影响,”罗杰斯说。
美国政府的首要目标是到 2035 年实现 100% 清洁能源,这将减轻电网负担。这也将为更多 AI 数据中心打开大门。
能源的有效利用
人工智能消耗的电力反映了加密货币挖矿给电网带来负担的早期趋势。根据美国能源信息署2 月份发布的一份报告,加密货币挖矿约占美国电力消耗的 2.3%。
然而,能源行业观察人士一致认为,与比特币挖矿相比,人工智能可以更高效地利用能源。
Nvidia 的 AI 重点还在于高效能源利用。为了降低功耗,Nvidia 的 GPU 采用了自己的芯片技术。该公司正在将 Hopper 上的空气冷却改为液体冷却。
Nvidia 超大规模和 HPC 计算业务副总裁兼总经理 Ian Buck 在上个月的一次投资者活动中表示:“这里的机会是帮助他们通过固定兆瓦数据中心以尽可能低的成本获得最大性能。”
HPC 提供商、AI 和可持续性
最近举行的 ISC 24 超级计算会议的小组成员嘲笑 Nvidia,声称其 1000 瓦 GPU 是“可持续的”。
政府实验室还表示,过去 GPU 和直接液体冷却比 CPU 提供了更好的性能扩展。
劳伦斯利弗莫尔国家实验室正在建造即将问世的 2 百亿亿次浮点超级计算机 El Capitan,它将冷却压力增加到 28,000 吨,另外还增加了 18,000 吨,并将当前和未来系统的电源提高到 85 兆瓦。
LLNL 首席技术官 Bronis de Supinski 在分组讨论会上表示:“El Capitan 核电站的发电量将低于 40 兆瓦,大约为 30 兆瓦,但这已经是很大的电能了。”
他承认 El Capitan 超级计算机可能不被认为是环保的,但也应该关注在性能和功率范围内取得的成果。例如,如果超级计算机解决了气候问题,那么它所消耗的能量可能是值得的。
“一台 30 兆瓦的超级计算机?我不会告诉你这是一种可持续资源,但它可以大大解决我们想要解决的社会问题,”德苏宾斯基说。
实验室也在转向可再生能源和液体冷却。例如,液体冷却“可节省约 50% 的冷却能源”,LRZ 主席 Dieter Kranzlmüller 在 ISC 24 会议上表示。
可持续计算环境也在考虑碳补偿、捕获和再利用废热、以及再利用材料。
HPC 过去驱动未来
目前,人们正在努力提高超级计算机的能源效率,以便更好地利用人工智能处理所消耗的每一瓦电能。
在上个月的 HPE Discover 大会上,首席执行官 Antonio Neri 表示,公司正在将 Frontier 和 El Capitan 中使用的节能技术移植到搭载 Nvidia GPU 的 AI 系统中。
“HPE 拥有全球最大的水冷制造能力之一。为什么?因为我们必须为超级计算机制造它,”Neri 说。
同样登台的 Nvidia 首席执行官黄仁勋打趣道:“液体冷却的未来将带来更好的性能、更低的基础设施成本和更低的运营成本。”
卸载AI
消费设备制造商正在大力推广配备神经芯片的 PC 和移动设备,以实现设备上的 AI。神经芯片可以在本地运行 AI 模型,从而减轻云端 GPU 的压力。
苹果提供了其设备和云端 AI 战略的完整愿景——如果 iPhone 或 Mac 确定某项 AI 任务无法在设备上完成,它会将查询重新路由到苹果数据中心的云服务器。
苹果用户还可以选择在设备上运行 AI 还是通过云端运行 AI。
微软鼓励在 Windows 设备中使用 AI 芯片。高通的 AI Hub 允许用户运行基准测试,以了解 AI 模型在设备上的运行情况。这让用户可以决定是在设备上还是在云端运行推理。
然而,目前还没有人工智能电脑的杀手级应用能够提供电脑将人工智能压力转移到云端 GPU 上的切实例子。
参考链接
https://www.hpcwire.com/2024/07/08/generative-ai-to-account-for-1-5-of-worlds-power-consumption-by-2029/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3823内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者