功耗成为芯片大问题！

2024-05-01 03:05

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容来自半导体行业观察（ID：icbank）编译自fierceelectronics，谢谢。

Nvidia 最新的巨型芯片 Blackwell 堪称现代奇迹。它拥有 2000 亿个晶体管，当在大型数据中心中将数千个 GPU 组合在一起时，它有望提供足够的处理能力来处理最大的 AI 模型。

但 Blackwell 和其他即将上市的强大加速器芯片让人们感到紧张，尤其是数据中心运营商和电力公司，甚至全球监管机构。用于数据中心的单一 Blackwell 芯片的一个版本消耗 1,200 瓦的电力，与几年前相比，这是一个疯狂的电量。主要由于加速器芯片的增长，一些数据中心正在建造自己的发电厂来处理负载，而阿姆斯特丹和欧洲其他城市的监管机构则告诉数据中心，由于电力供应有限，他们无法扩展。

庞大的不仅仅是 Nvidia 的 GPU。Blackwell 是所有芯片设计公司的趋势的一部分。甚至特斯拉等超大规模企业和汽车制造商也在设计自己的定制芯片，通常通过 3D 设计和小芯片来推动物理定律来提高能源效率。Tesla 的 Dojo 芯片有 25 个小芯片。这些芯片设计方法有助于提高能效，但与此同时，数据中心仍在不断发展以支持人工智能，包括 GenAI。目前，全球 1.5% 至 2% 的电力用于数据中心，其中绝大多数能源用于支持它们的芯片和电路板。数据中心能源消耗的增长就像曲棍球棒一样。

“这种趋势是不可持续的”

“芯片行业一直处于一种不可持续的趋势，”芯片行业资深人士、Rapidus 美洲区总裁 Henri Richard 表示。该公司正在日本北部建立一座 2nm 工艺节点芯片工厂，并获得日本政府数十亿美元的支持。

“几年前，我们说功率不能达到 150 瓦，而现在我们的功率达到 1,200 瓦！有些事情需要改变。如果你考虑采用这条增长曲线并预测未来，我们就无法拥有 3 千瓦的芯片，”理查德在其位于加利福尼亚州圣克拉拉的美国办公室接受采访时说道。

他表示，将芯片工艺节点从10nm缩小到5nm再到2nm是解决方案的一部分。然而，随着摩尔定律带来的好处逐渐减少，“需要以不同的方式构建系统和芯片，以处理功率的集中和可以进行的冷却量，”他补充道。“即使是浸入式冷却也很难为芯片供电。Chiplet将成为平衡前端和后端的一种方式。”

Arm 首席执行官雷内·哈斯 (Rene Haas) 最近在一篇博客中写道，未来的人工智能工作负载将变得越来越大，迫切需要更多的计算和更多的功能，这唤醒了人工智能世界的一些元素。“找到降低这些大型数据中心电力需求的方法对于实现社会突破和实现人工智能承诺至关重要，”他说。“换句话说，没有电，就没有人工智能。”

数据中心耗电芯片面临哪些挑战

在拥有数千个 Blackwell 芯片和其他处理器的数据中心中，电力负荷变得巨大，使得工程师们不得不在没有足够电力的地方寻找可用电力，即使在太阳能、风能、水力发电等可再生能源的帮助下也是如此或地热。一旦向华盛顿特区以西的弗吉尼亚州劳登县等地区的可开发土地输送足够的电力，人们对数十个热服务器机架内发生的情况的焦虑就会加剧。

工程师们正在提出新的方法来保持电路板和芯片足够凉爽，以防止着火或熔化，从而对重要数据、昂贵的设备和企业利润造成灾难。

整个行业已经出现，旨在冷却数据中心，以防止服务器及其耗电芯片产生的热量。服务器机架的液体冷却已成为一种艺术形式；最新的方法之一是整个数据中心的沉浸式体验，这引发了关于数据中心如何将水下电力与周围人类连接的微妙命题。与此同时，超大规模企业正在计划在其数据中心枢纽附近建造小型核反应堆或其他发电机，以确保可靠和充足的能源供应。

投资者正疯狂地寻求为数据中心提供更多电力：OpenAI 首席执行官 Sam Altman 刚刚向 Exowat 投资了 2000 万美元，这是一家专注于人工智能数据中心的能源初创公司。保持芯片足够凉爽以实现最佳运行还可能需要空气冷却技术，该技术会消耗更多功率，从而加剧问题。即便如此，根据经验，数据中心所需的一半电力用于点亮处理器——从 GPU 到 CPU 再到 NPU，以及任何成为下一个芯片 TLA 的东西。相关电路和电路板会增加能耗。

Nvidia的黄仁勋定义了AI加速器的长远愿景

Nvidia 首席执行官黄仁勋和许多其他半导体领导者证明，Blackwell 等现代加速器芯片在与 AI 和 GenAI 的巨大计算能力相匹配时，其权力贩卖的合理性也许是正确的，以及这些技术将对未来几代公司和客户产生的影响新药品的研发、气候分析、自动驾驶汽车和机器人等等。他和他的工程团队经常谈论物理定律，并认识到哪些金属和其他材料以及芯片架构可以将电力产生的热量散发到服务器机架上，然后再分布到数英亩的服务器机架上。

现代芯片设计使英伟达、英特尔、AMD、高通、云提供商和越来越多的小型设计公司不断增加电路板的密度，从而使服务器和服务器机架占用更少的占地面积，同时每台可产生数倍的万亿次浮点运算。服务器比一年前还要多。每瓦性能指标通常表示为 TFLOPS/瓦，以便于比较不同供应商的系统和芯片。

黄仁勋在 CadenceLIVE 上关于纵向性的演讲

Huang 于 4 月份在硅谷 CadenceLIVE 上谈到了这种密度及其相关的功耗，并抽象地谈到了人工智能在整个用户群中的优势如何证明这种计算密度是合理的。“记住，你设计了一个芯片一次，但你却将它交付了一万亿次，”他在炉边谈话中说道。“您设计一次数据中心，但可以节省 6% 的电力……这是 10 亿人所享受的。”当然，黄说的是整个生态系统，远远超出了用于更广泛的加速计算类别的单个 Blackwell 或其他 GPU 的瓦数。他用了几句话来表达自己的观点，但值得一读：

“加速计算的功耗非常高，因为计算机的密度非常高，”黄说。“无论我们对电力利用进行什么优化，都可以直接转化为更高的性能、更高的生产力、产生收入或直接转化为节省。对于相同的性能，你可以得到更小的东西。加速计算中的电源管理直接转化为您关心的所有事情。

“加速计算需要数以万计的通用服务器，消耗了 10 倍、20 倍的成本和 20 倍、30 倍的能源，并将其缩减为极其密集的东西。因此，加速计算的密度是人们会认为它耗电且昂贵的原因。但如果您从已完成的工作或吞吐量的 ISO（国际标准）来看，实际上您可以节省大量资金。这就是为什么随着 CPU 扩展速度减慢，我们必须转向加速计算，因为无论如何你都不会继续以传统方式扩展。加速计算至关重要。”

随后，在与 Cadence 首席执行官 Anirudh Devgan 的同一次对话中，黄仁勋补充道：“人工智能实际上可以帮助人们节省能源……如果没有人工智能，我们如何能够实现 6% 的节能（在 Cadence 的一个示例中）或 10 倍的节能？因此，您对模型的训练进行一次投资，然后数百万工程师就可以从中受益，数十亿人将在几十年内享受到节省的费用。

“这就是考虑成本和投资的方式，不仅要根据具体情况，而且就医疗保健而言，要纵向考虑。您必须……纵向地考虑节省资金、节省能源，不仅要考虑您正在构建的产品的整个范围，还要考虑您设计产品的方式、您构建的产品以及感受到的产品的影响。当你像这样纵向看待它时，人工智能将在帮助我们应对气候变化、使用更少的电力、提高能源效率等方面带来彻底的变革。”

Nvidia 之外的声音

除了黄仁勋之外，芯片设计和芯片生产领域的其他杰出人物最近也纷纷加入进来。台积电首席执行官 CC Wei 在公司最新的财报电话会议上这样说道：“几乎所有的人工智能创新者都在与台积电合作，以满足永不满足的人工智能相关需求以获得节能的计算能力。”关键词：“贪得无厌”。

Cadence 首席执行官 Devgan在与黄仁勋的台上对话中指出，人工智能模型可以拥有 1 万亿个参数，而人脑中有 100 万亿个突触或连接。他预测，有人按照人脑的顺序构建一个非常大的人工智能模型只是时间问题。他说，这样做将需要“大量的软件计算、整个数据搜索基础设施和整个能源基础设施”。

Cadence 制定并支持多种提高加速器能效设计的方法（Nvidia 曾使用加速器开发 Blackwell），并开发了数字孪生系统来帮助数据中心更高效地设计其运营。

AMD设定的目标是，以 2020 年加速计算节点为基准，到 2025 年将其产品的能效提高 30 倍。去年推出的 MI300X 加速器使该公司更接近这一目标。AMD 高级副总裁兼产品技术架构师 Sam Naffziger 去年发布的一篇博客描述了这一进展。

Naffziger 警告说，该行业不能仅仅依赖较小的晶体管，需要一个整体设计视角，包括封装、架构、内存、软件等。

英特尔的神经形态推动

英特尔还积极推动能源效率的发展，最近宣布它已经建立了世界上最大的神经形态系统来实现可持续的人工智能。它的代号为 Hala Point，采用英特尔的 Loihi 2 处理器，每秒可支持多达 20 万亿次运算，可与 GPU 和 CPU 相媲美。到目前为止，它的应用显然是用于研究。

英特尔对 Hala Point 的描述称，整个系统的最大功耗为 2,600 瓦，是 Nvidia Blackwell 的两倍多一点：“Hala Point 将 1,152 个在英特尔 4 工艺节点上生产的 Loihi 2 处理器封装在一个六机架单元中。数据中心机箱有微波炉大小。该系统支持分布在 140,544 个神经形态处理核心上的多达 11.5 亿个神经元和 1,280 亿个突触，最大功耗为 2,600 瓦。它还包括 2,300 多个用于辅助计算的嵌入式 x86 处理器。”

英特尔首席产品可持续发展官 Jennifer Huffstetler 通过电子邮件告诉 Fierce Electronics：“英特尔正在将未来的计算技术视为人工智能工作负载的解决方案，即神经形态，有望以更低的功耗提供更高的计算性能。计算需求只会不断增加，尤其是新的人工智能工作负载。为了提供所需的性能，GPU 和 CPU 的功耗也在增加。”

英特尔已经采取了三管齐下的方法来提高效率，包括优化人工智能模型、软件和硬件。Huffstetler 估计，在硬件方面，英特尔的创新从 2010 年到 2020 年已节省 1000 太瓦时。Gaudi 加速器的能效提高了约一倍，而 Xeon 可扩展处理器的能效提高了 2.2 倍。（Xeon 专为数据中心、边缘和工作站工作负载而设计。）她声称，即将推出的 Gaudi 3 加速器的推理能力平均提高 50%，推理功效平均提高 40%。英特尔还涉足液冷业务，与数据中心内的风冷相比，该业务可节能 30%。

是的，更高的“效率”，但是……

尽管主要芯片设计者付出了所有努力，功耗困境仍然存在。是的，数据中心可能拥有更少的配备最新加速器的机架，从而降低功耗，但人工智能的增长意味着公司只会寻求扩展计算能力——更多的服务器、更多的机架、更多的能源消耗。J. Gold Associates 的创始分析师杰克·戈尔德 (Jack Gold) 表示：“是的，较新的芯片每瓦性能更高，但人工智能模型也在不断增长，因此目前尚不清楚对功耗的总体要求是否会下降那么多。”

虽然采用液冷机架的 GB200 外形尺寸的 Blackwell 每个芯片的功耗为 1200 瓦，但 Gold 指出，典型的 AI 芯片仅使用一半的功率 - 650 瓦。他这样计算能耗：加上内存、互连和 CPU 控制器，每个模块的能耗可跃升至 1 千瓦。在最近的 Meta 示例中，该公司一度部署了 10,000 个模块（未来还会有更多），仅这一数量就需要 10 兆瓦的电力。一个像克利夫兰这样大小、拥有 300 万人口的城市的用电量约为 5,000 兆瓦，因此本质上，一个如此规模的数据中心将占用该城市 2% 的电力。典型的发电厂可发电约 500 兆瓦。

戈尔德说：“最重要的是，人工智能数据中心确实[面临着问题]，试图找到有足够电力且电力成本足够低的区域来满足其所需的消耗。”电力成本是数据中心中仅次于设备资本成本的最大支出。

Technaanalysis 的创始分析师 Bob O'Donnell 表示，他在一定程度上理解黄仁勋在 Cadence 活动中提出的支持 AI 芯片功耗的“纵向”论点。“加速器芯片确实需要更多的能量，但从长远来看，由于你所学到的一切，从长远来看对环境、制药和其他领域有更积极的好处，”他告诉 Fierce。“它们非常密集，但与其他选项相比，它们更节能。”

“总结来说，人工智能芯片的能力正在受到许多不同参与者的广泛关注和关注。它不会随着对更多电力的巨大需求而得到解决或消失。但 GenAI 的能力是如此强大，以至于人们觉得有必要去追求它。”

参考链接：

https://www.fierceelectronics.com/ai/power-hungry-ai-chips-face-reckoning-chipmakers-promise-efficiency

点这里👆加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。