AI芯片为数据中心节省大量资金

2023-08-16 02:08

来源：内容由半导体行业观察（ID：icbank）编译自crn，谢谢。

Jensen Huang 声称 Nvidia 的新型 Grace Hopper Superchip 将 CPU 和 GPU 结合在一个集成模块上，与传统 CPU 相比，可以降低能源成本，同时为生成式 AI 工作负载提供更快的性能。他表示，该芯片还可以帮助企业节省大量资本成本，以实现与 CPU 相同的基准性能。

Nvidia 首席执行官黄仁勋有一句口头禅，他在上周的 SIGGRAPH 2023 主题演讲中说过多次，几乎成了一个笑话：“买的越多，省的越多。”

黄仁勋指的是这家 GPU 巨头的断言，即与传统 CPU 相比，其 AI 芯片可以为公司节省大量成本，因为他认为未来的数据中心是由对生成式 AI 功能的需求推动的，依赖大型语言模型 (LLM)回答用户查询并为各种应用程序生成内容。

“未来的典型用例是几乎所有事物前端的大型语言模型：每个应用程序，每个数据库，每当您与计算机交互时，您可能首先会参与大型语言模型，“ 他说。

黄说，英伟达的人工智能芯片可以为专注于大型语言模型和其他计算密集型工作负载的数据中心运营商节省资金，因为这些芯片比 CPU 运行得更快、更高效，而且他们购买的芯片越多，获得的芯片就越多。

“这就是加速计算将成为前进道路的原因。这就是全球数据中心快速过渡到加速计算的原因。”黄仁勋说道。

“有些人说——你们可能听说过，我不知道是谁说的——但是你买的越多，你节省的就越多。这就是智慧。”他补充道，行业爱好者们也跟着笑了起来。

但尽管气氛搞笑，黄对潜在的主张很严肃，强调这些观点应该是他主题演讲的主要内容。

利用人工智能芯片节省能源和资本成本

为了说明 Nvidia 芯片在数据中心中的优势，黄仁勋举了几个例子，将它们与 CPU 进行比较，一个重点是它们如何在提高性能的同时降低数据中心的总体功耗预算，另一个重点是芯片如何显着降低资本成本。

黄仁勋的示例基于该公司迄今为止最先进的人工智能芯片Grace Hopper Superchip，该芯片结合了 72 核 Grace CPU 和 Hopper H100 GPU，通过高带宽芯片间互连以及 480GB LPDDR5x 内存连接如果明年推出更新版本，则将配备 141GB HBM3e 高带宽内存。

在功率预算示例中，Huang 提供了一个预算为 1 亿美元的假设数据中心，该数据中心正在运行他认为是生成式 AI 用例的代表性工作负载组：Meta 的 Llama 2 LLM 与矢量数据库和稳定扩散结合使用XL 法学硕士。

数据中心运营商可以使用 1 亿美元购买 8,800 个英特尔 Xeon Platinum 8480+ CPU，这是其最新服务器芯片系列中速度最快、核心数量最多的处理器之一，这些处理器将为数据中心提供 5 兆瓦的功率预算，黄说。

相比之下，1 亿美元还可以购买 2,500 个 Grace Hopper Superchips，并将数据中心的电力预算减少到 3 兆瓦。此外，黄说，数据中心能够在 LLM 和数据库工作负载上运行推理，速度比仅 CPU 配置快 12 倍。

他补充说，这意味着能源效率提高了 20 倍，而按照摩尔定律，传统芯片制造商需要“很长时间”才能实现这种水平的提高，摩尔定律是英特尔倡导的观察结果，即晶体管数量集成电路每两年就会增加一倍，从而带来性能和效率的提升。

“这是效率和吞吐量的巨大进步，”黄说。

在另一个例子中，黄以同样价值 1 亿美元的数据中心为例，配备 8,800 个英特尔至强 CPU，并表示如果数据中心运营商想要使用 Grace Hopper Superchips 实现相同的性能，只需花费 800 万美元和 260 千瓦的功率预算。

“因此功耗降低了 20 倍，成本降低了 12 倍，”他说。

合作伙伴表示 Nvidia 的口号是正确的

Nvidia 顶级合作伙伴的两位高管告诉 CRN，他们的公司已经证明，当客户从基于 CPU 的数据中心基础设施切换到由 GPU 驱动的数据中心基础设施时，他们可以在许多情况下提高计算密集型应用程序的性能并节省资金。

总部位于德克萨斯州休斯敦的 Mark III Systems 首席技术官 Andy Lin 表示：“过去 5 到 10 年，我们一直在让人们从 CPU 转向使用 GPU，这极大地加快了这些工作的速度并降低了成本。”今年被评为Nvidia 北美顶级医疗保健合作伙伴。

Lin 表示，他对像 Grace Hopper 这样的芯片能够通过在 CPU 和 GPU 之间创建内存一致性以及删除通用 x86 CPU 中不必要的功能来进一步提高性能和效率感到兴奋。

“当你有专门为这些类型的工作负载构建的东西时，经济效益往往会更好，因为它们是专门为此设计的，而不是在通用 x86 CPU 中产生大量浪费，因为它们有必须考虑的东西所有可能性，不仅仅是你的深度学习工作，不仅仅是你的机器学习或支持加速器的软件，”他说。

总部位于马萨诸塞州普利茅斯的 Microway 负责高性能计算和人工智能营销和客户参与的副总裁 Brett Newman 表示，他的大多数客户在将工作负载从计算机中转移出来时，经常会利用在资本成本和能源方面节省的成本。CPU 到 GPU。

“最常见的结果实际上是混合。他们会说，‘太好了，我将[使用]一些通过加速计算可能节省的资金来[获得]性能的整体提升。但我也会节省电力和能源效率，”他说。

自从英伟达几年前率先推出 GPU 计算以加速科学计算工作负载以来，纽曼一直看到这一主题。

他补充说，现在许多组织都在开发生成式人工智能应用程序以满足高行业需求，因此更需要从 GPU 中榨取尽可能多的性能。

“他们对计算有着持续不断的需求，他们会利用任何可以获得的计算能力进步。有时，节省电力预算是件好事，但有时他们会说，‘太好了，然后我想运行下一个计算量更大的应用程序，’纽曼说。

英特尔、AMD 推出新型人工智能芯片加剧竞争

黄仁勋在 SIGGRAPH 主题演讲中没有提到的是，虽然英特尔正在努力推广其用于某些人工智能工作负载的 CPU，但更大的竞争对手正在大力推动销售与 Nvidia 的 GPU 竞争的强大人工智能芯片。其中包括来自Habana 业务和数据中心 GPU 的 Gaudi 深度学习处理器，其中最强大的处理器于今年早些时候推出。

纽曼表示，考虑到英伟达“令人难以置信的产品和路线图”，他认为英特尔不会变得更具竞争力，直到这家半导体巨头合并其人工智能芯片路线图并将其 Gaudi 芯片技术融入未来的 GPU 中，从 Falcon Shores 开始。2025 年。

“问题在于产品何时上市以及上市后的情况如何，”他说。

当谈到 Nvidia 的另一个主要竞争对手 AMD 时，纽曼认为，当AMD今年晚些时候推出Instinct MI300 芯片时，竞争对手的芯片设计商可能会“在正确的时间拥有很多正确的东西”。

“现在，感觉每个人都想分一杯羹。而且这块蛋糕做得越来越大，可能足以让每个人都从中拥有真正健康的业务，”他说。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3495期内容，欢迎关注。