芯片初创公司，要部署100万颗AI芯片

2023-11-28 02:11

来源：内容由半导体行业观察（ID：icbank）编译自nextplatform，谢谢。

如果您正在寻找 Nvidia GPU 的替代品来进行 AI 推理（如今生成式 AI 已成为自火山爆发以来最热门的事物，谁不喜欢）那么您可能需要给 Groq 打电话。该公司正在加大语言处理单元（LPU）（也称为 GroqChip）的生产，预计能够大量出货以支持大型语言模型的推理。

正如我们现在喜欢说的那样，如果你有一个可以支持生成式人工智能模型的矩阵数学引擎，那么你可以把它卖给那些渴望在生成式人工智能热潮初期不被抛在后面的人。Cerebras Systems 的CS -2 晶圆级处理器、SambaNova Systems 的 SN40L 可重构数据流单元以及Intel 的 Gaudi 2 及其后续 Gaudi 3 引擎只是非 Nvidia GPU 或 AMD 的计算引擎的几个示例GPU 之所以受到关注，是因为对其采用的 HBM 内存和先进封装的需求限制了供应。GroqChip LPU 的独特之处在于，它们不依赖于三星或 SK Hynix 的 HBM 以及台积电的 CoWoS 封装（将外部 HBM 焊接到计算芯片）。

中国的“OceanLight”超级计算机基于14纳米工艺蚀刻的国产SW26010-Pro处理器，事实证明，您不必使用先进的工艺和封装来构建可以获得真正的HPC和AI的计算引擎工作规模巨大。OceanLight 架构跻身有史以来计算效率最高的机器之列，并且在运行实际工作负载方面可能比橡树岭国家实验室的“Frontier”超级计算机更强大，如果戈登贝尔奖的提交和奖项有任何变化的话措施。

因此，Groq 联合创始人兼首席执行官 Jonathan Ross 完全与时俱进，他认为与使用 Nvidia GPU 相比，Groq LPU 集群将为 LLM 推理提供更高的吞吐量、更低的延迟和更低的成本。诚然，对于几年前首次推出的 14 纳米芯片来说，这是一项艰巨的任务，其灵感来自谷歌本土的张量处理单元 (TPU)。但正如任何人都可以清楚地看到的那样，Nvidia 和 AMD 对 GPU 的高需求和相对低的供应量为 Groq 和其他矩阵数学引擎供应商提供了他们一直在等待的机会。

我们面临的问题是，到目前为止，是什么阻碍了 Groq。是他们的软件堆栈还没有准备好吗？是不是 AI 模型是为 GPU 创建的，需要进行调整？没有。

“我会直接解释我们受到什么限制，”Ross告诉The Next Platform，正如你想象的那样，我们喜欢这种事情。“这个领域有 100 家初创公司，他们都声称自己的性能将比 Nvidia 好 10 倍，人们会深入研究，但这往往不会实现。我们的故事非常复杂，因为我们做事的方式非常不同。没有人购买某样东西是因为某样东西更好，而是因为他们有未解决的问题。你必须解决一个未解决的问题。直到最近，我们去找人们，给他们一个问题，说如果你改用我们的芯片，我们可以降低你的成本，或者我们可以加快速度，他们告诉我们它足够快，足够便宜，你只是给我带来了问题。但现在，人们有了这些模型，他们跑得不够快。所以我们正在解决他们的问题，这是一个非常不同的销售动议。直到大约两个月前我们得到了大型语言模型推理的演示为止，我们的兴趣为零。现在，我们正在用棍子打走人们，并且我们正在内部就如何向客户分配硬件进行斗争。我们的前 40 个机架已经分配完毕，按照我们的记录计划，我们相信在未来 12 个月内每秒部署的数量相当于 OpenAI 的所有代币，并且可能会部署更多。我们拥有不受阻碍的供应链——我们没有 HBM，我们没有 CoWoS，因此我们不会与他们所有人竞争这些技术。”

让技术经济替代开始吧！

以下是 Groq 为商业级推理提出的建议，该推理必须对 LLM 回复具有亚秒级响应时间。当前一代 GroqChips 的 Pod 具有光学互连，可以跨 264 个芯片进行扩展，如果在 Pod 之间放置交换机，则可以进一步扩展，但会在 Pod 之间跨越交换机跳跃，从而增加延迟。Ross 表示，在下一代 GroqRack 集群中，该系统将在单个结构上扩展到 4,128 个 GroqChips，但这尚未准备好投入市场。Groq 的下一代 GroqChip 将于 2025 年推出，采用三星 4 纳米工艺蚀刻，由于工艺缩小、架构增强以及芯片结构的进步，其尺寸将进一步扩大。

为了进行基准测试，Groq 将 576 个 GroqChips 连接在一起，并对 Meta Platforms 的 LLaMA 2 模型进行推理，扩展到 700 亿个参数。GroqRack 有 9 个节点，通常其中 8 个节点用于计算，1 个节点作为冗余空间，但对于基准测试，所有 9 个节点都用于计算，以便在这 8 个机架上的 3 个交换节点中链接 574 个节点。（每个节点有八个 GroqCard 适配器。

LLAMA 2 提示在 INT8 处理时有 512 个令牌输入和 1,024 个令牌输出，Groq 将此设置与 Nvidia H100 GPU 进行比较 - 这是一个八 CPU HGX 系统板，该系统板正在成为生成式 AI 训练的计算单元有时还进行推理——这 576 个 GPU 可以用十分之一的时间和生成代币成本的十分之一进行推理。Nvidia GPU 需要大约 10 焦耳到 30 焦耳才能生成响应中的令牌，而 Groq 设置每个令牌大约需要 1 焦耳到 3 焦耳。因此，推理速度提高了 10 倍，成本却降低了十分之一，或者说性价比提高了 100 倍。

再读一遍：Groq 表示，它可以以 10 倍的 LLaMA 2 推理速度提供 100 倍的性价比。

现在，可以说有更多的 Groq 设备可以实现这一目标——一台 Nvidia 服务器与 8 个 Groq 设备机架相比——但在 10 倍速度的情况下，总体成本却只有1/10，这是无可争辩的。你烧的空间越多，烧的钱就越少。

当然，您可以将 Nvidia 的 SuperPOD 在单个内存空间中扩展到 256 个 GPU，这确实允许更大的模型和更多的并行处理，以加快每秒的令牌速度。但这是以支付跨这些节点的 NVSwitch 结构的费用为代价的，而这并不是免费的。

在 Ross 为我们做的演示中，具有 576 个芯片的 Groq 设置能够根据我们所做的提示每秒推送超过 300 个令牌，他说典型的 Nvidia GPU 设置很幸运，可以每秒推送 10 个令牌到 30 个令牌。

Groq 方法宽、慢且功耗低，并且在许多单元上并行运行，并在计算旁边有大量本地 SRAM 内存，而 Nvidia 方法在矩阵数学上更快，在主内存上更快。堆叠起来并并行运行。

Ross 宣称：“在 12 个月内，我们可以部署 100,000 个 LPU，在 24 个月内，我们可以部署 100 万个 LPU。”而且不难相信，这不仅是可能的，而且由于缺乏，它还可以出售。GPU 成本高昂，而且许多组织希望放弃 OpenAI 的 GPT-3.5 和 GPT-4 等专有模型，转向 Meta Platforms 的非常开放的 LLaMA 2。

如果您有一个可以运行 PyTorch 和 LLaMA 2 的计算引擎，并且成本不高，您可以将其出售。

展望下一代 GroqChip，Ross 表示，从 14 纳米 GlobalFoundries 转向 4 纳米三星制造工艺，其能效将提高 15 至 20 倍。这将允许在相同的功率范围内将更多的矩阵计算和 SRAM 存储器添加到设备中——多少还有待观察。我们认为，在恒定功率下，在完全相同的设计上执行相同工作的芯片数量将减少 3.5 倍，而架构改进可能会减少 5 倍甚至更高。因此，今天需要在 9 个机架中使用 576 个 GroqChips 才能完成 LLaMA 2 70B 推理，到 2025 年可能只需要在两个机架中使用大约 100 个芯片。

在此期间，Groq 推出了一个新节点，该节点中的芯片数量增加了 4 倍，从当前 GroqNode 中 PCI-Express 卡上实现的 8 个 LPU 到我们推测将直接安装在 GroqNode 上的 LPU 芯片。四块主板（每块板有 8 个 LPU）相互连接，在一个机箱中可容纳 32 个主板。Ross 表示，通过在一个节点中使用 32 个 LPU，整个集群的成本、功耗和延迟都会下降。

“这将阻止我们，直到我们获得下一个芯片，”他补充道。

现在，Ross 可能会说它可以在 24 个月内部署100 万个 LPU，但这并不意味着客户会在这段时间内购买那么多。但即使按一次 1,000 美元计算，也将达到 10 亿美元。

另外，不要混淆以十分之一的成本生成代币的想法与整个系统成本的十分之一的想法。测试的 Groq 集群具有非常高的吞吐量和非常高的容量，这就是它获得非常低的延迟的原因。但我们非常确定，配备 576 个 LPU 的 Groq 系统的成本还不到 DGX H100 的十分之一，后者目前的运行价格已超过 400,000 美元。如果您能以 40,000 美元的价格购买 576 个 LPU，请务必立即向 Groq 下订单。对于数据中心级 AI 推理引擎及其机箱和网络而言，您很难找到比每台 69 美元更好的价格了。

我们强烈怀疑 Groq 在我们看到的数据中谈论的是每秒每个令牌的焦耳数，也许还有当您将 Nvidia 基础设施扩展到 GPU 的 NVSwitch 相干互连限制之外时的延迟，这在推理方面是一个真正的障碍潜伏。

原文链接

https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3598期内容，欢迎关注。