英伟达H100的唯一替代芯片？MLPerf认证！

2023-06-28 01:06

来源：内容由半导体行业观察（ID：icbank）编译自wccftech，谢谢。

英特尔和 Habana 今天发布了MLPerf 训练基准，其中包含一些非常有趣的结果。英特尔的Gaudi2芯片现在是用于训练LLM的 NVIDIA GPU 的唯一替代品。NVIDIA 的股价在最近的 AI（又名 LLM）淘金热中绝对飙升，因为该公司的 GPU 被用来训练几乎所有流行的 LLM（如 ChatGPT）。

然而，Intel Gaudi2 芯片现在是 NVIDIA GPU 的唯一可行替代品，并且他们已经发布了基准测试来证明这一点。

ChatGPT 可能是世界上一段时间以来最具颠覆性的力量，很明显，LLM 是未来的方向。ChatGPT基于 GPT 3.5 模型，而 GPT 3.5 模型又基于 GPT-3 基本模型。ChatGPT 4 基于 GPT-4，但相关信息极其稀疏，并且不存在相关基准。因此，在确定使用什么作为训练 CPU/GPU 时，将 GPT-3 训练到足够的准确度（或减少损失函数）将是最相关的基准。NVIDIA 使用其 Hopper GPU 在这一领域占据主导地位，但最终还有一个替代方案：Intel Gaudi2。

英特尔声称目前在 FP16 工作负载中比 A100 具有更好的性价比，并计划在 9 月份（在 FP8 工作负载中）击败 NVIDIA 的 H100。这是一个相当雄心勃勃的目标，但该公司有基准来支持这一目标。以下是结果的快速高级概述：

Gaudi2 在 GPT-31 上的训练时间令人印象深刻：在 384 个加速器上花费了 311 分钟。
GPT-3 模型上从 256 个加速器到 384 个加速器的近线性 95% 扩展。
在计算机视觉（ResNet-50 8 加速器和 Unet3D 8 加速器）以及自然语言处理模型（BERT 8 和 64 加速器）方面取得了出色的训练结果。
与 11 月提交的内容相比，BERT 和 ResNet 模型的性能分别提高了 10% 和 4%，这证明了 Gaudi2 软件的成熟度不断提高。
Gaudi2 结果是“开箱即用”提交的，这意味着客户在本地或云端实施 Gaudi2 时可以获得可比较的性能结果。

综合考虑上述情况，NVIDIA 条目可以在 45 分钟内训练 GPT-31，而且还利用更多的 GPU。最后，进行正确比较的唯一方法是使用 TCO 并了解确切的成本和 TDP/热量限制。但所有这些可能都无关紧要，因为这个领域的需求远远超过供应。虽然 NVIDIA GPU 将热销，但它们的供应有限，而且市场将缺乏能够训练LLM的芯片——而这正是英特尔的 Gaudi2 可以挽救局面的地方。

英特尔还分享了其 Xeon Platinum 级 CPU 的结果，这些 CPU 目前用于 LLM 训练的最佳性能 MLPerf 提交，而 GPT-3 的培训时间刚刚超过 10 个小时。以下是结果亮点：

在closed division，第四代 Xeon 可以在不到 50 分钟的时间内训练 BERT 和 ResNet-50 模型。（47.93 分钟）且不到 90 分钟。（88.17 分钟）；
在开放部门使用 BERT 时，结果表明，当扩展到 16 个节点时，Xeon 能够在大约 30 分钟（31.06 分钟）内训练模型。
对于较大的 RetinaNet 模型，Xeon 能够达到 232 分钟的时间。在 16 个节点上，客户可以灵活地使用非高峰 Xeon 循环在早上、午餐时间或夜间训练他们的模型。
采用英特尔高级矩阵扩展 (英特尔 AMX) 的第四代至强可提供显着的开箱即用性能改进，涵盖多个框架、端到端数据科学工具和广泛的智能解决方案生态系统。

附相关说明图片