英伟达H100的唯一替代芯片?MLPerf认证!
来源:内容由半导体行业观察(ID:icbank)编译自wccftech,谢谢。
英特尔和 Habana 今天发布了MLPerf 训练基准,其中包含一些非常有趣的结果。英特尔的Gaudi2芯片现在是用于训练LLM的 NVIDIA GPU 的唯一替代品。NVIDIA 的股价在最近的 AI(又名 LLM)淘金热中绝对飙升,因为该公司的 GPU 被用来训练几乎所有流行的 LLM(如 ChatGPT)。
然而,Intel Gaudi2 芯片现在是 NVIDIA GPU 的唯一可行替代品,并且他们已经发布了基准测试来证明这一点。
ChatGPT 可能是世界上一段时间以来最具颠覆性的力量,很明显,LLM 是未来的方向。ChatGPT基于 GPT 3.5 模型,而 GPT 3.5 模型又基于 GPT-3 基本模型。ChatGPT 4 基于 GPT-4,但相关信息极其稀疏,并且不存在相关基准。因此,在确定使用什么作为训练 CPU/GPU 时,将 GPT-3 训练到足够的准确度(或减少损失函数)将是最相关的基准。NVIDIA 使用其 Hopper GPU 在这一领域占据主导地位,但最终还有一个替代方案:Intel Gaudi2。
英特尔声称目前在 FP16 工作负载中比 A100 具有更好的性价比,并计划在 9 月份(在 FP8 工作负载中)击败 NVIDIA 的 H100。这是一个相当雄心勃勃的目标,但该公司有基准来支持这一目标。以下是结果的快速高级概述:
Gaudi2 在 GPT-31 上的训练时间令人印象深刻:在 384 个加速器上花费了 311 分钟。
GPT-3 模型上从 256 个加速器到 384 个加速器的近线性 95% 扩展。
在计算机视觉(ResNet-50 8 加速器和 Unet3D 8 加速器)以及自然语言处理模型(BERT 8 和 64 加速器)方面取得了出色的训练结果。
与 11 月提交的内容相比,BERT 和 ResNet 模型的性能分别提高了 10% 和 4%,这证明了 Gaudi2 软件的成熟度不断提高。
Gaudi2 结果是“开箱即用”提交的,这意味着客户在本地或云端实施 Gaudi2 时可以获得可比较的性能结果。
综合考虑上述情况,NVIDIA 条目可以在 45 分钟内训练 GPT-31,而且还利用更多的 GPU。最后,进行正确比较的唯一方法是使用 TCO 并了解确切的成本和 TDP/热量限制。但所有这些可能都无关紧要,因为这个领域的需求远远超过供应。虽然 NVIDIA GPU 将热销,但它们的供应有限,而且市场将缺乏能够训练LLM的芯片——而这正是英特尔的 Gaudi2 可以挽救局面的地方。
英特尔还分享了其 Xeon Platinum 级 CPU 的结果,这些 CPU 目前用于 LLM 训练的最佳性能 MLPerf 提交,而 GPT-3 的培训时间刚刚超过 10 个小时。以下是结果亮点:
在closed division,第四代 Xeon 可以在不到 50 分钟的时间内训练 BERT 和 ResNet-50 模型。(47.93 分钟)且不到 90 分钟。(88.17 分钟);
在开放部门使用 BERT 时,结果表明,当扩展到 16 个节点时,Xeon 能够在大约 30 分钟(31.06 分钟)内训练模型。
对于较大的 RetinaNet 模型,Xeon 能够达到 232 分钟的时间。在 16 个节点上,客户可以灵活地使用非高峰 Xeon 循环在早上、午餐时间或夜间训练他们的模型。
采用英特尔高级矩阵扩展 (英特尔 AMX) 的第四代至强可提供显着的开箱即用性能改进,涵盖多个框架、端到端数据科学工具和广泛的智能解决方案生态系统。
附相关说明图片
👇👇 点击文末【阅读原文】,可查看原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3446期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者