Redian新闻
>
揭秘:英伟达H100最佳替代者

揭秘:英伟达H100最佳替代者

公众号新闻

在撰写本文时,NVIDIA H100 80GB PCIe 在 CDW 等在线零售商处的售价为 3.2 万美元,并且缺货了大约六个月。可以理解的是,NVIDIA 的高端(几乎)万能 GPU 的价格非常高,需求也是如此。NVIDIA 为许多人工智能用户和那些在企业中运行混合工作负载的用户提供了一种替代方案,但这种方案并不引人注目,但这是非常好的。NVIDIA L40S 是面向图形的 L40 的变体,本文一起深入了解。


下载链接:
广西鲲鹏计算产业发展白皮书(2023年)
2023 OCP Server:Open Chiplet
2023 OCP峰会:服务器DC-MHS合集
2023 OCP峰会:服务器技术合集
2023 OCP 峰会服务器专题技术合集
2023年服务器技术白皮书合集
高性能计算并行算法设计合集
《AI PC产业技术分析合集》
1、AI PC:深入变革PC产业(2023)
 2、专题报告:展望AI PC的未来
2023年个人电脑PC 行业词条报告
端侧AI深度报告:2024·AI“下凡
2023年AI现状报告
国内可穿戴市场:机遇与挑战并存
并行计算硬件结构基础合集
存储器:让数字世界拥有记忆(2023)
2023年计算机辅助工程(CAE)软件词条报告
2023 AI芯片行业发展简析报告
2023年AI基础设施技术词条报告

2023年算力技术词条报告


NVIDIA A100、NVIDIA L40S 和 NVIDIA H100


首先,我们首先要说的是,如果您现在想要训练基础模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首选 GPU。一旦基础模型经过训练,通常可以在成本和功耗显着降低的部件上根据特定领域的数据或推理来定制模型。


目前,用于高端推理的 GPU 主要有三种:NVIDIA A100、NVIDIA H100 和新的 NVIDIA L40S。我们将跳过NVIDIA L4 24GB,因为它更像是低端推理卡。

NVIDIA A100 和 H100 型号基于该公司各自代的旗舰 GPU。由于我们讨论的是 PCIe 而不是 SXM 模块,因此外形尺寸之间两个最显着的差异是 NVLink 和功耗。SXM 模块专为更高功耗而设计(大约是 PCIe 版本的两倍),并通过 NVLink 和多 GPU 组件中的 NVSwitch 拓扑进行互连。

NVIDIA A100 PCIe于 2020 年以 40GB 型号推出,然后在 2021 年中期,该公司将产品更新为A100 80GB PCIe 附加卡。多年后,这些卡仍然很受欢迎。

NVIDIA H100 PCIe是专为主流服务器设计的低功耗 H100。考虑 PCIe 卡的一种方法是,在电压/频率曲线的不同部分运行相似数量的芯片,旨在降低性能,但功耗也低得多。

即使在 H100 系列内也存在一些差异。NVIDIA H100 PCIe 仍然是 H100,但在 PCIe 外形规格中,它降低了性能、功耗和一些互连(例如 NVLink 速度)。


L40S 则完全不同。NVIDIA 采用了基础 L40(一款使用 NVIDIA 最新 Ada Lovelace 架构的数据中心可视化 GPU),并更改了调整,使其更多地针对 AI 而不是可视化进行调整。


NVIDIA L40S 是一款令人着迷的 GPU,因为它保留了 L40 的光线追踪核心和 DisplayPort 输出以及支持 AV1 的 NVENC / NVDEC 等功能。与此同时,NVIDIA 将更多的功率用于驱动 GPU 人工智能部分的时钟。

我们将其放在图表上以便更容易可视化。NVIDIA 的规格有时甚至会根据 NVIDIA 来源单一视图而有所不同,因此这是我们能找到的最好的规格,如果我们获得规格更新,我们将对其进行更新。我们还包括双卡H100 NVL,它有两个增强型 H100,它们之间有一个 NVLink 桥,因此将其视为双卡解决方案,而其余的都是单卡。

与 L40 相比,L40S 是一款在人工智能训练和推理方面大幅改进的卡,但人们可以很容易地看到共同的传统。

如果您需要绝对的内存容量、带宽或 FP64 性能,则 L40 和 L40S 不适合。鉴于目前 AI 工作负载取代传统 FP64 计算的相对份额,大多数人都会接受这种权衡。

L40S 的内存看起来可能比 NVIDIA A100 少得多,而且物理上确实如此,但这并不是故事的全部。NVIDIA L40S 支持NVIDIA Transformer Engine和 FP8。使用 FP8 可以极大地减小数据大小,因此,与 FP16 值相比,FP8 值可以使用更少的内存,并且需要更少的内存带宽来移动。NVIDIA 正在推动 Transformer Engine,因为 H100 也支持它,有助于降低其 AI 部件的成本或提高其性能。


L40S 有一组更注重可视化的视频编码/解码,而 H100 则专注于解码方面。

NVIDIA H100 速度更快。它还花费更多。从某种意义上说,在我们撰写本文时,在列出公开价格的 CDW 上,H100 的价格约为 L40S 价格的 2.6 倍。

另一个重要问题是可用性。如今,获得 NVIDIA L40S 比排队等待 NVIDIA H100 快得多。

秘密在于,在 AI 硬件方面取得领先的一种新的常见方法是不使用 H100 进行模型定制和推理。相反,我们又回到了我们多年前介绍过的熟悉的架构,即密集 PCIe 服务器。2017 年,当我们进行DeepLearning11 时,将 NVIDIA GeForce GTX 1080 Ti 塞进服务器中的 10 倍 NVIDIA GTX 1080 Ti 单根深度学习服务器甚至是大公司(例如世界某些地区的搜索/网络超大规模企业)的首选架构驾驶公司。

NVIDIA 更改了其 EULA,禁止此类配置,并且使其软件更加关注用于 AI 推理和训练的数据中心部分,因此现在情况有所不同。

到 2023 年,考虑同样的概念,但采用 NVIDIA L40S 技术(并且没有服务器“humping”。)

通过购买 L40S 服务器并获得比使用 H100 更低成本的 GPU,人们可以获得类似的性能,而且价格可能更低。

NVIDIA L40S 与 H100 的其他考虑因素


L40S 还有其他几个方面需要考虑。一是它支持NVIDIA Virtual GPU vGPU 16.1,而 H100 仍然只支持 vGPU 15。NVIDIA 正在将其 AI 芯片从 vGPU 支持方面进行一些拆分。

对于那些想要部署一种 GPU 机器然后能够运行不同类型的工作负载的人来说,像 L40S 这样的东西是有意义的。鉴于其可视化根源,它还拥有支持 AV1 和 RT 内核的 NVIDIA 视频编码引擎。

L40S 不支持一项功能,那就是 MIG。我们之前已经研究过 MIG,但它允许将 H100 分成最多 7 个不同大小的分区。这对于在公共云中拆分 H100 GPU 非常有用,以便可以在客户之间共享 GPU 资源。对于企业来说,这通常是一个较低兴奋度的功能。

此外,部署 L40S 的功耗较低,仅为 SXM5 系统功耗的一半。这对于那些想要横向扩展但每个机架可能没有大量电力预算的人来说非常有吸引力。

最重要的是,L40S 的速度不如 H100,但凭借 NVIDIA 的 FP8 和 Transformer Engine 支持,对于许多人来说,它比 H100 更可用、更容易部署,而且通常价格更低。

最后的话


关于 NVIDIA H100 PCIe 与 L40S 以及为什么人们会使用任一版本,目前有很多非常糟糕的信息。希望这有助于在更大程度上澄清这一点。对我们来说,L40S 并不便宜,但它让我们想起 6 多年前,当时人工智能领域的做法是在服务器中使用成本较低的 NVIDIA GPU,然后使用更多的 GPU。NVIDIA 再次推出该型号,使用 L40S 和官方认可的架构,支持多达数千个GPU。


来源:半导体行业观察
原文:the-nvidia-h100-ai-alternative-with-a-big-benefit-supermicro/2/

服务器基础知识全解(终极版)姊妹篇存储系统基础知识全解已经更新发布,为购买过架构师技术全店资料打包汇总(全)读者福利免费发放,请凭借购买记录在微店留言获取(PDF阅读版本)。



申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”包含服务器基础知识全解(终极版)存储系统基础知识全解 pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价439元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
H100最强竞品正式发布!推理快1.6倍,内存高达192GB,来自AMDAMD MI300绝杀英伟达H100?跑GPT-4性能超25%,AI芯片大决战一触即发一百四十六 登天平山月薪两万,互联网大厂疯抢AI数据标注员;iPhone16或推出AIGC功能;AMD推出AI芯片,对标英伟达H100丨AI周报英伟达的美国对手们已经开始拿中国攻击英伟达了大华股份发布星汉大模型;苹果AI服务器支出明年或达47.5亿美元;英伟达H100成新型债务资产丨AIGC大事日报突发!英伟达H800/A800禁令竟提前生效,但4090意外豁免!美芯片禁令升级!英伟达H800/A800禁售,30天生效!仅剩V100可用?英伟达H200突然发布!最强AI芯片!容量翻倍,带宽狂飙!“发展中国家在寻找西方替代者”英伟达H200突然发布:容量翻倍,带宽狂飙外媒:英伟达特供芯片H20推迟至明年一季度发布英伟达的反击:挟H100以令诸侯重磅 |《开源数据库生态发展研究报告》发布 GreatSQL为MySQL5.7最佳替代方案!(古詩英譯) 暮江吟 – 白居易VC巨头红杉公开质疑:英伟达要卖500亿美元GPU,谁来买单?囤 H100 的都成了大冤种!英伟达发布最新 AI 芯片 H200:性能提升 2 倍,成本下降 50%英伟达的反击:挟 H100 以令诸侯囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%铜互联的替代者突发!英伟达H800/A800禁令竟提前生效,但4090意外豁免老人给下一代留路,给自己留脸吧红杉中国投了一家想替代英伟达的中国公司英伟达H800/A800禁售,30天生效!芯片禁令升级,仅剩V100可用?英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架“围猎”英伟达H100碾压H100,英伟达下一代GPU曝光!首个3nm多芯片模块设计,2024年亮相比英伟达H100快90%!最强大模型AI芯片来了,首搭141GB HBM3e英伟达H800/A800禁售,30天生效!美芯片禁令升级,仅剩V100可用?秋色传美收紧对华AI芯片出口限制,或影响英伟达H800,预计本周公布英伟达H100,没那么缺货了!RTX 4090 ,大涨!一百四十五 总结英伟达H20预计3月到货 中国企业观望不买单英伟达H100的最强替代者
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。