Redian新闻
>
英伟达H100的最强替代者

英伟达H100的最强替代者

公众号新闻

来源:内容由半导体行业观察(ID:icbank)编译自servethehome,谢谢。

在我们(指代servethehome)撰写本文时,NVIDIA H100 80GB PCIe 在 CDW 等在线零售商处的售价为 3.2 万美元,并且缺货了大约六个月。可以理解的是,NVIDIA 的高端(几乎)万能 GPU 的价格非常高,需求也是如此。NVIDIA 为许多人工智能用户和那些在企业中运行混合工作负载的用户提供了一种替代方案,但这种方案并不引人注目,但这是非常好的。NVIDIA L40S 是面向图形的 L40 的变体,它正迅速成为人工智能领域最保守的秘密。让我们深入了解原因。


NVIDIA A100、NVIDIA L40S 和 NVIDIA H100


首先,我们首先要说的是,如果您现在想要训练基础模型(例如 ChatGPT),那么 NVIDIA H100 80GB SXM5 仍然是首选 GPU。一旦基础模型经过训练,通常可以在成本和功耗显着降低的部件上根据特定领域的数据或推理来定制模型。


NVIDIA H100


目前,用于高端推理的 GPU 主要有三种:NVIDIA A100、NVIDIA H100 和新的 NVIDIA L40S。我们将跳过NVIDIA L4 24GB,因为它更像是低端推理卡。


NVIDIA H100 L40S A100 堆栈顶部


NVIDIA A100 和 H100 型号基于该公司各自代的旗舰 GPU。由于我们讨论的是 PCIe 而不是 SXM 模块,因此外形尺寸之间两个最显着的差异是 NVLink 和功耗。SXM 模块专为更高功耗而设计(大约是 PCIe 版本的两倍),并通过 NVLink 和多 GPU 组件中的 NVSwitch 拓扑进行互连。


NVIDIA A100 PCIe于 2020 年以 40GB 型号推出,然后在 2021 年中期,该公司将产品更新为A100 80GB PCIe 附加卡。多年后,这些卡仍然很受欢迎。


NVIDIA A100 80GB PCIe


NVIDIA H100 PCIe是专为主流服务器设计的低功耗 H100。考虑 PCIe 卡的一种方法是,在电压/频率曲线的不同部分运行相似数量的芯片,旨在降低性能,但功耗也低得多。


NVIDIA H100 型号和 NVLink


即使在 H100 系列内也存在一些差异。NVIDIA H100 PCIe 仍然是 H100,但在 PCIe 外形规格中,它降低了性能、功耗和一些互连(例如 NVLink 速度)。



L40S 则完全不同。NVIDIA 采用了基础 L40(一款使用 NVIDIA 最新 Ada Lovelace 架构的数据中心可视化 GPU),并更改了调整,使其更多地针对 AI 而不是可视化进行调整。



NVIDIA L40S 是一款令人着迷的 GPU,因为它保留了 L40 的光线追踪核心和 DisplayPort 输出以及支持 AV1 的 NVENC / NVDEC 等功能。与此同时,NVIDIA 将更多的功率用于驱动 GPU 人工智能部分的时钟。


NVIDIA L40S 4x DisplayPort


我们将其放在图表上以便更容易可视化。NVIDIA 的规格有时甚至会根据 NVIDIA 来源单一视图而有所不同,因此这是我们能找到的最好的规格,如果我们获得规格更新,我们将对其进行更新。我们还包括双卡H100 NVL,它有两个增强型 H100,它们之间有一个 NVLink 桥,因此将其视为双卡解决方案,而其余的都是单卡。



这里有几点值得关注:


与 L40 相比,L40S 是一款在人工智能训练和推理方面大幅改进的卡,但人们可以很容易地看到共同的传统。


如果您需要绝对的内存容量、带宽或 FP64 性能,则 L40 和 L40S 不适合。鉴于目前 AI 工作负载取代传统 FP64 计算的相对份额,大多数人都会接受这种权衡。


L40S 的内存看起来可能比 NVIDIA A100 少得多,而且物理上确实如此,但这并不是故事的全部。NVIDIA L40S 支持NVIDIA Transformer Engine和 FP8。使用 FP8 可以极大地减小数据大小,因此,与 FP16 值相比,FP8 值可以使用更少的内存,并且需要更少的内存带宽来移动。NVIDIA 正在推动 Transformer Engine,因为 H100 也支持它,有助于降低其 AI 部件的成本或提高其性能。


L40S 有一组更注重可视化的视频编码/解码,而 H100 则专注于解码方面。


NVIDIA H100 速度更快。它还花费更多。从某种意义上说,在我们撰写本文时,在列出公开价格的 CDW 上,H100 的价格约为 L40S 价格的 2.6 倍。


另一个重要问题是可用性。如今,获得 NVIDIA L40S 比排队等待 NVIDIA H100 快得多。


秘密在于,在 AI 硬件方面取得领先的一种新的常见方法是不使用 H100 进行模型定制和推理。相反,我们又回到了我们多年前介绍过的熟悉的架构,即密集 PCIe 服务器。2017 年,当我们进行DeepLearning11 时,将 NVIDIA GeForce GTX 1080 Ti 塞进服务器中的 10 倍 NVIDIA GTX 1080 Ti 单根深度学习服务器甚至是大公司(例如世界某些地区的搜索/网络超大规模企业)的首选架构驾驶公司。



NVIDIA 更改了其 EULA,禁止此类配置,并且使其软件更加关注用于 AI 推理和训练的数据中心部分,因此现在情况有所不同。


到 2023 年,考虑同样的概念,但采用 NVIDIA L40S 技术(并且没有服务器“humping”。)



通过购买 L40S 服务器并获得比使用 H100 更低成本的 GPU,人们可以获得类似的性能,而且价格可能更低。


NVIDIA L40S 与 H100 的其他考虑因素


L40S 还有其他几个方面需要考虑。一是它支持NVIDIA Virtual GPU vGPU 16.1,而 H100 仍然只支持 vGPU 15。NVIDIA 正在将其 AI 芯片从 vGPU 支持方面进行一些拆分。



对于那些想要部署一种 GPU 机器然后能够运行不同类型的工作负载的人来说,像 L40S 这样的东西是有意义的。鉴于其可视化根源,它还拥有支持 AV1 和 RT 内核的 NVIDIA 视频编码引擎。


L40S 不支持一项功能,那就是 MIG。我们之前已经研究过 MIG,但它允许将 H100 分成最多 7 个不同大小的分区。这对于在公共云中拆分 H100 GPU 非常有用,以便可以在客户之间共享 GPU 资源。对于企业来说,这通常是一个较低兴奋度的功能。


此外,部署 L40S 的功耗较低,仅为 SXM5 系统功耗的一半。这对于那些想要横向扩展但每个机架可能没有大量电力预算的人来说非常有吸引力。


最重要的是,L40S 的速度不如 H100,但凭借 NVIDIA 的 FP8 和 Transformer Engine 支持,对于许多人来说,它比 H100 更可用、更容易部署,而且通常价格更低。


最后的话


关于 NVIDIA H100 PCIe 与 L40S 以及为什么人们会使用任一版本,目前有很多非常糟糕的信息。希望这有助于在更大程度上澄清这一点。对我们来说,L40S 并不便宜,但它让我们想起 6 多年前,当时人工智能领域的做法是在服务器中使用成本较低的 NVIDIA GPU,然后使用更多的 GPU。NVIDIA 再次推出该型号,使用 L40S 和官方认可的架构,支持多达数千个 GPU。


参考文献

https://www.servethehome.com/nvidia-l40s-is-the-nvidia-h100-ai-alternative-with-a-big-benefit-supermicro/

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3575期内容,欢迎关注。

推荐阅读


英伟达卷向EDA,用大模型助力芯片设计

芯片巨头,集体看衰?

“大多数AI芯片公司,都会倒闭”


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“发展中国家在寻找西方替代者”英伟达H200突然发布!最强AI芯片!容量翻倍,带宽狂飙!囤 H100 的都成了大冤种!英伟达发布最新 AI 芯片 H200:性能提升 2 倍,成本下降 50%人类文明的产生和发展(第二章摘要)6001 血壮山河之随枣会战 “和平运动 ”1传美收紧对华AI芯片出口限制,或影响英伟达H800,预计本周公布H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型英伟达H100,没那么缺货了!RTX 4090 ,大涨!囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%英伟达的反击:挟 H100 以令诸侯英伟达H800/A800禁售,30天生效!芯片禁令升级,仅剩V100可用?铜互联的替代者比英伟达H100快90%!最强大模型AI芯片来了,首搭141GB HBM3e不到赤道非好汉——巴西BR174公路纪行AMD MI300绝杀英伟达H100?跑GPT-4性能超25%,AI芯片大决战一触即发英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架英伟达H200突然发布:容量翻倍,带宽狂飙全球哄抢H100!英伟达成GPU霸主,首席科学家揭秘成功四要素美芯片禁令升级!英伟达H800/A800禁售,30天生效!仅剩V100可用?英伟达最强芯片性能公布,比H100高17%路边的野花老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍英伟达的美国对手们已经开始拿中国攻击英伟达了英伟达3个月卖出800吨H100!老黄竟自曝万亿GPU霸主「三无」策略突发!英伟达H800/A800禁令竟提前生效,但4090意外豁免碾压H100,英伟达下一代GPU曝光!首个3nm多芯片模块设计,2024年亮相大华股份发布星汉大模型;苹果AI服务器支出明年或达47.5亿美元;英伟达H100成新型债务资产丨AIGC大事日报北美天气大热疯狂的英伟达H100月薪两万,互联网大厂疯抢AI数据标注员;iPhone16或推出AIGC功能;AMD推出AI芯片,对标英伟达H100丨AI周报“围猎”英伟达H100突发!英伟达H800/A800禁令竟提前生效,但4090意外豁免!碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%英伟达H800/A800禁售,30天生效!美芯片禁令升级,仅剩V100可用?揭秘:英伟达H100最佳替代者
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。