英伟达L40S GPU架构及A100、H100对比
来源参考“英伟达发布L40S GPU,中高速光模块或将受益”。在SIGGRAPH 2023上,NVIDIA宣布推出全新的NVIDIA L40S GPU以及搭载L40S的NVIDIA OVX服务器。L40S GPU和OVX服务器主要针对生成式人工智能模型的训练和推理环节,有望进一步提升生成式人工智能模型的训练和推理场景下的计算效率。
L40S基于Ada Lovelace架构,配备有48GB的GDDR6显存和 846GB/s 的带宽。在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下,可以提供超过 1.45 PFLOPS 的张量处理能力。根据英伟达给出的数据,在微调(Fine-tune)和推理场景的测试用例下,L40S 的计算效率较 A100 均有所提高。
相比于 A100 GPU,L40S 在显存、算力等多方面有所差异:
(1)L40S采用较为成熟的GDDR6显存,相比A100与H100使用的 HBM 显存,在显存带宽上有所降低,但技术更成熟,市场供应较为充足。
(2)L40S 在 FP16 算力(智能算力)上较 A100 有所提高,在 FP32 算力(通用算力)上较 A100 提高明显,更适应科学计算等场景。
(3)L40S 在功率上较 A100 有所降低,有利于降低数据中心相关能耗。
(4)根据 Super Micro 的数据,L40S 在性价比上较 A100 更有优势。
基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 PetaFLOPS的张量处理能力。
对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。
此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212TFLOP的光线追踪性能。功耗同时也达到了350瓦。
对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。
在L40S GPU的加持下,英伟达还针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。英伟达方面宣布,对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调;对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。
(4)L40S的前述优势可能促使下游云厂商加大采购,或将为以200G和400G光模块为代表的中高速光模块带来新的增长空间。
近日,英伟达公布 FY2024 第二季度财报。报告期内:英伟达营收为 135.1 亿美元,创历史新高,同比增长 101%,环比增长88%;毛利润为 94.6 亿美元,同比增长 225%,环比增长104%,毛利率达到 70%;净利润为 61.9 亿美元,同比增长843%,环比增长 203%。
在数据中心业务方面,受益于生成式人工智能训练和推理需求的强劲增长,英伟达在 FY2024Q2 实现收入 103.2 亿美元,同比增长 171%,环比增长 141%。英伟达方面表示,针对生成式人工智能场景、采用 Grace Hopper 架构的 GH200 芯片已全面生产,CY2023Q3 有望推出搭载 GH200 芯片的 OEM 服务器。同时,英伟达针对生成式人工智能模型微调场景推出了 L40S 服务器,并与惠普、戴尔、联想等系统制造商展开合作,L40S 服务器未来有望在全球企业中得到部署。
今年以来,在 ChatGPT和 Bard等生成式人工智能应用落地的影响下,生成式人工智能模型的训练和推理计算需求快速增长。相关算力集群的规模持续上升,也为以光模块为代表的人工智能基础设施领域带来了新增量。
申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。
推荐阅读
2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。
微信扫码关注该文公众号作者