Redian新闻
>
英伟达L40S GPU架构及A100、H100对比

英伟达L40S GPU架构及A100、H100对比

公众号新闻

来源参考“英伟达发布L40S GPU,中高速光模块或将受益”。在SIGGRAPH 2023上,NVIDIA宣布推出全新的NVIDIA L40S GPU以及搭载L40S的NVIDIA OVX服务器。L40S GPU和OVX服务器主要针对生成式人工智能模型的训练和推理环节,有望进一步提升生成式人工智能模型的训练和推理场景下的计算效率。

L40S基于Ada Lovelace架构,配备有48GB的GDDR6显存和 846GB/s 的带宽。在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下,可以提供超过 1.45 PFLOPS 的张量处理能力。根据英伟达给出的数据,在微调(Fine-tune)和推理场景的测试用例下,L40S 的计算效率较 A100 均有所提高。

相比于 A100 GPU,L40S 在显存、算力等多方面有所差异:

(1)L40S采用较为成熟的GDDR6显存,相比A100与H100使用的 HBM 显存,在显存带宽上有所降低,但技术更成熟,市场供应较为充足。

(2)L40S 在 FP16 算力(智能算力)上较 A100 有所提高,在 FP32 算力(通用算力)上较 A100 提高明显,更适应科学计算等场景。

(3)L40S 在功率上较 A100 有所降低,有利于降低数据中心相关能耗。

(4)根据 Super Micro 的数据,L40S 在性价比上较 A100 更有优势。

与A100 类似,L40S 通过 16 通道的 PCIe Gen 4 接口与 CPU进行通信,最大双向传输速率为 64 GB/s。相比之下,NVIDIAGrace Hopper 通过 NVLink-C2C 技术将 Hopper 架构的 GPU 与Grace 架构的 CPU 相连,在 CPU 到 GPU、GPU 到 GPU 间实现900 GB/s 的总带宽,较 PCIe Gen 5 快 7 倍。

基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 PetaFLOPS的张量处理能力。


对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。


此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212TFLOP的光线追踪性能。功耗同时也达到了350瓦。


对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。


在L40S GPU的加持下,英伟达还针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。英伟达方面宣布,对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调;对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。


L40S = 两个L40 用准先进封装(非CoWoS),利好国内先进封装,毕竟高端2.5D~3D不行,给国内2.2D封装指了一条明路,面对日益高涨的AI需求,分析与判断如下:
(1)由于PCIe Gen4接口的限制,L40S在GPU网络计算上的应用有所限制,因此对目前800G光模块的需求量影响有限。
(2)相较于A100,L40S在部分面向生成式人工智能模型的应用场景下有计算效率上的优势,且更具性价比。
(3)相较于A100,L40S使用GDDR6等相对成熟技术,有助于确保上游供应的稳定。

(4)L40S的前述优势可能促使下游云厂商加大采购,或将为以200G和400G光模块为代表的中高速光模块带来新的增长空间。

近日,英伟达公布 FY2024 第二季度财报。报告期内:英伟达营收为 135.1 亿美元,创历史新高,同比增长 101%,环比增长88%;毛利润为 94.6 亿美元,同比增长 225%,环比增长104%,毛利率达到 70%;净利润为 61.9 亿美元,同比增长843%,环比增长 203%。

在数据中心业务方面,受益于生成式人工智能训练和推理需求的强劲增长,英伟达在 FY2024Q2 实现收入 103.2 亿美元,同比增长 171%,环比增长 141%。英伟达方面表示,针对生成式人工智能场景、采用 Grace Hopper 架构的 GH200 芯片已全面生产,CY2023Q3 有望推出搭载 GH200 芯片的 OEM 服务器。同时,英伟达针对生成式人工智能模型微调场景推出了 L40S 服务器,并与惠普、戴尔、联想等系统制造商展开合作,L40S 服务器未来有望在全球企业中得到部署。

今年以来,在 ChatGPT和 Bard等生成式人工智能应用落地的影响下,生成式人工智能模型的训练和推理计算需求快速增长。相关算力集群的规模持续上升,也为以光模块为代表的人工智能基础设施领域带来了新增量。

下载链接:
英伟达发布L40S GPU,中高速光模块或将受益
龙芯CPU技术研究报告合集
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
《海光CPU+DCU技术研究报告合集(下)》 
375+份重磅ChatGPT专业报告(全网最全)
GPU研究框架(2023)
NVIDIA GPU架构白皮书
《NVIDIA A100 Tensor Core GPU技术白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110-GK210架构白皮书》
《NVIDIA Kepler GK110架构白皮书》
《NVIDIA Tesla P100技术白皮书》
《NVIDIA Tesla V100 GPU架构白皮书》
《英伟达Turing GPU 架构白皮书》
GPU技术专题汇总链接
深度报告:GPU研究框架

CPU和GPU研究框架合集

申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


推荐阅读

更多架构相关技术知识总结请参考“架构师技术全店资料打包汇总(全)(39本全)”相关电子书已经更新至39本,持续更新中。
1、下单“架构师技术全店资料打包汇总(全)”,包含服务器基础知识全解(终极版)pdf及ppt版本,价格仅收239元(原总价399元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
吴德耀与杜维明电信巨头被曝计划耗资33亿裁员5000人;科大讯飞刘庆峰:华为GPU能力可对标英伟达A100;中国恒大今日复牌丨雷峰早报机构点评汇总:英伟达L40带来算力网络预期差[电脑] 新一代千元级游戏神U来袭,AMD 锐龙5 7500F VS 13400对比评测《The Star Spangled Banner》&《七月的草原》从亏钱生意到利润1000%,英伟达靠什么成为万亿GPU霸主?SpaceX测试时成功点燃全部引擎;科大讯飞刘庆峰:华为GPU可对标英伟达A100;微软更新Office | AI 一周资讯3亿刀,特斯拉1万个H100集群上线!超算Dojo7月已经开工,全力加速L4自动驾驶用22000个英伟达H100入局AI,初创企业的豪赌WS15是个里程碑事件地铁2、10、17号线今晚定点加开,1、7、8、9、10、13号线今明将实施延时运营美国费城独立日游行(2011),齐聚一堂事业、家庭、自由 我都要20、30、40岁的独立女性如何抉择?——为什么Makers是一个特别适合宝洁人的保险经纪人团队年度最绝融资:拿英伟达H100抵押贷款165亿,买更多英伟达GPU扩建10个数据中心英伟达、云厂商们也没有H100余粮了!未来全球顶级芯片缺口达40多万张GPU微架构及生态研究框架(2023)历史小说《黄裳元吉》第一百零九章 无言成功在于远见?英伟达CEO称英伟达5年前把一切都押在了AI上英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进英伟达被曝挖走小鹏汽车副总裁吴新宙,何小鹏回应;寒武纪裁员,L4芯片研发暂停;电子书销量大跌29%,中国第一名易主丨雷峰早报雷军公布澎湃OS 完整系统架构;传苹果 2027 年发布折叠屏产品;英伟达开发 Arm 架构 PC 芯片 | 极客早知道6G内生AI架构及AI大模型至少8篇顶会!英伟达LLM研究科学家岗位门槛狂卷,震惊前谷歌大脑科学家全球哄抢H100!英伟达成GPU霸主,首席科学家揭秘成功四要素2023年6G内生AI架构及AI大模型(附下载)云存储:系统架构及技术基础代工一颗英伟达H100,台积电挣1000美金Java近期新闻:Grails 6.0、PrimeFaces 13.0、JUnit 5.10、GraalVM、新的 JEP 草案英伟达H100将在2024年之前售罄!推理GPU根本不够用,AI初创公司急了英伟达H100所获利润高达1000%!亚太将主导全球汽车传感器;微软Meta均在挑战OpenAI地位 | AIoT情报英伟达3个月卖出800吨H100!老黄竟自曝万亿GPU霸主「三无」策略碾压H100,英伟达下一代GPU曝光!首个3nm多芯片模块设计,2024年亮相英伟达宣布,H100/A100在这些国家限售GPT-5出世,需5万张H100!全球H100总需求43万张, 英伟达GPU陷短缺风暴
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。