Redian新闻
>
老黄H100再破纪录,4分钟训完GPT-3!全新「特供版」H20、L20和L2曝光,性能史诗级缩水

老黄H100再破纪录,4分钟训完GPT-3!全新「特供版」H20、L20和L2曝光,性能史诗级缩水

公众号新闻



  新智元报道  

编辑:桃子 好困
【新智元导读】英伟达H100再次刷榜了,不到4分钟就训完GPT-3,比6月成绩提升3倍。另外,特供版H20、L20和L2性能全都爆出。

H100再次在MLPerf中刷新了记录!
英伟达超算NVIDIA Eos在GPT-3模型的基准测试中,只用了3.9分钟就完成了训练。
这比6月份的刷新记录的成绩——10.9分钟,提升了近3倍。
Eos使用了多达10,752个H100和NVIDIA Quantum-2 InfiniBand网络互连。
通过推算,Eos现在可以在短短8天内进行训练,比之前使用512个A100 GPU的先进系统快73倍。
在本轮新的生成式AI测试中,1,024个NVIDIA Hopper架构GPU在2.5分钟内完成了基于Stable Diffusion文本到图像模型的训练基准测试,为这一新工作负载设定了高标准。
与此同时,外媒曝光了英伟达为应对新规而打造的全新「特供版」芯片——H20、L20和L2。

系统扩展效率飙升93%


最新的结果部分是由于使用了有史以来应用于MLPerf基准测试的最多加速器。
10,752个H100 GPU远远超过了6月份AI训练的规模,当时英伟达使用了3,584个Hopper GPU。
GPU数量扩展3倍,性能扩展了2.8倍,效率达到93%,这在一定程度上要归功于软件优化。
高效扩展是生成式AI的关键要求,因为LLM每年都在以一个数量级的速度增长。
最新结果显示,即使是世界上最大的数据中心,英伟达也有能力应对这一前所未有的挑战。
这一成就归功于加速器、系统和软件创新的全栈平台,Eos和Microsoft Azure在最近一轮测试中都使用了该平台。
Eos和Azure在各自的提交中都采用了10,752个H100。它们的表现相差不到2%,展示了英伟达AI在数据中心和公有云部署中的高效性。
英伟达依靠Eos完成了各种关键任务。
它有助于推进NVIDIA DLSS和ChipNeMo等计划,后者是帮助设计下一代GPU的生成式AI工具。

9项基准测试,刷新记录


除了在生成式AI方面取得进步,英伟达在这一轮测试中还刷新了几项新的记录。
比如,在训练推荐系统模型的测试中,H100 GPU比上一轮快了1.6倍。在计算机视觉模型RetinaNet的测试中,性能提高了1.8倍。
这些性能提升来源于软件和硬件规模扩充的优化结合。
英伟达再次成为唯一一家完成了所有MLPerf测试的公司。H100在9项基准测试中展示了最快的性能和最大的扩展性。
这些加速为用户训练大模型或用NeMo等框架自定义模型以满足业务需求,带来了更快上市时间、更低成本和节省能源。
这一轮测试中,包括华硕、戴尔技术、富士通、技嘉、联想、QCT和超微等11家系统制造商在提交结果中使用了NVIDIA AI平台。

特供版H20、L20和L2性能曝光


在过去几年中,美国对高性能硬件出口实施了非常严格的限制。
尤其是在2023年11月生效的新规,更是要求所有达到一定总处理性能和/或性能密度的硬件都必须获得出口许可。
据最新泄露的文件和四位熟悉内情的人士透露,为了遵守美国的出口管制,英伟达已经推出了三款全新的「中国定制版」芯片——HGX H20、L20 PCle 和 L2 PCle GPU。

其中,HGX H20配有高达96GB的HBM3显存,以及4TB/s的带宽,并且基于全新的Hopper架构。
与H100的50MB二级缓存相比,H20还拥有更大的60MB二级缓存。
然而在性能方面,HGX H20只能提供FP64精度1 TFLOPS(H100为34 TFLOPS)和FP16/BF16精度148 TFLOPS(H100为1,979 TFLOPS)的算力。
由此,功耗也从700W降到了400W。

有趣的是,基于安培架构并配备24GB HBM2的入门级A30 GPU,在FP64和FP16/BF16精度下,都要比HGX H20快不少。
至于L20和L2 PCIe GPU,则是基于阉割后的AD102和AD104核心,对应的是与L40和L40S相同的市场。
更直观地,RTX 4090采用的便是AD102的变体,而4070和4070Ti则是基于AD104的变体。

上下滑动查看

除此之外,为了遵守新规,HGX H20、L20 PCle和L2 PCle GPU不仅性能是残血的,而且还只配备了残血版的NVLink连接。
参考资料:
https://blogs.nvidia.com/blog/2023/11/08/scaling-ai-training-mlperf/?ncid=so-twit-497169&=&linkId=100000225579745
https://www.tomshardware.com/tech-industry/nvidia-readies-new-ai-and-hpc-gpus-for-china-market-report




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%iQOO 12:影像史诗级进化,一款更精致的性能旗舰MLPerf放榜,中国AI芯片公司再获世界第一!大模型推理三项冠军,性能超越H100纽约一室月租平均$4100再创纪录正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%无中介费|10.1入住|近BU步行6分钟/绿线B步行4分钟全新豪华公寓两室一厅两卫3800,包水暖英伟达将恢复中国“特供版”AI芯片出货;雷军给团队发百万美金年度大奖;OpenAI下周推出GPT Store | AI一周资讯26 养小鬼过去12个月,全球气温再破纪录从H20到H200,国产算力差在哪儿?英伟达发布最强AI芯片H200,性能狂飙/苹果将叫停摇一摇跳转广告/GPT-5 正在开发中后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023OpenAI史诗级更新:人人都可定制GPT,GPT商店上线,模型价格打骨折老黄深夜炸场,世界最强AI芯片H200震撼发布!性能飙升90%,Llama 2推理速度翻倍,大批超算中心来袭OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-423 帮忙养媳妇阿里云发布通义千问 2.0,性能超 GPT-3.5,加速追赶 GPT-4 | 新闻英伟达将恢复中国特供版 AI 芯片出货;用户喊话马斯克:受够了 X 的加密货币广告;两协会倡议点餐时不强制关注公众号|极客早知道外媒:英伟达特供芯片H20推迟至明年一季度发布【资讯】2023是法国有记录以来温度第2高的年份,24年或将再破纪录参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架24 紫宸殿Win11 23H2正式推送!堪称史诗级更新!英伟达再推「中国特供版」AI 芯片:人工智能竞争中的猫鼠游戏【财闻联播】同缅方通话,公安部部长表态!英伟达将恢复中国"特供版"AI芯片出货京东联合美的小米等发起真低价倡议;马斯克:特斯拉将坚持降价;iQOO12曝光囤 H100 的都成了大冤种!英伟达发布最新 AI 芯片 H200:性能提升 2 倍,成本下降 50%第一次危机25 三郎索命最强大模型训练芯片H200发布!141G大内存,AI推理最高提升90%,还兼容H100英伟达3个月卖出800吨H100!老黄竟自曝万亿GPU霸主「三无」策略OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4英伟达中国特供版RTX 5880发布!性能比旗舰大砍近25%,比RTX 5000只高6%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。