Redian新闻
>
英伟达H100横扫MLPerf ,训练性能吊打A100

英伟达H100横扫MLPerf ,训练性能吊打A100

公众号新闻

源:内容半导体行业观察(ID:icbank)编译自hpcwire,谢谢。

在首次推出全面的 MLPerf 推理基准两个月后, NVIDIA H100 Tensor Core GPU 在行业集团最新的 AI 训练测试中创下了企业 AI 工作负载的世界纪录。


结果表明,H100 是在创建和部署高级 AI 模型时要求最高性能的用户的最佳选择。


MLPerf 是衡量 AI 性能的行业标准。它得到了包括亚马逊、Arm、百度、谷歌、哈佛大学、英特尔、Meta、微软、斯坦福大学和多伦多大学在内的广泛团体的支持。


在今天发布的相关 MLPerf 基准测试中,NVIDIA A100 Tensor Core GPU 提高了他们去年在高性能计算 (HPC) 领域设定的标准。



首次提交 MLPerf 训练时,NVIDIA H100 GPU 的速度比 A100 GPU 快 6.7 倍


H100 GPU(又名 Hopper)提高了 MLPerf 训练中每个加速器的性能标准。首次提交 MLPerf 训练时,它们的性能比上一代 GPU 高 6.7 倍。通过同样的比较,由于软件的进步,今天的 A100 GPU 又增加了 2.5 倍。


部分由于其 Transformer Engine,Hopper 在训练流行的自然语言处理 BERT 模型方面表现出色。它是 MLPerf AI 模型中最大且最需要性能的模型之一。


MLPerf 让用户有信心做出明智的购买决定,因为基准涵盖了当今最流行的 AI 工作负载——计算机视觉、自然语言处理、推荐系统、强化学习等。这些测试经过同行评审,因此用户可以依赖他们的结果。


A100 GPU 在 HPC 中达到新的高峰


在单独的 MLPerf HPC 基准测试套件中,A100 GPU 横扫了在超级计算机上运行的苛刻科学工作负载中训练 AI 模型的所有测试。结果表明 NVIDIA AI 平台能够扩展以应对世界上最严峻的技术挑战。


例如,A100 GPU 在 CosmoFlow 天体物理学测试中训练 AI 模型的速度比两年前第一轮 MLPerf HPC 中的最佳结果快 9 倍。在相同的工作负载下,A100 的每芯片吞吐量也比其他产品高出 66 倍。


HPC 基准训练用于天体物理学、天气预报和分子动力学工作的模型。它们属于许多技术领域,如药物发现、采用人工智能来推动科学发展。



Nvidia 表示,在全球范围内的测试中,A100 GPU 在训练速度和吞吐量方面均处于领先地位


亚洲、欧洲和美国的超级计算机中心参加了最新一轮的 MLPerf HPC 测试。在 DeepCAM 基准测试的首次亮相中,戴尔科技公司使用 NVIDIA A100 GPU 展示了强劲的结果。


无与伦比的生态系统


在企业 AI 训练基准测试中,包括 Microsoft Azure 云服务在内的共有 11 家公司使用 NVIDIA A100、A30 和 A40 GPU 提交。包括华硕、戴尔科技、富士通、技嘉、惠普企业、联想和美超微在内的系统制造商总共使用了九个 NVIDIA 认证系统来提交他们的申请。


在最新一轮中,至少有 3 家公司与 NVIDIA 一起提交了所有 8 个 MLPerf 训练工作负载的结果。这种多功能性很重要,因为现实世界的应用程序通常需要一套不同的 AI 模型。


NVIDIA 合作伙伴之所以参与 MLPerf,是因为他们知道对于客户评估 AI 平台和供应商而言,这是一个有价值的工具。


NVIDIA AI 平台提供从芯片到系统、软件和服务的完整堆栈。这可以随着时间的推移实现持续的性能改进。


例如,最新 HPC 测试中的提交应用了 技术文章中描述的一套软件优化和技术。他们一起将一个基准测试的运行时间缩短了 5 倍,从 101 分钟缩短到 22 分钟。


NVIDIA 还针对企业 AI 基准测试优化其平台。例如,我们使用 NVIDIA DALI  为计算机视觉基准有效地加载和预处理数据。


测试中使用的所有软件都可以从 MLPerf 存储库中获得,因此任何人都可以获得这些世界级的结果。NVIDIA 不断将这些优化整合到 NGC 上可用的容器中,  NGC是 GPU 应用程序的软件中心。


★ 点击文末【阅读原文】,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3217内容,欢迎关注。

推荐阅读


Arm“威胁”变更授权模式?发生了什么事?

日本半导体10年规划:2nm在其中!

芯片巨头的新战场


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
扬言「吊打」英伟达的AI芯片公司,快被现实打趴了金子般的一颗心 - 答谢亮妈蔬法精选SDE岗位 | Juniper Networks、Rivian、Tulip Interfaces热招中!2023年 AI 十大展望:GPT-4 领衔大模型变革,谷歌拉响警报,训练数据告急元宇宙更近一步!英伟达重磅更新Omniverse Enterprise,性能、体验跨代提升 | CES 2023英伟达发布汽车大算力芯片Thor,性能达Orin8倍|最前线马斯克让上海特斯拉工人空降美国,训练美国人卷起来。。。轻松愉快在坎昆NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息英伟达RTX 4070 Ti跑分曝光,性能接近RTX 3090 Ti英伟达 RTX 4070 Ti 显卡跑分曝光:OpenCL 性能比 RTX 3070Ti 快 45.8%Alphacool 为英伟达 RTX 4090 显卡推出 Eiswolf 2 一体式水冷一文看得 Linux 性能分析|perf原理CPT被H1B RFE成功上岸分享 | 各类H1B RFE拆招指南AMD最强AI芯片炸场CES!豪塞1460亿晶体管,训练算力涨8倍Logitech G502 HERO High Performance RGB Gaming Mouse增加Matplotlib画图教程!MLNLP社区Paper Picture Writing Code项目最新更新!巩俐携74岁老公现身,穿这么土还能吊打全场?3行代码建模,训练速度提升200%?这款时序开源神器PaddleTS太强了!使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群畅游法国(16)-奥尔良之围赢了!3-0横扫日本女团,中国女团全胜夺冠!男团也险胜日本,晋级决赛一文看懂 Linux 性能分析|perf 原理MLNLP前沿综述分享第一期 | 美国Pinterest公司@吴凌飞:面向自然语言处理的图深度学习德国下萨克森州的沃尔芬比特尔推特不再优先审查新冠不实信息;亚马逊云科技 re:Invent 全球大会开幕;英伟达训练AI玩MC获奖 | 极客早知道NeurIPS22|改进何恺明 MAE!GreenMIM:整合Swin与MAE,训练速度大幅提升!英国女王与厕所7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型英伟达 RTX 4070 Ti 跑分曝光:性能接近 RTX 3090 Ti 但售价仅有 40%英伟达首席科学家:5nm实验芯片用INT4达到INT8的精度,每瓦运算速度可达H100的十倍能吊打香水的沐浴露!让每一次洗澡都是享受MLPerf排名榜刷新:相同GPU配置训练BERT,飞桨用分布式技术拿下世界第一对话黑芝麻智能:明年推下一代自动驾驶芯片,性能超过英伟达Orin | 甲子光年一文看懂 Linux 性能分析|perf 源码实现
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。