Redian新闻
>
性价比超H100,英特尔发布中国版Gaudi2 AI加速卡

性价比超H100,英特尔发布中国版Gaudi2 AI加速卡

公众号新闻

机器之心发布

编辑:泽南

英特尔会是国内生成式 AI 算力的更优解吗?


在大语言模型(LLM)领域,越强大的模型就越需要算力。最近有消息称,当前业界标杆 GPT-4 在训练中使用了约 2.5 万块 A100,训练时长超过 90 天

如此高门槛的生成式 AI 赛道上,各家科技公司的竞争却异常激烈,国内市场甚至出现了 AI 加速卡供不应求的状态。对于 AI 训练的算力,人们一直以来都在依赖 GPU,最近,英特尔面向国内提出了一个新的解决方案。

7 月 11 日在北京举行的发布会上,英特尔正式于中国市场推出第二代 Gaudi 深度学习加速器 ——Habana Gaudi2。 

昨天的活动中,英特尔介绍了 Gaudi2 芯片的性能,并讨论了面向中国市场的英特尔 AI 战略、最新 AI 相关产品技术进展和解决方案的应用。

「Gaudi 深度学习加速器的大语言模型训练能力进一步丰富了我们的人工智能产品阵列,」英特尔公司执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 表示。「对于在中国运行深度学习训练和推理工作负载的客户来说,与市场上其他面向大规模生成式 AI 和大语言模型的产品相比,Gaudi2 是更理想的选择。除了在性能表现上超过 A100 之外,Gaudi2 在各种最先进的模型上相对于 A100 提供了约两倍的性价比。」

上周,英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 3.0 基准测试的最新榜单上展示了令人印象深刻的结果。该基准由 MLCommons 发布,是业内广泛认可的 AI 性能行业标准。

Gaudi2 加速器在计算机视觉模型 ResNet-50(8 卡)、Unet3D(8 卡),以及自然语言处理模型 BERT(8/64 卡)上均取得了优异的训练结果,在每个模型上性能都优于 A100,部分任务上接近 H100

此外,在大语言模型 GPT-3 的评测上,Gaudi2 也展现了实力。它是仅有的两个提交了 GPT-3 LLM 训练性能结果的解决方案之一(另一个是英伟达 H100)。在 GPT-3 的训练上,英特尔使用 384 块 Gaudi 2 加速器使用 311 分钟训练完成,在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95% 的扩展。

「相比之下,英伟达在 512 块 H100 GPU 上的训练时间则为 64 分钟。这意味着,基于 GPT-3 模型,每个 H100 的性能领先于 Gaudi2 3.6 倍,」Habana Labs 首席运营官 Eitan Medina 表示。「性价比是影响 H100 和 Gaudi2 相对价值的重要考量因素。Gaudi2 服务器的成本要比 H100 低得多。即使还没有配备 FP8,Gaudi2 在性价比上也胜过了 H100。」

英特尔表示,Gaudi2 在 MLPerf 上提交的结果没有经过模型或框架的特殊调校,这意味着用户也可以在本地或云端部署 Gaudi2 时获得类似的性能结果。

Gaudi2 在服务器和系统成本方面还具有显著的成本优势,这使得它可以成为英伟达 H100 的有力竞争对手。

去年,英特尔旗下的 Habana Labs 推出了第二代 AI 训练加推理芯片 Gaudi2。与头一代产品相比,Habana Gaudi 2 使用的制程工艺从 16 纳米跃升至 7 纳米,在矩阵乘法(MME)和 Tensor 处理器核心计算引擎中引入了 FP8 在内的新数据类型,Tensor 处理器核心数量增至 24 个,同时集成了多媒体处理引擎,内存升级至 96GB HBM2E。

在当前生成式 AI 看重的扩展性能方面,国内版本的 Gaudi2 每张芯片集成了 21 个专用于内部互联的 100Gbps(RoCEv2 RDMA)以太网接口(相比海外版本略有减少),从而实现了低延迟的服务器内扩展。

为支持客户轻松构建模型,或将当前基于 GPU 的应用迁移到 Gaudi2 服务器上,英特尔提供的 SynapseAI 软件套件针对 Gaudi 平台深度学习业务进行了优化。SynapseAI 集成了对 TensorFlow 和 PyTorch 框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求。

而在 Hugging Face 平台上,已有超过 5 万个模型使用 Optimum Habana 软件库进行了优化。Sandra Rivera 表示,英特尔通过与 Hugging Face 的合作,平台上的现有的模型只需要花费几十秒时间就可以调通运行在 Gaudi 加速器上。

目前,已有 OEM 厂商推出了基于英特尔 AI 加速卡的产品。在发布活动中,英特尔宣布 Gaudi2 首先将通过浪潮信息向国内客户提供,其服务器集成了 8 块 Gaudi2 加速卡 HL-225B,还包含两颗第四代英特尔至强可扩展处理器。

在昨天的活动中,英特尔也透露了其在 AI 加速领域的未来发展方向。下一代 Gaudi 3 芯片预计在明年推出,将采用台积电 5 纳米制程,也会同期推出国内版。而在 2025 年左右,英特尔计划将 Gaudi 与其现有 GPU 产品线进行整合。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
又一明星子女入读上中国际!快看这几所,性价比超高!英特尔A750-8G,高性价比装机方案演示Macy好折扣,双面被$17,13件套不锈钢锅具$29!这些性价比超高英伟达正准备推出具有 94GB 和 64GB 显存的 H100 Hopper 加速卡WAIC “探宝” | 这块高颜值加速卡,终于藏不住了希腊阿索斯山(Mount Athos),山间隐居性价比忒高:4099元,英特尔A770显卡DIY主机无中介费|随时入住|Commonwealth Ave上近BU步行5分钟高性价比Studio租金1950,包水暖。性价比超高!北岛省钱又好玩的旅游景点有哪些?你都去过吗?支持AI视频处理的高容量流媒体加速卡方案三大校区同时招生!性价比超高!全语言模式的中文夏令营找到了超牛!23岁小师妹0元发3分SCI,性价比超高!小白发文首选它!性价比贼高:4099元,英特尔A770显卡DIY主机百来块护脊书包,全网爆款坐姿矫正器!这些暑假学习好物性价比超高英特尔Gaudi2加速卡GPT-4详细参数分析极端分子和网暴性价比忒高:4399元,英特尔A770-16G显卡DIY主机这款儿童耳机,不入耳,不累耳,不屏蔽外音,性价比超高历史小说《黄裳元吉》第九十章 南返无中介费|随时入住|Commonwealth Ave上近BU步行5分钟高性价比Studio租金2300,包水暖。新一代直播场景下,视频加速卡在狂奔为土耳其大选添点色彩——体验正宗的土耳其风味——像土耳其厨师一样烹制美味的士每拿肉丸森宝的「街景积木」绝了!好玩又好看,性价比超高!!大牌“捡漏”!性价比超高包包全总结!!有哪些性价比超高的旅游目的地?英特尔发布中国定制版大模型专用芯片Gaudi2,用性价比挑战英伟达|甲子光年有啥性价比超高,还能一擦就白不用水洗的鞋用清洁剂?9.1入住|Commonwealth Ave上近BU步行5分钟高性价比Studio租金2000,包水暖。【Malden高级公寓】性价比超高|室内洗烘|接受本科生|NEU直达拒绝996还能拿高薪? 性价比超越MBB的宝藏咨询公司都在这了!初夏福利王炸,儿童网鞋大团!五款颜值在线的超舒适鞋子,性价比超高!性价比超高、排名被低估的计算机强校,毕业了科技大厂抢着要!马克谈天下(378) 聊聊世界各国的教师节无中介费|9.1入住|Commonwealth Ave上近BU步行5分钟高性价比Studio租金2200,包水暖。半中介费|10.1入住|Commonwealth Ave上近BU步行5分钟高性价比Studio租金2000,包水暖。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。