Redian新闻
>
GPU产能不够,性能来凑

GPU产能不够,性能来凑

公众号新闻

来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。


加速深度学习项目的默认方法是增加 GPU 集群的大小。然而,成本却越来越令人望而却步。根据 Andreessen Horowitz 的说法,许多投资人工智能的公司“将其筹集的总资金的 80% 以上用于计算资源”,这是正确的。GPU 是人工智能基础设施的基石,应为其分配尽可能多的预算。然而,在成本高昂的情况下,还有其他提高性能的方法值得考虑,并且变得越来越必要。


扩展 GPU 集群绝非易事,尤其是在生成型人工智能加速了短缺的情况下。NVIDIA A100 GPU是最先受到影响的产品之一(据WCCFtech 报道,其价格比建议零售价高出 40%  ),而且现在它们非常稀缺,以至于某些版本的交付时间长达一年。这些供应链挑战迫使许多人考虑使用更高端的 H100 作为替代方案,但满载的服务器将伴随着明显更高的价格标签。


可以理解的是,超大规模厂商正在挑选他们能得到的每一块硅片,因为他们不太关心价格点。但对于那些投资自己的基础设施以为其行业创建下一个伟大的生成式人工智能解决方案的人来说,这一发展揭示了充分利用现有 GPU 每一滴效率的重要性。


让我们看看企业如何通过对具有网络和存储的人工智能基础设施的设计提出修改建议,从其计算投资中获得更多收益。


数据问题


如果一个项目不能等到短缺降温,或者其预算不能提供全权委托,那么一个有用的方法是考虑现有计算基础设施的低效率以及如何缓解这些资源的最佳利用。最大限度地提高 GPU 利用率是一项挑战,因为数据传输速度通常太慢,无法让 GPU 保持忙碌。有些用户的GPU利用率低至20%,这显然是不可接受的。对于人工智能团队来说,这是一个开始寻找最大化人工智能投资的方法的好地方。


GPU 是人工智能环境的引擎。正如汽车发动机需要汽油才能运行一样,GPU 也需要数据来运行。限制数据流会限制 GPU 性能。如果 GPU 仅以 50% 的效率工作,AI 团队的工作效率就会降低,项目完成时间将增加两倍,投资回报率也会减半。基础设施设计必须确保 GPU 能够高效运行并提供预期的计算性能。


您如何将数据传输到 GPU?


值得注意的是,DGX A100 和 H100 服务器的内部存储容量高达 30 TB。然而,考虑到平均模型大小约为 150 TB,这种容量对于绝大多数深度学习模型来说是不可行的。因此,需要额外的外部数据存储来为 GPU 提供数据。


虽然额外的存储有时可能仅仅意味着在某些环境中附加一个“JBOD”(只是一堆驱动器),但在人工智能中情况并非如此。那么,需要什么样的存储呢?


存储性能


AI存储由服务器、 NVMe SSD和存储软件组成  ,通常打包在一个简单的设备中。正如 GPU 经过优化,可以与数十万个核心并行处理大量数据,为网络提供数据的存储也需要具有高性能。人工智能存储的基本要求是——以及存储整个数据集——能够以线速(网络允许的最快速度)将数据传输到 GPU,以便使 GPU 饱和并保持其高效运行。任何不足都意味着没有充分利用这一非常昂贵且宝贵的 GPU 资源。


以能够跟上全速运行的 10 或 15 个 GPU 服务器集群的速度提供数据,将有助于优化 GPU 资源并在整个环境中提高性能,从而充分利用预算来获得最佳性能。大部分来自整个基础设施。


事实上,挑战在于未针对人工智能进行优化的存储供应商需要许多客户端计算节点才能从存储中提取全部性能。如果从一台 GPU 服务器开始,则相反需要许多存储节点才能达到为单个 GPU 服务器供电的性能。


不要相信所有基准测试结果;同时使用多个 GPU 服务器时很容易获得大量带宽,但人工智能可以从存储中受益,存储可以在需要时将其所有性能提供给单个 GPU 节点。坚持使用可提供所需超高性能的存储,但要在单个存储节点中实现此目的,并且能够向单个 GPU 节点提供此性能。这可能会缩小市场范围,但在开始人工智能项目之旅时,它是优先考虑的事项。


网络带宽


更强大的计算能力推动了对人工智能基础设施其余部分的不断增长的需求。带宽要求已达到新的高度,以便能够管理每秒从存储通过网络发送并由 GPU 处理的大量数据。存储设备中的网络适配器 (NIC) 连接到网络中的交换机,而网络中的交换机又连接到 GPU 服务器内的适配器。正确配置后,NIC 可以将存储直接连接到 1 或 2 个 GPU 服务器中的 NIC,不会出现瓶颈,但请务必咨询解决方案提供商以获取有关网络的建议。


确保带宽足够高,能够将最大数据负载从存储传递到 GPU,从而使它们在持续时间内保持饱和是关键,而在许多情况下,未能做到这一点就是我们看到 GPU 利用率较低的原因。


GPU编排


一旦基础设施到位,GPU编排和分配工具就可以极大地帮助团队更有效地汇集和分配资源,了解GPU使用情况,提供更高级别的资源控制,减少瓶颈并提高利用率。只有底层基础设施首先允许数据正确流动,这些工具才能按预期完成所有这些工作。


数据在人工智能中的作用


在人工智能中,数据是输入,因此用于企业关键任务应用程序的传统企业闪存存储的许多强大功能(例如库存控制数据库服务器、电子邮件服务器、备份服务器)与人工智能根本不相关。这些解决方案是使用遗留协议构建的,虽然它们已被重新用于人工智能,但这些遗留基础明显限制了它们在 GPU 和人工智能工作负载方面的性能,推高了价格,并将资金浪费在过于昂贵和不必要的功能上。


当前全球 GPU 短缺,加上人工智能领域蓬勃发展,找到最大化 GPU 性能的方法变得前所未有的重要——尤其是在短期内。随着深度学习项目的不断蓬勃发展,这些是降低成本和提高产出的一些关键方法。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3499期内容,欢迎关注。

推荐阅读


背面供电技术,越来越热!

大芯片,新机会!

开源之风吹向存算一体芯片


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第三章 旧文明的社会组织 (1)防蓝光和紫外线都不够,隐形眼镜开卷嫌支持不够,乌克兰酝酿“报复”狗子因腿短吵架觉得气势不够,脚踩另一只狗子狂吠…网友:骂得太脏了!微软:AI 芯片不够,数据中心恐中断;马斯克:推特月活 5.4 亿创新高;DeepMind 推全新「机器人模型」 | 极客早知道硬成绩不够,神修图来凑:输不起的美国遭遇信心危机?清华唐杰新作WebGLM:参数100亿、主打联网搜索,性能超OpenAI WebGPT宇宙人(1300期)“种菜”还不够,中国人要上太空养鱼啦;援埃及卫星AIT中心项目通过验收;中非卫星遥感应用合作中心成立代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT5097 血壮山河之武汉会战 浴血田家镇 5班主任说,这孩子天资不够,只能靠努力了...参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架十大国产GPU产品及规格概述欧洲心脏杂志:超25万大规模人群研究发现:这6种食物吃不够,心脏病风险更高击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%能力不够,算命来凑世界首颗AI全自动设计CPU!中国团队重磅推出,性能堪比486,规模提升4000倍俄罗斯最强CPU,性能如何?澳洲房租或于明年停止飙升?专家:政府监管不够,租金恐继续上涨主流国产GPU产品及规格概述(2023)天哪!英国最大家庭生了22个娃还不够,母亲13岁就怀孕,这…在野猪笼落下那一刻想到的旧车变超跑!澳男用ChatGPT改装汽车,摇身一变增值$6万,性能堪比奔驰宝马(组图)午夜惊魂 冷明关注AIGC还不够,你还需要AI PC早鸟报|抖音外卖将主攻60元以上套餐;美团搭建泛娱乐生态;任天堂回应Switch性能不够...“种菜”还不够,中国人要上太空养鱼啦!加息持续!加拿大银行贷款额度不够,私贷如何才够安全?6000万算不算中产?在上海够,在小红书不够长期睡不够,这些病跑不了菜鸟推出自营快递;任天堂回应Switch性能不够答案令人泪目;贾跃亭再次融资成功一本日历详解国内“顶级学府”!光有好分数不够,还得会选学校和专业!1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4【老键曲库】Daniel Lozakovich – Tchaikovsky: Six Pieces, Op. 51, TH 14Stability AI火速发布Llama 2微调模型FreeWilly,性能媲美ChatGPT!网友惊呼游戏规则已改变
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。