英伟达放大招!算力杀器来了公众号新闻2023-05-29 13:05 中国基金报记者 文夕 堪称“算力之王”的近万亿美元巨头英伟达,又抛出“大杀器”。 5月29日,英伟达CEO黄仁勋后脚就在今日的COMPUTEX大会上抛出多个重磅信息。其中最为引人瞩目的是,搭载256颗GH200 Grace Hopper超级芯片的新型DGX GH200人工智能超级计算机,堪称“算力杀器”。 据透露,谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户,以探索其在生成型AI工作负载方面的能力。值得注意的是,算力的突破,将使得AI应用再次获得巨大提升,AI赛道有望向下一个节点迈进。 按照黄仁勋所言,“我们已到达生成式AI引爆点。从此,全世界的每个角落,都会有计算需求。” 256块GH200芯片组成 黄仁勋在今日的COMPUTEX大会上重大发布新型大内存AI超级计算机——DGX GH200超级计算机。 这款超算由英伟达GH200 Grace Hopper超级芯片和NVLink交换机系统提供支持,旨在为生成型AI语言应用、推荐系统和数据分析工作负载开发新一代巨型模型。 据了解,这款超算专为大规模生成式AI的负载所设计,由256块GH200超级芯片组成,拥有1 exaflop 的AI性能、144TB内存(是英伟达目前DGX A100系统的近500倍)、150英里光纤、2000多个风扇。需要提及的是,之前型号(DGX A100)只有8个GPU。 DGX GH200重达40000磅(约合18143千克),堪比四只成年大象的体重。 黄仁勋表示,“DGX GH200人工智能超级计算机,集成了英伟达最先进的加速计算和网络技术,以拓展人工智能的前沿。” 有海外知名媒体对此评价道,英伟达的新人工智能超级计算机将改变“游戏规则”。 黄仁勋透露,DGX GH200集成的GH200 Grace Hopper超级芯片已进入全面生产,英伟达方面预计DGX GH200将于今年年底投入问世。 不过至于价格方面,英伟达也暂未公布价格。谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户,以探索其在生成型AI工作负载方面的能力。 同时,黄仁勋还宣布,英伟达也正在打造基于DGX GH200的大型AI超级计算机NVIDIA Helios,以支持其研究和开发团队的工作。其中采用4个DGX GH200系统、1024颗Grace Hopper超级芯片,每个都将与英伟达Quantum-2 InfiniBand网络连接,带宽高达400Gb/s,将于今年年底上线。 在今年3月21日,英伟达在GTC大会上,曾宣布“AI的iPhone即将到来”,并发布了与多个行业重要客户的合作成果,包括量子计算、计算光刻、数字孪生等,并且推出了新一代的超级计算机NVIDIA DGX AI,集成8个H100 GPU模组,大幅提升了单机算力。不难看出,此次DGX GH200超级计算机发布将进一步推升算力等级。 算力成为AI刚需 自去年年底OpenAI发布ChatGPT以来,生成式人工智能就成为热度居高不下的新趋势。该项技术需要通过超强算力来创建文本、图像、视频等内容。 在这一背景下,算力成为AI的刚需,而芯片巨头英伟达所生产的人工智能芯片对该领域至关重要。 此前,英伟达在AI训练端先后推出了V100、A100、H100三款芯片,以及为了满足美国标准,向中国大陆销售的A100和H100的带宽缩减版产品A800和H800。 其中,V100能加快 AI、高性能计算 (HPC) 和图形技术的发展。其采用NVIDIA Volta架构,并带有16 GB和32GB 两种配置,在单个GPU中即可提供高10个CPU的性能。 A100 采用NVIDIA Ampere架构,是NVIDIA数据中心平台的引擎。A100的性能比上一代产品提升高达20倍,并可划分为七个GPU实例,以根据变化的需求进行动态调整。A100提供40GB/80GB显存两种版本,A100 80GB将GPU显存增加了一倍,并提供超快速的显存带宽(每秒超过2万亿字节 [TB/s]),可处理超大型模型和数据集。 而H100则使用 NVIDIA NVLink Switch系统,可连接多达256个H100来加速百亿亿级 (Exascale) 工作负载,另外可通过专用的Transformer引擎来处理万亿参数语言模型。与上一代产品相比,H100的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。 CPU已落伍? 值得注意的是,本次大会上,黄仁勋向传统CPU服务器集群发起“挑战”。他直言,认为在人工智能和加速计算这一未来方向上,GPU服务器有着更为强大的优势。 黄仁勋解释称,传统上电脑或服务器最重要的 CPU,这个市场主要玩家包括英特尔和 AMD。但随着需要大量计算能力的AI应用出现,GPU将成为主角,英伟达主导了当前全球AI GPU 市场。 黄仁勋在演讲上展示的范例,训练一个LLM大语言模型,将需要960个CPU组成的服务器集群,这将耗费大约1000万美元(约合人民币7070万元),并消耗11千兆瓦时的电力。 相比之下,同样以1000万美元的成本去组建GPU服务器集群,将以仅3.2千兆瓦时的电力消耗,训练44个LLM大模型。 如果同样消耗11千兆瓦时的电量,那么GPU服务器集群能够实现150倍的加速,训练150个LLM大模型,且占地面积更小。而当用户仅仅想训练一个LLM大模型时,则只需要一个40万美元左右,消耗0.13千兆瓦时电力的GPU服务器即可。 换言之,相比CPU服务器,GPU服务器能够以4%的成本和1.2%的电力消耗来训练一个LLM,这将带来巨大的成本节省。 根据Trend Force的数据,2022年搭载GP GPU的AI服务器年出货量占全部服务器的比重接近1%,2023年在ChatGPT等人工智能应用加持下,AI服务器出货量有望同比增长8%,2022~2026年出货量CAGR有望达10.8%,以AI服务器用GPU,主要以公司H100、A100、A800(主要出货中国)以及AMD MI250、MI250X系列为主,而英伟达与AMD的占比约8:2。 基于IDC预测2026年全球服务器出货量1877万台、AI服务器的占比逐年提升1%,同时AI服务器中GPU的搭载数量逐年提升0.5个百分点、随着GPU产品迭代,GPU单价逐年提升2000美元,国金证券基于上述基础预测,2026年全球数据中心GPU市场规模有望达224亿美元。 为游戏NPC注入“灵魂” 值得注意的是,游戏一直是备受关注的一大AI应用落地领域,英伟达此次也在大会上宣布,推出面向游戏的定制AI模型代工服务NVIDIA Avatar Cloud Engine(ACE)。 据英伟达方面透露,ACE能赋予非玩家角色(NPC)更智能且不断进化的对话技能,中间件、工具和游戏开发者可使用它来构建和部署定制的语音、对话和动画AI模型。 其中包括:英伟达NeMo,使用专有数据构建、定制和部署语言模型;英伟达Riva,用于自动语音识别和文本转语音实现实时语音对话;英伟达Omniverse Audio2Face,用于即时创建游戏角色表情动画,以匹配任何语音轨道。开发人员可选择集成整个NVIDIA ACE for Games解决方案,也可仅使用需要的组件。 NVIDIA高管John Spitzer表示:“生成式AI有潜力彻底改变玩家与游戏角色互动的方式,并大幅提高游戏的沉浸感。”编辑:乔伊审核:木鱼版权声明《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。授权转载合作联系人:于先生(电话:0755-82468670)微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章