Redian新闻
>
拥有23500个AMD MI300的超算,叫板AI新贵

拥有23500个AMD MI300的超算,叫板AI新贵

公众号新闻

来源:内容由半导体行业观察(ID:icbank)综合自nextplatform等,谢谢。


问题不再是过去一周在劳伦斯利弗莫尔国家实验室安装的“El Capitan”超级计算机是否会成为世界上最强大的系统。问题是它将保持这个头衔多久。


事实证明,这可能会持续相当长的一段时间。因为当谈到人工智能初创公司资助的大型人工智能超级计算机时,用一句描述 20 世纪 90 年代 IBM 系统的古老格言来说:“你可以找到更好的,但你不能付出更多。”(You can find better, but you can’t pay more)


看起来全球国家实验室的任何主要 HPC 中心都不会部署持久性机器,这意味着不会是一个短暂的多云实例,启动时间足够长以运行双精度高性能 Linpack 测试用于衡量机器相对性能并将其排在Top500 列表中的浮点——它可以击败 El Capitan,根据我们的心情和数学,我们认为它的 FP64 峰值性能可以达到 2.3 exaflops 左右,大约为 37% FP64 的性能比橡树岭国家实验室 1.68 exaflops 的“Frontier”超级计算机更强,后者自 2022 年 6 月以来一直是 Top500 榜单上最强大的机器。


早在 2018 年,在授予 CORAL-2 合同后,我们预计使用定制 AMD CPU 和 GPU 的 Frontier 将以 1.3 exaflops FP64 的峰值速度运行,而使用现成 AMD CPU 和 GPU 打造的 El Capitan将以 1.3 exaflops 的峰值速度运行。与此同时,改进后的“Aurora A21”机器预计将以 1 exaflops 左右的速度上市,售价估计为 4 亿美元。所有这三台机器的安装时间都比人们希望的要晚,当时 HPC 实验室在 2015 年开始认真规划百亿亿次计算。就 Frontier 和 El Capitan 而言,我们认为 AMD 的性价比更高,出价超过了 IBM 和Nvidia 负责合同,考虑到他们在 Oak Ridge 和 Lawrence Livermore 建造了上一代“Summit”和“Sierra”系统,这些合同自然会交给他们。但这当然只是猜测。



2023 年及以后的重点是:但不要将超大规模提供商、云构建商及其人工智能初创公司客户排除在外。他们正在建造非常大型的机器,也许那些机器,比如 Nvidia 和 CoreWeave 正在为 Inflection AI 开发的机器,以及 Microsoft Azure 正在为 OpenAI 构建的机器,在低精度 AI 训练工作方面将超越这些大型 HPC 机器。


让我们做一些数学比较,同时展示劳伦斯·利弗莫尔分享的 El Capitan 婴儿照片。


牵引拖车向劳伦斯利弗莫尔国家实验室运送一些 El Capitan 机架


为了进行比较,让我们从为 Inflection AI 构建的尚未命名的系统开始,上周当El Capitan 机器的图片浮出水面时我们曾讨论过该系统。


Inflection AI 机器看起来使用了 22,000 个 Nvidia H100 SXM5 GPU 加速器,根据我们对 H100 和 InfiniBand Quantum 2 网络定价的了解,如果节点配置为 DGX H100 之类的配置,它的售价约为 13.5 亿美元该节点具有 2 TB 内存、3.45 TB 闪存和八个 400 Gb/秒 ConnectX-7 网络接口以及合适的三层 InfiniBand 交换结构。该系统的 FP64 峰值性能将达到 748 petaflops,这对于 HPC 人群来说很有趣,并且将在当前的 Top500 列表中排名第二,落后于 Frontier 的 1.68 exaflops FP64 峰值性能,领先于在日本 RIKEN 实验室的“Fugaku”系统,该系统FP64 峰值为 537.2 petaflops。


你可以随意打折这款 Inflection AI 机器,但我们认为,当需求远远超过供应时,Nvidia 或 AMD 没有心情对 GPU 计算引擎给予大幅折扣。他们的服务器 OEM 和 ODM 合作伙伴也不是。因此,与美国的百亿亿次高性能计算系统相比,这些机器确实非常昂贵,而且它们的能力也低得多。



如果你看一下 Inflection AI 机器的 FP16 半精度性能,它的速度为 21.8 exaflops,这听起来很多,足以驱动一些非常大的 LLM 和 DLRM——即大型语言模型和深度学习推荐模型。


没有人知道为 El Capitan 提供动力的“Antares”AMD Instinct MI300A CPU-GPU 混合体的 FP16 矩阵数学性能会是怎样,但我们在 6 月份就尝试过猜测,当时有更多关于此的数据被披露。我们认为 Lawrence Livermore 不仅在一个包中获得了两个 CPU 块(取代了两个 GPU 块)和 6 个 GPU 块,而且还获得了一个超频计算引擎,可以提供更高的性能与八块、仅 GPU 的 MI300 计算引擎相比。(如果劳伦斯·利弗莫尔没有得到这样的东西,它应该得到。)如果我们是对的,那么在没有打开稀疏数学支持的情况下(Inflection AI 在谈论它正在借助CoreWeave 和 Nvidia构建的机器性能时没有使用),那么每个 MI300A 预计可在 2.32 GHz 时钟频率下提供 1,567 teraflops(相比之下,我们预计常规 MI300 部件的时钟频率约为 1.7 GHz)。


我们希望 Hewlett Packard Enterprise 能够在 El Capitan 系统中的每个底座上安装 8 个 MI300A,如果实现的话,El Capitan 的计算部分的重量将达到约 2,931 个节点、46 个机柜和 8 行。我们将会看到。


我们想要澄清的是,如果我们对 MI300A 的猜测是正确的——我们知道它有多大——那么 El Capitan 应该有大约 23,500 个 MI300 GPU,并且——等等——它应该有大约 36.7 exaflops的FP16矩阵数学峰值性能。这比 Inflection AI 用所有风险投资资金构建的人工智能系统高出 1.7 倍。


El Capitan 位于高架地板数据中心环境中,您必须加固地板才能将 Hewlett Packard Enterprise 的“Shasta”Cray XE 机架推入到位。


现在,让我们来看看传闻中微软为 OpenAI 构建的用于训练 GPT-5 的 25,000 个 GPU 集群。从历史上看,正如 Microsoft Azure HPC 和 AI 总经理 Nidhi Chappell 在 3 月份向我们解释的那样Azure 使用 PCI-Express 版本的 Nvidia 加速器来构建其 HPC 和 AI 集群,并使用 InfiniBand 网络将它们连接在一起。我们假设这个传闻中的集群使用 Nvidia H100 PCI-Express 卡,每块售价 20,000 美元,相当于 5 亿美元。配备一对英特尔“Sapphire Rapids”Xeon SP 主机处理器、2 TB 主内存和合理数量的本地存储,每个节点再增加 150,000 美元,这意味着 3,125 个节点要另外花费 4.69 亿美元来容纳这 25,000 个 GPU。如果 Nvidia 的 20% 规则是一个标准的话,InfiniBand 网络将再增加 2.42 亿美元。那就是 12.1 亿美元。如果您愿意,可以对服务器节点打折,但每个节点 387,455 美元,而且不会让步那么多。对人工智能系统的需求并不那么大。


正如我们在纽约所说:Foegittaboutit。


如果你在这个 Microsoft/OpenAI 集群上进行数学计算,在稀疏性关闭的情况下,它的 FP16 矩阵数学峰值仅为 19.2 exaflops。H100 的 PCI-Express 版本具有较少的流式多处理器 — SXM4 版本上有 114 个流式多处理器,而 SXM4 版本上有 132 个,而且它们的时钟速度也较慢。这大约便宜了 11.4%,性能却降低了 11.9%。


与美国国家实验室的价格相比,这些价格是疯狂的——或者至少是这样。已经能够熬过这些年了。世界各地的 HPC 中心之所以追求新颖的架构,是因为他们可以将自己定位为最终将商业化的产品的研发。但超大规模提供商和云构建商可以做同样的数学计算,他们也可以构建自己的计算引擎,就像亚马逊网络服务、谷歌、百度和 Facebook 都在不同程度上所做的那样。即使有 50% 的折扣,这些 Inflection AI 和 OpenAI 机器的每单位计算成本仍然比美国国家实验室支付的价格贵得多。


一艘 El Capitan 船已经驶下,也许还有七艘。


El Capitan 的占地面积与IBM 为劳伦斯·利弗莫尔 (Lawrence Livermore) 建造的已退役的“ASCI Purple”和“Sequoia”超级计算机的占地面积相同,约为 6,800 平方英尺。El Capitan预计在峰值时需要 30 兆瓦至 35 兆瓦的电力和冷却,并将与劳伦斯·利弗莫尔 (Lawrence Livermore) 预计在 2029 年左右安装的下一台百亿亿级计算机并行运行,因此数据中心的电力和冷却实验室的冷却能力已增加一倍,以适应这两台机器同时运行。


相比之下,IBM 制造并于 2005 年安装在劳伦斯利弗莫尔的 ASCI Purple 机器在 FP64 精度下额定峰值性能为 100 teraflops,功耗约为 5 兆瓦;估计耗资1.28亿美元。El Capitan 的性能可提高 23,000 倍,而功耗则可降低 6 倍至 7 倍,而成本则可降低 3.9 倍。这可能不如超级计算中心几十年来所预期的指数增长,但这仍然是一项了不起的壮举,并证明了摩尔定律以及大量封装、网络、电源和冷却技术的优势。


我们迫不及待地想在阿贡国家实验室看到 El Capitan 和 Aurora A21 的真实数据。如果像我们怀疑的那样,英特尔注销了与阿贡国家实验室 5 亿美元合同中的 3 亿美元,那么世界上就不会再有更便宜的人工智能和高性能计算了。是的,阿贡及时支付了费用,并将支付电费来使用这台机器,但正如我们两周前指出的,当 Aurora 机器完全安装时,现在重要的是建造机器并进行实际的 HPC 和 AI。


用22000个英伟达H100入局AI,初创企业的豪赌


最近,总部位于旧金山的人工智能初创公司 Inflection AI 在新一轮融资中筹集了 13 亿美元,投资方包括微软、英伟达和谷歌前首席执行官埃里克·施密特,这笔资金将支持 Inflection AI 的首款产品——名为Pi (Personal A.I)的个人助理和伴侣的进一步开发,该产品于 5 月推出。


此次融资使 Inflection 筹集的资金总额达到 15 亿美元。该公司此前曾于 2022 年初从部分投资者那里筹集了 2.25 亿美元,其中包括前 Meta 首席技术官 Mike “Schrep” Schroepfer、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 以及流行艺术家Will.i.am。


Inflection 的目标是打造一种通用的人工智能数字助理。包括盖茨在内的许多技术专家将这种助手视为所有人机交互的未来。


盖茨在高盛表示:“无论谁赢得personal agent,这都是一件大事,因为你将永远不会再去搜索网站,你永远不会再去生产力网站,你永远不会再去亚马逊。” 就在几周前,盖茨参与了另一家“独角兽”,即估值超过 10 亿美元的人工智能初创公司的融资,加入了一群著名投资者的行列,向矿业初创公司KoBold Metals 注入资金。


Inflection 新一轮融资的规模反映出投资者对开创生成式 AI 的初创公司的热情高涨,尤其是那些创建底层大语言模型 (LLM) 的公司,这些公司是当前 AI 热潮的核心。近几个月来,Cohere、Anthropic 和 Runway 等初创公司已宣布完成数亿美元的融资。但 Inflection 的 10 亿多美元资金也反映出创建这些人工智能模型的巨额费用,这些模型必须在大型数据中心的昂贵的专用计算机芯片上进行训练。


英伟达创始人兼首席执行官黄仁勋在一份声明中表示:“人工智能革命的一个强大好处是能够使用自然的对话语言与超级计算机交互,以简化我们日常生活的各个方面。” “Inflection AI 的世界级团队正在帮助领导这项开创性的工作,部署 Nvidia AI 技术来开发、训练和部署大规模的生成式 AI 模型,从而实现令人惊叹的个人数字助理。”


Inflection AI 由首席执行官 Mustafa Suleyman 共同创立,他还于 2012 年与 Hassabis 一起帮助创建了高级人工智能研究实验室 DeepMind。谷歌于 2014 年以约 6.5 亿美元收购了 DeepMind。Suleyman因被多名员工指控欺凌而于 2019 年从 DeepMind 离职,但后来短暂返回公司,然后加入谷歌担任负责人工智能产品管理和政策的副总裁。随后他于 2022 年离开谷歌,加入风险投资公司Greylock Partners,Inflection AI 的孵化地。Greylock 合伙人 Reid Hoffman 是PayPal和LinkedIn的联合创始人,也是 OpenAI 的早期支持者,也是 Inflection 的联合创始人。


许多风险投资家预测人工智能个人助理将融入日常生活。Andreessen Horowitz 的亿万富翁创始人马克·安德森 (Marc Andreessen) 在一份 7000 字的宣言中写道,像 Pi 这样的聊天机器人有一天会普及到从创意艺术到政府的各个领域。


安德森在 6 月份写道:“每个人都会有一位人工智能助理/教练/导师/培训师/顾问/治疗师,他们具有无限的耐心、无限的同情心、无限的知识和无限的帮助。” “人工智能助手将伴随生活中所有的机遇和挑战,最大限度地提高每个人的成果。”


Inflection 的第一个产品是一个名为 Pi 的聊天机器人,它比这种精灵般的personal agent受到的限制要大得多。事实上,它比许多竞争的聊天机器人(例如 OpenAI 的 ChatGPT 和 Google 的 Bard)更加有限。Suleyman告诉《财富》杂志, Pi 的设计目的只是成为一个有同理心的倾听者和良好的对话者,而不是一个用于撰写研究报告、集思广益营销想法或编写软件代码的工具——所有这些任务都是聊天机器人可以执行的。


Suleyman在Collision 直播中表示:“我认为每个人的口袋里都会有一位知识渊博、友善、乐于助人且非常务实的参谋长。” “没有任何人可以在一次经历和一个人中同时完成所有这些技能......它将是参谋,它将是红颜知己,它将是参谋长,它将是教练,它将是教育家和教师,合二为一。”


“个人人工智能将成为我们一生中最具变革性的工具。这确实是一个拐点,”Suleyman指出。“我们很高兴能与 Nvidia、Microsoft 和 CoreWeave 以及 Eric、Bill 和其他许多人合作,将这一愿景变为现实。”


Inflection 表示,Pi 是“老师、教练、知己、创意合作伙伴和参谋”,其主要作用在于随时准备好与用户进行现场对话。


三位著名的创始人


Inflection AI 拥有三位著名的创始人,至少根据 Crunchbase 上的资料显示,还有第四位联合创始人,他似乎在人工智能领域的重要公司工作,但其网站上没有透露他的身份,就像他没有被确定为 OpenAI 的联合创始人成员之一一样。这个人—— Carlos Virella——没有太多的痕迹,据我们所知,可能是阿甘正传式的讽刺。但 Inflection AI 的其他三位创始人——其中一位也是 OpenAI 的联合创始人——被曝光。这三者都与 Web 2.0 初创社区息息相关,是十年前开始的人工智能革命的重要组成部分,两者的结合是 Inflection AI 推出名为 Pi 的个人人工智能服务的原因。


里德·霍夫曼 (Reid Hoffman) 是众所周知的 LinkedIn 企业网络联合创始人之一,当在线拍卖商 eBay 于 2002 年 8 月斥资 15 亿美元收购在线支付处理商 PayPal 时,他开始成为硅谷的一员。1998 年 12 月,一家名为 Confinity 的公司成立时,他担任该公司的董事,并于 2000 年 1 月被任命为执行副总裁,负责该公司的所有对外关系。三个月后,Confinity 与另一家名为 X.com 的公司合并。埃隆·马斯克 (Elon Musk) 是后者的联合创始人,彼得·蒂尔 (Peter Thiel) 是前者的联合创始人,2002 年 2 月,PayPal 上市,筹集了 6100 万美元,成为互联网泡沫破灭期间为数不多的亮点之一。因此,仅仅六个月后,eBay 就完成了收购。


2003 年 1 月,霍夫曼与他人共同创立了 LinkedIn,并担任董事长兼首席执行官,并开始运营其产品,并于 2009 年秋季成为 Greylock Partners 的合伙人。2016 年 6 月,微软斥资 262 亿美元收购 LinkedIn,霍夫曼是控股股东,他自己在这笔交易中赚取了 28.4 亿美元。霍夫曼现在仍在 Greylock,但他的个人资金以及微软联合创始人比尔·盖茨、前 Sun Microsystems 和谷歌高管埃里克·施密特、Nvidia 和微软以及小型 GPU 计算云构建专家CoreWeave的投资正在帮助资助 Inflection AI。霍夫曼是 OpenAI 和微软的董事会成员,由于与 Inflection AI 存在利益冲突,他于 3 月份辞去了 OpenAI 的职务。鉴于这家软件巨头与 OpenAI 的紧密合作关系,很难相信霍夫曼会在微软董事会任职更长时间,但话又说回来,微软正在投资 Inflection AI,作为一种对冲。因此,也许存在太多的利益冲突,它们就像双重否定一样相互抵消。


Inflection AI 首席科学家 Karén Simonyan 和首席执行官 Mustafa Suleyman 都是人工智能领域的长期研究人员,他们创建并出售了成功的公司。


Simonyan 于 2013 年在牛津大学创建了 VGGNet 图像处理框架,该框架通过一家名为 Vision Factory AI 的公司进行了商业化,并很快被一家名为 DeepMind Technologies 的神秘人工智能初创公司收购,Simonyan 成为该公司的首席研究科学家。DeepMind 成立于 2010 年 6 月,Suleyman 担任首席产品官,随后 Google 进入该领域,并在 DeepMind 收购 Vision Factory 后不久收购了 DeepMind。Facebook(当时还不叫 Meta Platforms)曾在 2013 年试图收购 DeepMind,谷歌为 DeepMind 的强化学习人工智能技术支付了 4 亿到 6.5 亿美元之间的费用。


如果你想追踪其中的联系,Suleyman 自 2022 年 1 月以来一直是 Greylock 的合作伙伴,很容易看出 Hoffman 和 Suleyman 在走廊里炮制了 Inflection AI。2022 年 5 月,当微软、霍夫曼、盖茨和施密特以及 Mike Schroepfer、Demis Hassabis、Will.i.am、Horizons Ventures 和 Dragoneer 共同投资时,Greylock 是 Inflection AI 筹集 2.25 亿美元资金时的主要投资者。6 月底,Inflection AI 筹集了第二笔 13 亿美元的资金,Nvidia 和 CoreWeave 成为新投资者。


人工智能正处于拐点


Inflection AI 的目标是让地球上的每个人都可以使用其 Pi(personal intelligence 的缩写)人工智能助手。考虑到运行LLM来回答愚蠢问题的高昂成本,计算这样的努力需要多少计算能力以及如何负担得起,这将是很有趣的。但暂时把它放在一边。


为了实现这一目标,Inflection AI 做了三件事:拥有懂得如何做人工智能的联合创始人、拥有大笔资金的联合创始人、拥有大笔资金的朋友以及有通过人工智能致富的雄心的联合创始人。因此,Inflection AI 建立了自己的 LLM(第一个迭代称为 Inflection-1),并且像 OpenAI 一样,将在必要的硬件上投入大量资金,以提高该模型的准确性并将其扩展到更大的数量。Pi 服务的用户数量。


考虑到用于训练LLM的计算引擎的高昂成本,这将需要大量资金。因此他们六月份大幅提升指出。


Inflection AI 与 Nvidia 和 CoreWeave 合作,在其 Inflection-1 LLM 上(跨越 3,500 个 Hopper GPU)在 11 分钟内运行了 MLPerf 参考训练基准。我们不知道有多少 GPU 用于训练支撑 Pi 服务的 Inflection-1 模型,但它的数量可能比这个还要多,而且如果我们不得不猜测的话,它可能使用 Nvidia“Ampere”A100 GPU 加速器。


我们所知道的是,Nvidia 和 CoreWeave 正在合作在云中创建一个 AI 集群,该集群将拥有超过 22,000 个 H100 GPU 加速器,用于训练我们认为将是 Inflection-2 LLM 的人员。Inflection AI 宣称,这 22,000 个 H100 GPU 将“在 16 位精度调制解调器中提供惊人的 22 exaflops,如果使用较低的精度,甚至会更高”,并接着说,如果完成了高性能 Linpack (HPL) 矩阵数学测试放在上面,就像一台HPC超级计算机一样,它会在当前的Top500排行榜上排名第二,但在El Capitan和Aurora全面上线后可能会跌至第四。


如果您使用 Hopper PCI-Express 卡对 22,000 个 GOPU 加速器进行计算,超大规模提供商和云构建者通常使用这些卡来创建集群,而不是在四个或八个 GPU 的集群之间使用 NVLink Switch 互连的 HGX 式板并使用 Hopper GPU 的 SXM5 变体,然后在 Tensor Core 矩阵数学引擎上以 FP16 精度,在没有稀疏性支持的情况下获得 16.9 exaflops,在打开稀疏性支持的情况下获得 33.8 exaflops。您还可以使用 H100 上的 FP64 双精度矢量数学单元获得额定为 572 petaflops 的集群。这与 Inflection AI 在其公告中谈论的 FP16 精度的 22 exaflops 不符。



这就是有趣的地方。如果您对服务器机箱内将使用 NVLink Switch 互连的 22,000 个 H100 SXM5 GPU 加速器进行计算,那么您将得到一个集群,在 FP16 精度下,在未激活稀疏性的情况下,聚合峰值性能为 21.8 exaflops。(这可能会告诉您有关 Inflection-1 LLM 的一些信息,因为它可能不会使用大量稀疏数据。)这四舍五入为 Inflection AI 所说的 22 exaflops,这也产生了一台峰值为 748 petaflops 的超级计算机FP64 矢量性能和 1.47 exaflops(FP64 在 Tensor Cores 矩阵引擎上运行)。(据我们所知,没有很多 HPC 应用程序已移植到 Tensor Core。)


假设 Linpack 基准测试的计算效率为 65%,则该集群在 Top500 排名中的评级为 486 petaflops 左右,这将使其略高于日本 RIKEN 实验室“Fugaku”超级计算机的 442 petaflops 评级,后者在 2017 年排名第二。远低于目前排名第一的美国橡树岭国家实验室“Frontier”超级计算机 1.19 exaflops 的性能。阿贡国家实验室的“Aurora A21”系统预计将在今年晚些时候使用英特尔 CPU 和 GPU 交付时达到 2 exaflops 峰值,劳伦斯利弗莫尔国家实验室的“El Capitan”系统也将在今年晚些时候推出将远高于 2 exaflops 峰值。


这提出了一个重要的观点。对于要考虑将云计算机与本地计算机进行比较的情况,您必须让它始终为单个客户运行。我们认为 Inflection AI 机器也会出现这种情况,甚至有可能该公司会在其上运行 Linpack,只是为了表明自己的观点,并在 11 月份真正进入 Top500 榜单。但是,如果 Inflection AI 没有几乎连续地使用机器——我们想说的是绝对连续地使用机器,就像世界 HPC 实验室的机器一样,但也许说 75% 或 80% 的时间就足够了——那么它不应该被算作本身就是一台独特的机器。


这将我们引向下一点。如此大量的容量需要花费多少钱?让我们从使用 H100 PCI-Express 卡的集群开始尝试一下。假设这些 H100 PCI-Express 卡的价格约为 20,000 美元,按我们认为接近当前市场价格计算,即 4.4 亿美元。需要 2,750 个节点来容纳所有这些 GPU,每个机箱有 8 个。配备一对强大的 CPU、2 TB 内存和用于数据和操作系统存储的 34.5 TB NVM-Express 闪存(总共十个驱动器,两个用于操作系统的skinny驱动器),每个驱动器的运行成本可能约为 150,000 美元。另外还有 4.125 亿美元。正如 Nvidia 喜欢说的那样,InfiniBand 网络是另外 20%,即 2.13 亿美元,这使其达到 10.7 亿美元。


现在,让我们看看 SXM 设置。同样是 2,750 个节点,但这次 GPU 的成本可能约为 30,000 美元,因此 22,000 个节点的成本为 6.6 亿美元。这些节点在机箱内的 NVLink Switch 成本还有 25,000 美元左右,机箱外的 InfiniBand 成本也有 2.13 亿美元左右。现在您的资产达到 13.5 亿美元。这看起来就像 Inflection AI 正在讨论的使用 CoreWeave 和 Nvidia 构建的集群的场景。


这比美国政府为其百亿亿级超级计算机投入的资金要多得多,美国政府按标价计算的成本约为 5 亿至 6 亿美元,加上一次性工程 (NRE) 成本。


云开销(包括系统管理、房地产和电力成本)很容易再增加 2 亿美元,加上 CoreWeave 约 5% 的利润率,成本将增加至 16.3 亿美元。这略高于 Inflection AI 迄今为止从投资者那里筹集的 15.3 亿美元。幸运的是,有了云,它不必像巨大的预留实例那样一次性全部支付。或者,也许确实如此,这就是为什么价格不会高于这个。(你能想象为这样一个集群按需付费吗?)


Pi 订阅的价格是多少?需要有多少用户以及多快才能支付费用?比尔盖茨有足够的钱,不必关心,英伟达和微软也是如此。也许里德·霍夫曼也是。但您可以放心,所有这些数学计算都已完成。


Aurora 超级计算机已经安装:数万个CPU和GPU


阿贡国家实验室和英特尔上月底表示,他们已经为 Aurora 超级计算机安装了全部 10,624 个刀片,这台机器早在 2015 年就宣布了,其历史尤其坎坷。该系统承诺使用其数万个带有封装 HBM2E 内存的 Xeon Max“Sapphire Rapids”CPU 阵列以及数据中心 GPU Max“Ponte Vecchio”计算 GPU,提供超过 2 FP64 ExaFLOPS 的峰值理论计算性能。该系统将于今年晚些时候上线。


英特尔公司副总裁兼超级计算事业部总经理 Jeff McVeigh 表示:“Aurora 是英特尔 Max 系列 GPU 的首次部署、最大的基于 Xeon Max CPU 的系统以及全球最大的 GPU 集群。”



即使从数字来看,Aurora 超级计算机看起来也相当令人印象深刻。该机器配备 21,248 个通用处理器,拥有超过 110 万个内核,用于需要传统 CPU 马力的工作负载,以及 63,744 个计算 GPU,用于服务 AI 和 HPC 工作负载。在内存方面,Aurora 具有供 CPU 使用的 1.36 PB 封装 HBM2E 内存和 19.9 PB DDR5 内存,以及由 Ponte Vecchi 计算 GPU 承载的 8.16 PB HBM2E。


Aurora 机器使用 166 个机架,每个机架容纳 64 个刀片。它横跨八排,占据相当于两个篮球场的空间。同时,这还不包括Aurora的存储子系统,该子系统采用1024个全闪存存储节点,提供220PB的存储容量和31TB/s的总带宽。目前,阿贡国家实验室尚未公布 Aurora 或其存储子系统的官方功耗数据。


该超级计算机将用于处理从核聚变模拟到预测、从空气动力学到医学研究等各种工作负载,采用 HPE 的 Shasta 超级计算机架构和 Slingshot 互连。同时,在系统通过ANL验收测试之前,将用于大规模科学生成人工智能模型。


阿贡国家实验室副实验室主任 Rick Stevens 表示:“在我们努力进行验收测试的同时,我们将使用 Aurora 来训练一些大规模的开源生成式 AI 科学模型。” “Aurora 拥有超过 60,000 个 Intel Max GPU、非常快的 I/O 系统和全固态海量存储系统,是训练这些模型的完美环境。”


尽管已经安装了 Aurora 刀片,超级计算机仍然需要接受并通过一系列验收测试,这是超级计算机的常见程序。一旦成功清除这些问题并在今年晚些时候上线,预计将达到超过 2 ExaFLOPS(每秒 20 亿次浮点运算)的理论性能。凭借出色的表现,有望稳坐Top500榜单榜首。


Aurora超级计算机的安装标志着几个里程碑:它是业界第一台性能高于2 ExaFLOPS的超级计算机,也是第一台基于英特尔的ExaFLOPS级机器。最后,它标志着八年前开始的 Aurora 传奇的结束,超级计算机的旅程经历了相当多的坎坷。


Aurora 最初于 2015 年推出,最初打算由英特尔的 Xeon Phi 协处理器提供支持,预计在 2018 年提供约 180 PetaFLOPS。然而,英特尔决定放弃 Xeon Phi,转而使用计算 GPU,因此需要与阿贡国家实验室重新协商协议,到 2021 年提供 ExaFLOPS 系统。


由于英特尔 7 纳米(现称intel 4)生产节点的延迟以及需要为台积电 N5(5 纳米级)重新设计tile,导致旧桥计算tile的复杂性,导致系统的交付进一步延迟。工艺技术。英特尔最终于去年年底推出了其数据中心 GPU Max 产品,目前已向 ANL 交付了超过 60,000 个此类计算 GPU。

👇👇 点击文末【阅读原文】,可查看原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3458期内容,欢迎关注。

推荐阅读


CIS制造工艺回顾与展望

重庆,功率半导体新贵

GPU巨头,拼什么?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
哪些英国大学开设有2024年春季入学硕士课程?Top100的有吗?Linux 之父“开炮”!曾喊 AMD 真香,今炮轰 AMD:怒批 fTPM “愚蠢”、“破玩意儿”硬核观察 #1016 中国淡出超算 TOP500 榜单外甥女跟老舅叫板,不服赢家通吃,AMD要拉上Hugging Face对抗英伟达了现实版“海王”!美国小哥50个州约会50个妹纸,关键还有钱赚?量子霸权里程碑!谷歌量子计算机6秒内完成47年计算,超越世界第一超算欧盟豪赌RISC-V,叫板X86和Arm躺平的诉求1530亿晶体管芯片发布,AMD正式叫板英伟达从“睡桥底”的流浪汉,逆袭成$400万科技新贵!澳男分享人生信条,其中一个竟然是睡满8小时值得交往的朋友有几个中国 2030 年前载人登月;英伟达推「AI」超算,专为大模型打造;南非发现最古老人类脚印 | 极客早知道老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100躲在厕所“赚钱”!16岁华男拥有2家公司 身价直飙2000万美元英伟达史诗级暴涨后再放大招!推E级AI超算,黄仁勋狂捧生成式AI澳男从流浪汉逆袭成身价$400万科技新贵!曾经“睡桥底”!自曝人生信条:每天睡满8小时???国内的食品DeepMind等摘得杰出论文、IBM超算深蓝成经典,IJCAI2023奖项公布你鼓舞了我——冷明500强超算榜单出炉!AMD持续领跑,最新芯片将打破自创性能记录拥有200对耳环,但是都不如均价10元的珍珠耳钉,戴不腻!【玩具日报】泡泡玛特:2023上半年净利润同比增长不低于40%;高乐股份预2023年半年度亏损3500万至3000万;狂开3000家!山东地头蛇,凭什么敢叫板蜜雪冰城?梦幻!加拿大整座私人小岛出售,叫价不到$230万!可建房带沙滩!双声子 鹰啸AMD放大!苏妈甩出最强AI芯片叫板老黄,可跑800亿参数大模型老黄携「超级GPU」炸场!E级AI超算性能飞升,买越多越划算,谷歌微软Meta抢先试用叫板U.S. News!这才是2023美国最佳大学Top100?!管中窥豹:美国的MD, PhD, MD/PhD毕业时发表了多少篇SCI论文?最新!悉尼CBD大火已有2名13岁学生自首!另有2人下落不明,火灾时疑似有人遇难(视频/多图)2023年超算、智算及数据中心报告位于市中心的超强美本保底校:求职资源丰富、你值得拥有!图灵奖得主,超算Top 500榜单创始人:机器学习太过依赖GPU了!2.2万张H100造全球最大超算,ChatGPT劲敌融资13亿美元!微软英伟达领投,Inflection一年撼动OpenAI霸权50个成语,50个历史名人,你真不一定知道
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。