A卡的锅?世界第一超算Frontier,启动至今无法连续工作一天
机器之心报道
编辑:泽南、小舟
Frontier 上线给科学家提供算力的日期已经推迟到了明年。
在全球范围内,很多机构都在争相构建 E 级(每秒百亿亿次)超级计算机,性能指数级跨越的超算预计会在人工智能、医疗、气象等领域发挥重大作用,是超级电脑工程的重要里程碑。
世界第一台 E 级超算是美国橡树岭国家实验室(ORNL)的「Frontier」,它也是当前全球超算 TOP500 榜单的第一名,但虽说性能领先,Frontier 却远远无法达到超算应有的效率。
近日,一些海外媒体接连报道称,当前世界最快的超算的硬件出现了大量故障,机器甚至无法运行一整天。
ORNL Frontier 目前最多只能产生 60% 即 1 FP64 ExaFLOPS 的算力,而该系统旨在提供 1.685 FP64 ExaFLOPS。虽然官方还没有就具体问题给出任何消息,但一些信息正被曝光。
在最新一期,2022 年 6 月的 TOP500 榜单中,Frontier 位列第一名,其标称的速度是 1.685 FP64 ExaFLOPS。
橡树岭实验室的 Frontier 是业界首个使用 AMD 的 64 核 EPYC Trento 处理器、Instinct MI250X 计算 GPU 和 Hewlett Packard Enterprise(HPE)的 Slingshot 互连,能以 21 兆瓦功率提供高达 1.685 FP64 ExaFLOPS 峰值性能的系统。HPE 构建了该系统并使用了 Cray EX 架构,它专为横向扩展应用程序设计,适用于超高速超级计算机。
虽然从表面上看 Frontier 性能强大,并且系统硬件部分已经交付,但当前面临的问题似乎一直让机器无法保持正常运转,并且无法稳定提供即使是不及标称的 1 FP64 ExaFLOPS 的性能供研究人员使用。
OLCF 项目主管 Justin Whitt 表示:「我们正在解决硬件问题,并确保找出关键问题所在。目前看来主要是规模问题和应用程序的广度问题,系统运行的项目过大,很难让所有硬件协同运行,通常间隔几小时就会出现一次故障。」从某种意义上说,Frontier 是在超级计算机的期末考试上成绩不佳。
实际上,关于 Frontier 潜在硬件故障的流言已经出现了很长一段时间。InsideHPC 曾报道称有人说故障原因是系统遇到了 Slingshot 互连的问题。此外,还有人表示今年 AMD 的 Instinct MI250X 计算 GPU 的可靠性不如预期,并且具有更多流处理器和高时钟的 X 版本仅适用于特定客户。
Justin Whitt 没有证实该系统遇到了 Instinct 或 Slingshot 等任何特定问题,他只是强调该机器存在许多硬件问题。
OLCF 负责人表示:「很多挑战都集中在 GPU 上,GPU 是非常重要的硬件组成部分。但我们对 AMD 的产品尚且没有太多担忧。」
橡树岭国家实验室的 Frontier 超级计算机并不是唯一一个使用 HPE Cray EX 架构、 Slingshot 互连、AMD EPYC CPU 和 AMD Instinct 计算 GPU 的系统,芬兰的 Lumi 超级计算机(Cray EX , EPYC Milan, Instinct MI250X 计算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列为世界第三强大的超级计算机。也许对于此类使用上千万零件组成的超算来说,问题不是孤立的。
从官方论述来看,HPE 和 AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系统。美国能源部 E 级超算项目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成将从明年开始提供给研究人员,但并未引述对 Frontier 超级计算机的全面启动有任何担忧或问题。
在错过了原先设定的 Deadline 后,Frontier 超级计算机计划于 2023 年 1 月 1 日全面投入运行。
人们都在期待 E 级超算带来的研究成果,不过伴随世界第一而来的还有部分怀疑。一些专家认为,在 E 级计算的竞争中 Frontier 比不上中国的两个计算机系统,后者的运营商还没有向 TOP500 提交测试结果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升级版)和天河 3 号超算在 2021 年 3 月就达到了持续的 E 级算力。
去年 11 月的全球超级计算大会 SC21 上,来自中国的超算应用团队因「超大规模量子随机电路实时模拟」成果获得戈登 · 贝尔奖。该团队表示,研究基于的新一代神威超级计算机可提供每秒 4.4 百亿亿次的持续计算性能,是超算领域全世界当时已知的最高混合精度浮点计算性能。
专家们表示,中美之间的紧张关系可能是中国没有向 TOP500 提交测试结果的原因。
参考内容:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure
https://www.top500.org/lists/top500/2022/06/
https://www.tsinghua.edu.cn/info/1173/89027.htm
2023 AI 应届生,准备好冲刺更满意的offer了吗?
交流高效——设置报告、对谈、自由交流、晚宴等环节,不仅可以聆听业界前辈学术研究指导与建议,还可以与专家学者面对面自由深入交流。
量身打造——提供有行业竞争力的薪酬和优先落户等硬核福利,以及广阔的发展空间。
参与便捷——视报名同学学校分布情况提供定点接驳车,获取接驳时间、地址与更多活动详情请添加小助手微信号REDtech01。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者