Redian新闻
>
为迎接超大模型时代,Meta想要打造“全球最快AI超算”

为迎接超大模型时代,Meta想要打造“全球最快AI超算”

科技新闻

为元宇宙加码!Meta推出全球最快AI超级计算机

文/杜晨

而在今天,Meta公司突然对外宣布了其在打造AI超级计算机方面的最新进展。

根据Meta此次公开透露的结果,其打造的超级计算机AIRSC,目前算力在全球应该已经排到了前四的水平。

这个情况已经足以令人非常震惊。毕竟,在算力方面能够和RSC相提并论的其它超级计算机,均由中国、美国、日本的国有研究机构运作——而RSC是前五里唯来自于私营机构的超算系统。

这还没完:这台超级计算机,还在以惊人的速度,变得更快、更强。

Meta预测,到今年7月,也即半年之内,RSC的算力将实现2.5倍的增长。另据专业机构 HPCwire估计,Meta的RSC超级计算机,其运行 Linpack benchmark 的算力将有望达到220 PFlops。

如无意外,RSC将成为名副其实的“全球最快AI超级计算机”。

AIRSC内部,图片来源:Meta

AI研发进入“超算”时代

首先需要回答一个问题:

什么样的AI研究,需要如此强大的超级计算机?

一般的模型,或许可以在一般的电脑或普通的数据中心里,用一块或是几块显卡就可以完成训练。而Meta正在研究的,是比目前的模型参数量要大得多,性能要求更高、更严格,训练花费时间更久的——超大模型。

以识别有害内容为例:CV算法需要能够以更高的采样率,处理更大、更长的视频;语音识别算法需要在极大噪音的复杂背景下达到更高的识别准确度;NLP模型要能够同时理解多种语言、方言和口音,等等……

在过去,许多算法在跑分数据集上都得到了不错的成绩。然而,Meta是一家几大洲十亿级别用户量的公司,它必须确保同一个模型投放到生产环境中能够最大限度保证普适性。所以,一般模型不够用了,现在要训练大模型。

训练大模型,需要大算力——问任何一个从事大模型研究的人,你都会得到这样的答案。毕竟过去的训练任务用几周能够完成,可在今后,面对新的大模型,我们可等不起几年……

“在今天,包括识别有害内容等在内的许多重要的工作,都对于超大模型产生了极大的需要,”Meta在其新闻稿中写道,“而高性能计算系统是训练这些超大模型的重要组件。”

Meta此次发布的超级计算机AIRSC,全称为AIResearchSuperCluster(人工智能研究超级计算集群)。

虽然Meta在今天首次公开宣布推出这一系统,实际上RSC的前身版本最早在2017年就已经在Facebook公司内部投入生产使用了。当时,Facebook团队采用了2.2万张英伟达V100TensorGPU组成了首个单一集群。该系统每天可以运行大约3.5万个训练任务。

据HPCwire预计,这个基于V100GPU的前身版本,按照Linpack benchmark的浮点计算性能应该已经达到了135PFlops。这个水平在全球超算排行榜Top500的2021年11月排名中,已经足以排到第三名了,也即其算力可能已经超越了美国能源部在加州Livermore运作的“山脊”(Sierra)超级计算机。

不过,对于Meta来说,这还远远不够。他们想要的,是世界上最大、最快、最强的AI超级计算机。

这台超算还必须要达到生产环境的数据安全级别,毕竟在未来,Meta的生产系统所用的模型可能直接在它上面训练甚至运行。

并且,这台超算还需要为用户——Meta公司的AI研究员——提供不亚于一般训练机/显卡的使用便利性,和流畅的开发者体验。

MetaAIRSC技术项目经理KevinLee  图片来源:Meta

2020年初,Facebook团队认为当时公司的超算集群难以跟上未来大模型训练的需要,决定“重新出发”,采用最顶尖的GPU和数据传输网络技术,打造一个全新的集群。

这台新的超算,必须能够在大小以EB(超过10亿GB)为单位的数据集上,训练具有超过万亿参数量的超大神经网络模型。

(例如,中国科研机构智源BAAI开发的“悟道”,以及Google去年用SwitchTransformer技术训练的混合专家系统模型,都是参数量达到万亿级别的大模型;相比来看,此前在业界非常著名的OpenAIGPT-3语言模型,性能和泛用性已经非常令人惊讶,参数量为1750亿左右。)

Meta团队选择了三家在AI计算和数据中心组件方面最知名的公司:英伟达、PenguinComputing,和PureStorage。

具体来说,Meta直接从英伟达采购了760台DGX通用训练系统。这些系统包含共计6080块Ampere架构TeslaA100Tensor核心GPU,在当时,乃至今天,都是最顶级的AI训练、推理、分析三合一系统。中间的网络通信则采用了英伟达InfiniBand,数据传输速度高达200GB每秒。

存储方面,Meta从PureStorage采购了共计231PB的闪存阵列、模块和缓存容量;而所有的机架搭建、设备安装和数据中心的后续管理工作,则由从Facebook时代就在服务该公司的PenguinComputing负责。

这样组建出来的新超算集群,Meta将其正式命名为AIRSC:

图中显示的是RSC第一阶段(P1)的参数细节。图片来源:Meta

相较于之前FAIR采用V100 显卡搭建的计算集群,初代 RSC对于生产级别的计算机视觉类算法带来了20倍的性能提升,运行英伟达多卡通讯框架的速度提升了超过9倍,对于大规模自然语言处理类 workflow 的训练速度也提升了3倍——节约的训练时间以周为单位。

值得一提的是,在Meta刚刚做好RSC升级计划的时候,新冠疫情突然袭来了。所有实体建造的工期都遇到了极大的不确定性,RSC能否成功升级换代,打上了一个巨大的问号。

然而,公司业务发展和AI科研的需要,无法等待新冠疫情。负责RSC升级和建造的团队,以及包括英伟达、PenguinComputing、PureStorage等三家硅谷公司在内的技术合作方,不得不在极大的工期压力下,完成数据中心的装修建设、设备的生产和运输、现场装机、布线、调试等一系列非常繁琐和技术要求极高的工作。

更夸张的是由于当时全美各地都有居家隔离令,整个RSC项目团队的多位负责人,都不得不在家中远程工作……团队里的研究员ShubhoSengupta表示,“最让我感到骄傲的是,我们在完全远程办公的条件下完成了(RSC的升级工作)。考虑到项目的复杂性,完全没有和其它团队成员见面就能把这些事都办了,简直太疯狂了”

就目前来看,RSC已经是世界上运行速度最快的AI超级计算机之一了。

但是Meta仍不满足。

打造全球最快、最安全的AI超算

为了满足Meta在生产环境和AI研究这两大方面日益增长的算力需求,RSC必须持续升级扩容。

按照Meta的RSC第二阶段(P2)计划,到今年7月,也即半年之内,整个计算集群的A100GPU总数提升到惊人的1.6万块……

初代RSC采用的DGXA100单机数量是760台,折合6,080张显卡——这样计算的话,也就是说RSC将在P2 再增加9,920张显卡,即Meta需要再从英伟达采购1,240台DGXA100超级计算机……

就连英伟达也表示,Meta的计划,将让RSC成为英伟达DGXA100 截至目前最大的客户部署集群,没有之一。

算力提升了,其它配套设施,包括存储和网络,也要跟上。

按照Meta的预计,RSC 的P2完成后,其数据存储总量将达到1EB——折合超过10亿GB。

不仅如此,整个超算集群的单个节点之间的通讯带宽也获得了史无前例般的提升,达到惊人的16TB/s,并且实现一比一过载(也即每个DGXA100计算节点对应一个网络接口,不出现多节点共享接口争抢带宽资源的情况)

(这里还有个点值得单独提一下:按照Meta团队的估计,像RSC这样采用DGXA100节点组建超算集群的做法,能够支持的节点上限也就是1.6万了,再多就会出现过载,意味着追加投资的边际收益显著降低。)

在数据安全的角度,Meta这次也没有忘了在新闻稿中专门介绍其数据处理方式,以求令公众安心。

“无论是检测有害内容,还是创造新的增强现实体验——为了打造新的AI模型,我们都会用到来自公司生产系统,取自真实世界的数据,”Meta表示,这也是为什么RSC从设计之初就加入了数据隐私和数据安全方面的考虑。只有这样,Meta的研究院才能够安全地使用加密、匿名化后的真实世界数据来训练模型。

1)RSC被设计为无法和真正的互联网直接连接,而是和位于RSC所在地附近的一座Meta数据中心进行连接;

2)当Meta的研究人员向RSC的服务器导入数据的时候,这些数据首先要通过一道隐私审查系统,确认数据已经进行了匿名化;

3)在数据正式投入到AI模型算法的训练之前,数据也会再次进行加密,并且密钥是周期生成和抛弃的,这样即使有旧的训练数据存储,也无法被访问;

4)数据只会在训练系统的内存中解密,这样即使有不速之客闯入RSC,对服务器进行物理访问,也无法破解数据。

可能是出于保密的目的,Meta甚至连 RSC的具体所在地都没有透露……

不过根据已知的情况,RSC的附近必有一座Facebook/Meta数据中心存在。并且,下图截取自RSC的公告视频,图中我们可以看到,AIRSC位于右上,左下则是Meta的一座数据中心。图中有着大量较高的树木。

硅星人基本可以确定,上图中的Meta数据中心位于美国弗吉尼亚州Henrico县。该县是美国东部最大的数据中心集中地,也是连接欧洲、南美、亚洲、非洲的多条海底光缆在美国的末端所在地。至于RSC的实际所在地,其前身应该是QTSRichmond数据中心。

右边为Meta数据中心,左边为QTSRichmond也即MetaAIRSC所在地  截自GoogleMaps

最后,让我们来看看成本……

不考虑同样极其昂贵的存储和网络基础设施,我们就先只看计算的部分:

每台DGXA100的标准售价为19.9万美元,Meta大宗采购肯定有折扣,但假设没有折扣的话:RSC这次P2的扩容成本,仅显卡采购的部分,就高达2.5亿美元……)

当然,按照今天的Meta市值来看,这笔费用简直是九牛一毛。假若真的打造出全世界最大最强最快的AI超算,对于这家公司的业务,无论是其现在的核心业务,还是未来的元宇宙产品,预计都能够带来非常大的帮助。

Meta是这么说的:“最终,我们在RSC上面的努力,将能够为作为下一个关键计算平台的元宇宙铺就道路。届时,AI驱动的应用和产品将会扮演重要的角色。”

戳这里提交新闻线索和高质量文章给我们。
来源: cnbeta
相关阅读
大模型“暴力计算”时代,中国如何突围算力之困?大模型时代,探迹要给每位销售配上AI助理|100个革新产品(3/100)大模型时代,南大周志华埋头做学件,最新论文上线大模型时代,南大周志华团队最新论文上线!大模型时代,计算创新如何为应用性能提升开启新路径大模型时代,架构师如何玩转“AI+架构”?| ArchSummit讲座预约丨四位专家大论道 :大模型时代,机器人的技术革新与场景落地丨GAIR live个性经济时代,MiniMax 语音大模型如何 To C?中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响大模型时代的计算机系统革新:更大规模、更分布式、更智能化阿里云汪军华:大模型时代的人工智能+大数据平台,加速创新涌现一文解读:如何理解“大模型时代”的狂飙趋势?|投资笔记第162期走进大模型时代:ArchSummit 架构师峰会引领技术未来大模型时代下的技术管理“新思维” |年度盘点与展望AI大模型时代下,AIoT有哪些创新应用?专访优必选庞建新:在大模型时代推动机器人智能化|GAIR live吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选
原创公众号
为什么总觉得别人对自己有敌意?让人感到安全又放松的8个「恢复角落」| 社长日签外国势力左右美国大选?两党竞争毫无底线!民进党真有“两套”地震警报系统!俄外交部“乌克兰危机超越边境”,英防长“转入战前时代”!刘诗诗10年前旧照被扒,引2.4亿网友围观:这简直就是刘亦菲2.0吧..."氛围感"拉满!!12款ins风「四件套」杀疯了!A类婴儿纱软糯哭~2024“渣女背心”太绝了!又纯又欲,出街撩撩撩撩爆了~~震惊!科学家竟然在宇宙中找到了地球上不可能存在的分子!为细菌设计的迷宫,让它们无法感染人体小思考 |人生丝滑技巧从C++切换到Rust,开发效率提升两倍不止这下戏里戏外都成了狗男人?第21期柬埔寨电影工作坊“高棉金棕榈”在澳门,听两位本土创作者分享短片的力量这条仙女流光蓬蓬裙,不愧是温婉优雅风的必备单品!“长久的男女关系,离不开这一点”邓元杰精彩文章汇总(2024年4月1日前)上海4000万买房的都是富豪?门槛真不如你想的那么高姜文沉沦女色,我选择原谅完整版 Y Combinator W24,100+ AI项目全览|硅兔独家让你精通ssh命令和SSH服务GO的并发与并行最适合今晚和娃一起看的电影,我找到了这7部2023年美国留学生拒签率飙升至36%,不能只欺负中国学生!2024年F1美签申请新变化,你必须了解!怎样养育一个心理健康的孩子?法国教育专家给的9个建议爱尔兰诞生最年轻总理, 16岁涉政,大学辍学,却成为国家教育部长......【行业日报】美国和英国人工智能安全测试建立伙伴关系20岁鲍登学院中国女生自杀身亡,校长表示令人心碎和震惊
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。