Redian新闻
>
全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

科技

让自动驾驶AI训练提速170倍之后,阿里云推出了全球最大智算平台。
作者 |  李水青
编辑 |  漠影
智东西8月30日消息,今日,阿里云宣布推出智能计算解决方案“飞天智算平台”,并启动位于张北和乌兰察布的两座超级智算中心,算力规模合计15 EFLOPS(每秒1500亿亿次浮点运算),成为全球最大规模智算平台。
简单来说,智算中心是指专门面向人工智能应用的数据中心。
飞天智算平台是阿里云推出的智算中心升级方案,向下支持“一云多芯”,提供大规模融合算力;向上兼容通用及智能算力场景,以公有云和专有云两种模式为产学政客户提供全栈AI开发和模型能力。
阿里云智能全球销售总裁蔡英华说,当下,中国企业采用人工智能比例达58%,居于全球首位,数据智能应用正驱动算力基础设施升级,智能算力成为数字经济新引擎。
让自动驾驶模型训练提速170倍,助靶向药研究数据集计算效率性能提升100倍十万亿参数AI大模型1分钟内训练完成……阿里云公布的一组组数据展现出智算技术带来的效率革命。

随着东数西算推进,我国智算中心建设已在京津冀、内蒙古、长三角等8地国家算力枢纽节点拉开序幕。据工信部统计,目前全国建成和在建的智算中心已有20多座。在产业界,云计算大厂、ICT企业、运营商都已入局。
与此同时,新的问题也在出现——行业究竟需要什么样的智算服务?海量智能算力如何真正被用起来?通过对话阿里云智算系统的负责人曹政,我们对智算中心的应用情况,以及背后的技术和产业真相有了深入了解。

01.
让自动驾驶AI训练提速170倍
阿里云推全球最大智算平台


2022年7月,在北京中关村写字楼中,小鹏汽车的工程师仅用1个小时,训练出一个原本需要7天完成的自动驾驶核心模型。而在300多公里外的乌兰察布的草原上,一个算力规模达600PEFLOPS的智算中心正高速运转,这是让小鹏AI模型训练提速近170倍,成本降低62%的幕后“发动机”。
在取得这一标杆成绩之后,今日,阿里云宣布正式推出飞天智算平台。
这是一个阿里云为智算提供的全栈能力体系,也是助力小鹏自动驾驶智算中心中的核心平台。在客户视角,它相当于智算中心的操作系统,内部则涵盖一个智能计算系统、大数据和AI开发平台层,以及最上层的AI模型服务层。

近年来,汽车、生命科学、工业、元宇宙等各个领域数智化发展迅速,随之而来的是超大规模AI模型和海量数据,都对智能算力提出了更高要求。一般的数据中心也可以做AI,但算力在数据迁移、同步等环节损耗往往可能超一半,成本高昂,大大阻碍了产业发展。
作为国内第一大云计算公司,阿里云用飞天智算平台来助产业破解这一算力瓶颈。
向下,飞天智算平台会管理智算集群,适配多种类型芯片;向上,它搭载了全栈AI开发和模型能力。根据阿里云官方数据,飞天智算平台可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,并将PUE(电源使用效率,越靠近1表明效果越好)降低至1.09,远优于东数西算提出的1.25标准。
在正式推出之前,飞天智算平台在阿里云内经历了重重“历练”。
拿很多人熟悉的淘宝APP中的“拍立淘”来说,其拍照识商品模型的训练,就通过飞天智算提速200倍,10亿图片训练时间从2.5个月缩短到8小时;全球最大规模的十万亿参数AI模型M6也用到了飞天智算,仅使用512张GPU在10天内训练出,且能耗仅为GPT-3在同等参数规模下的1%。
目前,飞天智算平台已服务了深势科技、上汽集团、吉利集团、中国气象局、南方电网、北京大学等多个产学政机构,取得不错成果,比如助北大靶向药研究数据集计算效率预计性能提升100倍等。
飞天智算平台正在支撑建设两座超大规模智算中心——河北张北智算中心和内蒙古乌兰察布智算中心。
据称,这两大智算中心规划算力分别达12 EFLOPS和3 EFLOPS(FP16精度下),将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。粗略估算,如果15EFLOPS资源同时工作,一个万亿参数的AI大模型,大约需要10分钟就能完成全部训练。

可以看到,平台+智算中心,阿里云正在将其经过实践验证的智算能力开放出来,与行业伙伴们一同奔赴新的效率革命高地。

02.
数智转型需求井喷,智算中心
成数字经济发展“新引擎”


数字经济发展进入窗口期,“十四五”相关规划提出了多项指标:大数据产业测算规模突破3万亿元,在线政务服务超8亿人,建成500个以上智能制造示范工厂……“上云用数赋智”成为各个产业升级的迫切需求。调查机构IDC预测,2020-2023年,全球数字化转型的直接投资将超过6.8万亿美元。
算力需求随之井喷,智算中心成为解决这些需求的有力抓手。
那么智算中心和一般数据中心到底有什么本质性差别?又是如何提高算力效率的呢?
阿里云智算系统负责人曹政说,助推人工智能跨入效率时代,需要超大规模弹性智能算力池、超高计算效率,以及释放多元芯片算力。本次,阿里云本次推出的飞天智算平台及智算中心,相比于一般数据中心的主要特点如下:
1、融合算力峰值达12EFLOPS,千卡并行效率达90%
飞天智算单集群采用通用计算、异构计算等多种计算形态融合,算力峰值高达12EFLOPS,千卡并行效率达90%。针对数据密集型场景,飞天智算对大规模集群存储IO性能可提升10倍,可使万卡规模的AI集群通讯无拥塞,将时延显著降低90%。
2、全链路AI开发工具与大数据服务,提供高效智能服务
飞天智算平台内置大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎,适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等。官方数据显示,其最多可提升AI训练效率11倍,推理效率6倍。
3、一云多芯,支持国产芯片自主创新
值得一提的是,随着智算中心上升到新基建战略地位,对自主创新也提出更高的要求。飞天智算适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度,可以适配多种国内自研芯片,并进行应用优化。
4、绿色低碳,PUE最低降至1.09
在绿色低碳低碳方面,飞天智算中心采用浸没式液冷、风冷、AI调温、模块化设计等绿色技术建设,PUE最低降至1.09,建设占地面积节省90%。

可以看到,智算中心相较于一般数据中心的优势,远不止于算力。除了对算力规模和效率要求大大提高,智算中心还需要为客户提供软件平台层的产品和服务,这是算力真正落地产业“最后一公里”的关键。同时,自主创新和绿色低碳也是数字经济发展对智算中心的诉求。
高质量智算中心,将成为政企把握数字经济发展“窗口期”的新引擎。

03.
三路玩家“抢滩”智算产业
阿里云13年底层技术创新大爆发


近年来,各地智算中心如雨后春笋般涌现,据工信部统计,目前全国建成和在建的智算中心已有20多座。纵观产业界,阿里云、腾讯云这样的云计算大厂,华为、浪潮、曙光等ICT厂商,还有三大运营商及各地的大中小集成商都已经入局了,可谓摩拳擦掌。
值得一提的是,智算中心建设很重要,在建设完后能“用起来”更加重要。
产业究竟需要什么样的智算服务?
正如前文提到,智算中心要具备高效算力、AI赋能、自主创新、绿色节能等多种特征。阿里云智能全球销售总裁蔡英华认为,智算不仅在于规模大,更是需要绿色、高效并且具备产业实践。计算是一个庞大的复杂系统,没有体系化的核心技术能力,堆硬件是堆不出算力的,更无法带来实际的产业价值。
自2015年起,阿里云在河北张北、内蒙古枢纽乌兰察布、江苏南通、浙江杭州、广东河源等地布局数据中心。在本次推出的飞天智算平台中,阿里云也对13年研发的云网技术进行了集大成总结,以“灵骏”智能算力系统的形式打包赋能给产业。

灵骏拥有业界领先的异构计算弹性能力,以低通信延时、高并行计算效率为特征。这是如何实现的?
曹政谈道,这主要源于以下几大自研技术点:
1、自研RDMA高速网络架构,AI集群的“高速路”
阿里自2016年起投入研究RDMA(远程直接内存访问),目前已建成全球最大规模数据中心内的“高速网”。基于端网协同的Solar-RDMA高性能网络协议和HPCC流控算法,灵骏能有效规避和弱化了网络故障、网络黑洞等灾害损失。
2、高性能集合通信库ACCL,“防堵车”的调度系统
通过自研高性能ACCL(集合通信库)+自研硬件(如自研网络交换机),灵骏可实现GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。
3、加速软件KSpeed,对特定需求“加Buff”
计算存储分离架构的“存储墙”问题显著,为此,阿里云通过自研高性能数据主动加载加速软件KSpeed。基于KSpeed,在部分场景中数据加载耗时可占据训练整体时长60%以上,能够将数据加载时长缩减到10%以内,相当于将单位时间内的计算性能提升了1倍。
当解决了云网问题,AI是智算中心更高层面的要求,同时是核心诉求。
阿里云飞天智算平台的一大特色,就是支持一套大数据+AI一体化产品体系。以机器学习平台PAI为例,它提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。PAI可为万亿级别参数的超大模型训练提效超过7倍,整体能耗降低80%;PAI-blade以较低门槛,可将大规模预训练模型压缩100倍以上,减少端到端模型部署成本10倍以上,支撑大量复杂模型在对话机器人、自动驾驶、智能制造、金融量化等场景的应用。
飞天智算平台还开放海量阿里达摩院研发的AI模型,覆盖多模态大模型、视觉模型、NLP模型和语音模型等。达摩院是中国最早投入预训练语言模型研究的团队之一,多模态大模型M6的参数规模居全球之首,深度语言大模型AliceMind曾以81.26%准确率刷新国际权威机器视觉榜单VQA记录。
值得一提的是,从“中国算力一张网”战略布局来看,智算中心网建设需要有全局系统化意识。
2022年2月启动的"东数西算"工程明确要求数据中心建设“集约化”,划定京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地为国家算力枢纽节点。阿里云两大智算中心等算力节点选址在枢纽节点,有望为“中国算力一张网”大战略提供助力。同时,阿里云在上海的华东智算中心也已在建设中,并有海外项目正在接洽。

04.
结语:智能算力网建设加快
提速智能产业发展


数字经济发展“窗口期”,人工智能正融入生活、生产的方方面面,智算中心成为背后的发展新引擎。阿里云本次推出的飞天智算平台,在向智算产业打造一个高效算力、AI赋能、自主创新、绿色节能的范式,为政企带来数智化转型带来新工具。
阿里云智能总裁张建锋此前谈道,阿里云最重要策略是“Back to Basic”,回到云计算的本质。自2009年创立以来,阿里云从研发国内唯一的云计算操作系统飞天,到推出神龙云服务器、PolarDB云数据库、大数据计算平台MaxCompute等云计算产品,走过13年已将其云计算技术更全面地开放出来。
当下,东数西算和全国一体化大数据中心体系建设步伐加快,科技公司也正在将多年技术融入到新基建加速中。智算中心在全国范围内连成网络,也将标志我国智能产业产生质的飞跃。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《大学之路,中美教育》读后感算力越高,车越智能?新造车「算力大战」背后的真相是啥?全年预计超12万台,激光雷达将迎来第一轮前装交付潮新版TensorFlow又立flag!官方团队明确「四大支柱」:承诺100%向后兼容,2023年发布对于张北超级智算中心,阿里云这样解释耗资10亿,解密淮海智算中心,浪潮如何加持全国智算枢纽?突发!中国资产全线跳水,2000亿新能源巨头闪崩,一句话引爆?来看最新回应!阿里腾讯再遭处罚,影响多大?美国30年期固定抵押贷款突破7%!石油公司利润一年暴增500% 加州州长发飙!全球最脏的人洗澡后去世!阿迪达斯终止与侃爷合作1930年代教员和官员工资情况图片故事(24)回忆父亲Retool、Webflow、Appsmith接连获得融资,低代码浪潮是否卷土重来?|36氪专访阿里云全球实时传输网络GRTN—QOE优化实践【Floriade】2022南半球最大花展就在下周! 攻略在此! 堪培拉要变身美食城了?! 必打卡活动千万别错过!刚刚!阿里官宣:香港再上市维州Geelong曾出现“全球最大阴茎”,从太空都能看到!全球媒体是如何发现它的?(组图)玩转元宇宙!刚刚,绿厂亮出首个虚实共生计算平台解析Tezos DeFi生态系统:其为何能从众多DeFi项目中脱颖而出?在巴黎: 拜访一位“可怜”的女人, 美食滑铁卢车载计算平台「阶梯战」打响,622定律「催生」多元化市场从“飞天+CIPU”演进,看阿里云为什么要选择软硬件双自研【CSR 可以refer了】信用卡 Refer a Friend 福利介绍突发!WHO官宣全球最高级警告!可怕病毒爆发,致死率高达88%!澳洲疫情也恶化创纪录,单日死亡破百,医院也爆满了...阿里云OpenTrek,七年封装再开放 | 甲子光年营收2055亿!阿里新季报业绩超预期,软银"预售"三成持股?套现近1500亿!人事最新变动价格缩水99%!最火P2E游戏Axie Infinity是救赎还是毁灭?港股IPO|中国最大的跨境电商公司之一递表港交所,美国为最大市场,上半年营收超12亿2年开店150家,单店月营收超10万,大富炸货铺如何讲好油炸小吃的故事?P2E游戏终于盯上原神玩家!想割二次元的韭菜?我的小确幸全球最强智算来了:12000000000000000000(别数了18个0)FLOPS!【好书推荐】全球发行超170万!全球最经典科普童书,聪明孩子人手一本!团购低至3折!数亿资金被“清零”,他们被全球最大的在线支付平台坑了重磅!阿里战投被曝大裁员,中高层为重灾区连续加息下,超180万澳洲家庭日子难过!各首府城市这些区贷款压力最大!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。