Redian新闻
>
全球最强智算来了:12000000000000000000(别数了18个0)FLOPS!

全球最强智算来了:12000000000000000000(别数了18个0)FLOPS!

科技
金磊 梦晨 假装发自 张北县
量子位 | 公众号 QbitAI

“全球最强智算”王座,刚刚易主。

来自中国河北省张北县的“中国选手”,一举击败谷歌。

图:张北县草原

而其所凭借的算力值,每秒浮点运算次数已经高达12EFLOPS(百亿亿次)

相比之下,谷歌单集群算力峰值是9EFLOPS,特斯拉也仅有1.9EFLOPS。

那么张北县的这个“速度”,到底有多快?

举个例子

以前要训练一个自动驾驶的模型,大概需要花费的时间是7天。

而在“全球最强算力”加持之下,这个时间直接缩短到了1小时之内,整整提速了将近170倍

智算,即为人工智能专门提供的AI算力。这个“全球最强智算”的庐山真面目,正是来自位于河北省张北县的阿里云飞天智算平台所启用的张北智算中心

而且这个智算中心不仅是在AI算力上取得第一这么简单,据了解,这个智算中心还“解锁”了如下能力:

  • 千卡并行效率达90%以上,计算资源利用率可提升3倍

  • 最高可将存储IO性能提升10倍,将系统时延显著降低90%

  • 最多可提升AI训练效率11倍,推理效率6倍

  • PUE最低降至1.09,建设占地面积节省90%

而且这些AI算力,正在带来一个更加智能化的日常。

如此智算都用在了哪里?

首先就是刚才提到的自动驾驶

此前,阿里云便和小鹏汽车打造了中国最大的自动驾驶智算中心“扶摇”

而这也是国内第一个投入实际运营的,专为自动驾驶服务的超大智能算力集群。

也正如其名,“扶摇”之意,是指阿里云提供的超大算力和AI研发工具链,能让小鹏汽车的自动驾驶技术的迭代效率“直上九天”。

总体而言,“扶摇”具备两大特征

首先就是以超大规模GPU算力作为AI模型迭代的基础。

这是因为自动驾驶、或者说智能汽车上的核心功能,其实都是AI,是大规模的深度学习算法。

而无论是训练,还是测试这样的模型,扮演主角的不再是传统CPU的逻辑推理能力,而是以AI加速器为主的浮点计算能力,GPU则是当前AI加速器的主流。

其次,便是提供了针对自动驾驶应用特征的计算集群、性能加速软件和AI大数据一体式平台,使得模型训练速度、GPU资源利用率和算法研发效能都大大提升。

据了解,目前已经建成交付的扶摇智算中心,总算力达到600PFLOPS,即每秒进行6x1017次浮点运算。

整体计算效率上,扶摇实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。

这也就是自动驾驶核心模型训练时间,能够由7天缩短至1小时内的主要原因。

而自动驾驶,只是飞天智算中心应用的场景之一。

科研领域,也早已处于“上岗”状态。

北京大学化学与分子工程学院便利用阿里云的智能算力,将靶向药研究数据集计算效率提升了100倍。

此前算法依赖的是单机式算力,受限于软硬件的限制,往往系统整体性能偏低,无法满足快速增长的算力需求。而通过集群进行并行计算,能让算力规模不再成为掣肘。

不过有一说一,算力这个东西,其实通过自行购买GPU搭建集群的方式便可以获取,而且此前行业内普遍的做法也是如此。

那么为什么诸多领域现在都开始时兴采用智算中心了呢?

这是因为近年来,不论是自动驾驶、元宇宙,亦或是生命科学天文学,各类科研和产业应用的发展,都越发具备数智驱动的趋势,这种情况下算的更快往往就是核心优势,算力成为了绝对的生产力。

基于如此现状,智能计算可以提供更加多元化的算力服务,逐渐成为了主流选择。

但智能计算不同于通用型计算,需要海量数据对AI模型进行训练,算力往往在模型参数更新、数据迁移等环节被消耗,千卡以上规模仅有40%的有效算力输出,甚至出现计算卡越多,总体性能越差的情况。

这便导致了规模化的算力的获取困难,不仅硬件成本昂贵,而且还需要专业的技术从系统架构、软件等方面进行深度重构和优化,自建智算中心,成本和时间便成为了最大的敌人。

以自动驾驶为例,复杂路况下的复杂决策能力,包括识别红绿灯、路口、行车车辆等等,其实已经进入L3-L4级范围。

按照如此迭代速度,未来3-5年,自动驾驶研发很快会进入较为成熟的L4级甚至是L5级,迭代所需算力规模也会快速上升到只有“智算中心”才能满足。

算力需求的指数级膨胀,造成目前自动驾驶玩家的“算力”焦虑越来越严重。

因此,当下自动驾驶对于智算中心的需求,其实是为保持持续的技术领先优势做储备。

而飞天智算中心便在拿下全球第一速度之外,还规避了诸多传统高性能计算固有的疑难杂症。

为了解开这些疑难,阿里连顶会最佳论文都没少拿。

“全球最强”背后的一套功法

秘密就藏在背后的飞天智算平台

一个可以持续进化的智能算力系统。

换句话说,做智算中心不能仅考虑基础设施和硬件,也要考虑其上运行的软件平台、算法和服务。

这其中最重要的是做到软硬一体,通过“打磨”让软件和硬件在一个平台中真正相互融合。

首先,要做到单集群12EFLOPS的算力峰值,仅靠单块芯片无法完成,就需要考虑并行效率的问题。

如果在一台普通电脑里装两张相同的游戏显卡,大概只能获得75%的性能,也就是花了两份钱只享受到一份半的效果。

类似的问题在智算中心也存在,而且更严重。因为要用到上千张GPU做并行计算,算力输出最低往往仅有40%左右。花一千份的钱,只享受四百份的效果,亏大了。

那么在飞天智算平台,千卡并行的效率可以做到多少呢?

90%。

要做到这一点,最关键的就是减少非计算部分的开销——上图里的阿里云灵骏智能计算就是干这事的。

采用浸没式液冷的灵骏智能计算,Pue低至1.09

此外,还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等,都需要在业务实践中反复打磨、相互配合才能做到极致的优化。

除了GPU之外,构建如此大规模算力也少不了异构计算。

飞天智算平台适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度。

据灵骏产品研发负责人曹政透露,为了支持国产化芯片的生态发展,在云服务的领域他们甚至做到了比厂商更好的性能调优。

那么,这种“打磨”的能力从何而来?

源于阿里多年的业务实践。

拿淘宝来说,商品搜索、智能客服、千人千面的个性化推荐等,平均每天需要处理10亿张图像、120万小时视频、55万小时语音和5000亿句自然语言。

每逢618、双11大促,更是要面对峰值负载的考验,多年来已沉淀出适应实际需求的技术体系和最佳工程实践。

在AI开发层,阿里云还有两个杀手锏:PAI-EPL和PAI-Blade。

前者能够支撑万亿级参数的大模型训练,提供了包括数据并行、模型并行、流水并行在内的丰富的分布式训练能力。

在内部测试中,PAI-EPL只用了512张 GPU就完成了M6万亿模型的训练,大幅降低了超大模型训练的成本,将训练效率提升了11倍以上。

PAI-Blade则为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,尽量避免用户改模型代码,可将推理效率提升6倍以上,极大地方便用户使用。

这些综合技术整合到一起,就成了飞天智算平台软硬一体能力的来源。

除了智算中心自身软硬件之外,其上运行的算法和智能服务也是飞天智算平台中的重要能力。

全链路AI开发工具与大数据服务,包括阿里云大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎实现架构统一。

如此一来,可适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等多种场景。最多可提升AI训练效率11倍,推理效率6倍。

另外说到智能算法也别忘了达摩院。据介绍,达摩院开源的M6大模型从诞生之初就与飞天智算平台一起生长,相互配合起来更能发挥出彼此的实力。

最后,绿色低碳也是飞天智算中心的优势之一。

对于大型算力中心来说,衡量绿色化程度的一个重要指标是能源利用效率(PUE, Power Usage Effectiveness)

根据《2021年中国数据中心市场报告》,2021年全国数据中心平均PUE为1.49,华北地区平均约为1.40。

这意味着IT设备每消耗1度电,就有额外的0.9度电用于散热、供配电系统本身的消耗、照明等其他用途。

而张北智算中心采用了行业独有的单相浸没式液冷解决方案,将服务器泡在特殊冷却液里,PUE最低可以达到1.09,行业领先。

图:阿里云浸没式液冷服务器

此外,AI调温和模块化设计等都起到了关键作用。

不仅如此,智算中心选址在张北还可以利用起当地充足的光伏和风电资源,做到100%使用清洁能源。

不过为了克服光伏和风力发电不稳定的问题,也需要更强大的供配电技术来保障。

如何评价全球智算王座易主?

纵向看时间。

两年前,阿里首次公开自研AI集群细节,那篇论文还被计算机体系结构顶级会议HPCA 2020收录。

不过在多年来一直参与平台建设的曹政看来,当年团队把注意力单纯的集中在了技术上。

如今升级扩展到智算平台,除了规模扩大,技术进化以外,还更看重产品、服务,看重智算平台能否真正顺滑的与生产流程相结合。

横向看对比。

建设大规模智能算力有几类玩家,云计算公司、AI算法公司、硬件公司。

阿里在其中是一种比较特别的存在,既有自研云计算技术体系,又有内部AI业务的大量实践,最近又开始涉足自研芯片。

如此打造出来的智算平台高度自主可控,既能以此为蓝本不断复制出新的智算中心,又能在服务不同行业时低成本迁移。

如专为小鹏汽车定制打造的乌兰察布智算中心便是很好的例证。

如果把目光拉远,更大的图景在于数字化升级、智能化转型。

这些年来,智算中心的服务对象从大型技术公司、AI算法初创公司,逐渐扩展到自动驾驶、AI for Science等交叉行业。

随着智能化转型逐渐深入,不久的将来还要服务于农业、制造业、能源、物流这些离IT技术更远的行业,而越是这样的行业就越是需要端到端的解决方案。

从这一点来看,强调“打磨”、“顺滑”的飞天智算平台,再一次“幸运地”引领了时代趋势。

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022全球最强“小三”当王后,已故25年的戴安娜冲上了热搜...整机接入速率19.31Gbps!锐捷首款Wi-Fi 7 AP惊艳亮相迪拜海湾信息科技展全球疫情进展 看这个就够了(截至2022-10-10)校狗用树叶换零食,小卖部快被吃垮,直接限制购买次数了哈哈冰雪冠军,高中创业,纽大学霸...这个00后北京女孩,用运动塑造多面人生全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS耗资10亿,解密淮海智算中心,浪潮如何加持全国智算枢纽?叫板US News!这才是2022美国大学Top100!小臭嘴/爱积食/脾胃弱的孩子,就吃这个0人工添加的棒棒糖丨开团[模型] 骨折三作——1:12 Kawasaki KH400(1979)Custom不要拒绝新事物【Floriade】2022南半球最大花展就在下周! 攻略在此! 堪培拉要变身美食城了?! 必打卡活动千万别错过!3年打造一款美容仪,产品上线3个月跻身类目Top5, FLOSSOM花至如何以自主研发实现国货崛起【美国包邮】Joydeem 超强智能破壁机 1台顶8台 冷热双打 炖煮/预约/磨粉/豆浆/米糊/杂粮粥/果汁/绞肉 JD-D16我家孩子说话到底晚不晚?看完这份超详细的语言发展攻略,心里有数了(0-6岁父母收藏)这个00后安徽小伙,带着130万人,穿越回了80年代…维州Geelong曾出现“全球最大阴茎”,从太空都能看到!全球媒体是如何发现它的?(组图)当全球最强风暴掠过家园——国家地理灾难照片精选【今日项目】分享几个0门槛的项目,月入3-5万没问题!下一代Thunderbolt规格曝光:120 Gbps相当于15万台电脑的计算能力,成都智算中心打造“最强大脑”第一次当妈?看完这份早教专家妈妈 7 千字的育儿手记,心里肯定有数了Retool、Webflow、Appsmith接连获得融资,低代码浪潮是否卷土重来?|36氪专访1590!BIE SAT训练营再出高分!妈妈再也不用担心你的分数了!为什么当今去了香港, 也没留那儿参加庆祝大会?今早看新闻的全球最“任性”女孩,16岁辍学,花1000元环游世界,3年后竟发现赚了1个亿。《偶然崛起的超级大国》读后感——俄乌战争的预言家福布斯、华盛顿月刊叫板USNews!我的Top20在你那里居然“不入流”?小臭嘴/爱积食/脾胃弱的孩子,就吃这个0人工添加的棒棒糖(明10点返团)三块钱逛遍城市,嗦粉堪称第一,这个0套路小城不火才怪举世大party,真的不容易啊老广居然破了牙买加短跑王(博尔特)的世界纪录新版TensorFlow又立flag!官方团队明确「四大支柱」:承诺100%向后兼容,2023年发布判例译析 | 保护生物识别数据:雇员没有义务使用指纹考勤系统
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。