大企业为什么都在聊绿色计算?
编者按:
近日,蚂蚁集团主办的首届「绿色计算」大赛圆满落幕。在数字经济与双碳战略背景下,这场国内互联网企业举办的首个以绿色计算为主题的技术赛事,受到了学界和行业的广泛关注。
作为大赛评委,蚂蚁集团绿色计算负责人何征宇、南京大学研究员顾荣接受了科技播客「科技早知道」的采访,讨论绿色计算这一技术为何迅速升温,国内外领先科技企业正在做哪些尝试,技术难点是什么,长期市场和技术发展趋势可能如何。
▲文字有删减和整理,欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频
硬件利用率仅一成,绿色计算迫在眉睫
随着云计算、大数据的普及速度加快,它们所对应的电力消耗在惊人地增长。中国信通院的测算表明,到 2030 年,中国数据中心的耗电量会超过 3800 亿度。而这里面最麻烦的问题,是这些耗电的数据大部分是被无效消耗掉的。
最近几年,像蚂蚁、华为、英伟达、谷歌、微软、英特尔、苹果等大厂,几乎都在推行绿色计算。前几年,海外企业的绿色计算都围绕着硬件,比如微软的 Night Shift 项目。谷歌也许下承诺,说要在 2030 年之前实现数据中心 100% 无碳运作的目标。
国内大厂这几年则开始围绕着软件来推进。在 2022 年度的中国计算机大会 CNCC 绿色计算论坛上,我们看到了蚂蚁集团分享的绿色计算大赛比赛结果,参赛人员有来自华为、字节跳动、阿里巴巴等大厂的工程师,很多人都从软件技术角度给出了对当前算力利用率过低问题的优化方案。
国内的大企业都在思考,有没有一个方法,让算力随着互联网与 AI 普及到社会各个角落的同时,企业也能够做到让电力的规模化消耗可控。
▲《中国算力发展指数白皮书(2022年)》中统计的全球算力规模及增速
科技早知道:为什么这两年绿色计算在科技领域被提上日程了?
顾荣:最近十年,整个社会全面数字化,比如智能手机的产生,出现了很多 app。近两年疫情也倒逼我们很多事情放在线上,这使得我们对于计算设备,特别是对于数据中心的使用需求更大。
算力需求更大了之后,对能源的消耗在快速增长。一些公开数据显示,中国数据中心的耗电量增长是很快的。这个时候去做绿色计算技术,已经变得非常迫于眉睫了,这在全世界范围也是一样的。
科技早知道:绿色计算包含哪些技术?
顾荣:绿色计算是一个很大的范畴和理念,也可以具体到一些很小的技术细节。
我观察到主要涉及三块,不一定全面:第一,冷却技术;第二硬件设计;第三,软件设计。软件设计近几年发展如火如荼,蚂蚁集团绿色计算大赛也跟这方面有关,它涉及的是如果这个机房已经建好了,硬件架构已经确定了,我们还能怎么做。
我个人比较看好第三块,因为第一,它跟原来是正交的,不需要伤筋动骨;第二,我们现在已经有很多存量的数据中心了,可能也没法改动硬件。
何征宇:算力产生要从能源角度来讲。说到绿色,这跟地球上有限的能源是相关的,实际上有几个环节,从能源产生电力,电力到软硬件转成算力,这里面是有很大损耗的。而且不幸的是,最终转换成算力后,大部分的计算资源是闲置的。
我们今天讲中国的「双碳」战略,讲碳中和、碳达峰的问题,本质上这个问题是我们要怎么在发展的过程中同时极力降低能源消耗。现在我们说数字经济,数字经济离不开我们刚才讲的这些算力的问题。我们现在还没有完全数字化,Gartner 的报告显示整个 ICT 产业已经占到了全球碳排放的 3.5%了,我们还在快速的增长期,两年前是 2%,几年翻了快 1 倍。这个数字是比较吓人的,这也是绿色计算要去解决的问题。
科技早知道:我们国家的算力利用率大概是 6%-12%,很多是在 10% 这样的数字。为什么是 10%?我们为什么提不上去?
顾荣:CPU 设备满负荷去运行一些算力,和它不做任何事,其实并没有增加 100% 的电能耗。不太熟悉计算机模型的同学可能听起来有点奇怪,按道理说,就像我去买什么东西一样,我不做什么事应该不花钱,我要买什么东西才花钱。
但是计算机模型不完全是这样的,因为服务器开在那边,正常就是要耗电的。就像人一样,比如我们现在在这边坐着,不管我们今天有没有在做很多工作,但到时间点我们要吃饭,为什么?即使没有做工作,我要维持一个状态,要维持呼吸、正常运转都是要耗电的。
何征宇:事实上,过去几年我们发展了按需供应的技术,但之所以没有这么做,可能有几个原因:
第一, 10 年前的时候还是数字经济的飞速发展期。飞速发展期有几个特征:一是红利巨大;二是因为你还小,所以大家不会过于关注背后的能耗。
当只有慈禧太后能开车的时候,中国肯定不会有交通的问题,但是如果像现在每个中国家庭都有一辆车的时候,就会有交通的问题、就会有能源的问题等等。以前我们可能上网发一个邮件、看一个新闻就差不多了,现在玩游戏、看短视频等等,这背后人均算力的消耗,特别是增长速率是相当快的。所以现在来看,有一个影响整个社会的问题正在慢慢的出现。
科技早知道:再回到刚刚的问题,目前大概是 CPU 10% 的利用率能够被计算,那么我们能够到达一个什么样的高度,我们能够减排多少呢?
何征宇:至少从我工作过的两家公司来看,在谷歌的数据中心里面,平均整体的利用率是可以高达50%-60%。从蚂蚁来看,我们自己通过几年的努力,蚂蚁最开始也是跟行业水平差不多,8%-15% 左右。今天我们整体的利用率可以到 35%-40% 左右,高峰期可以到 60%-70%。
这验证了只要公司或者我们能够努力,关注这个方面,空间是非常大的,从百分之十几提高到百分之四十甚至百分之五六十,是完全有可能的。
绿色计算的相关实践,依赖公司对软件和硬件的掌控力
科技早知道:谷歌在哪方面的优势使它能做到 50%-60%,我们在哪些方面还有更长一段路要走?
何征宇:这里有很多技术性的东西,可以先讲一些宏观的东西。整个谷歌软件完全是自持的,基本上没有太多的三方软件,都是自己写的。谷歌整体的技术架构控制的是比较好的,虽然几百万台服务器的,但是它控制资源的系统,几百万台计算机是一个大的调度系统来控制的,叫 Borg,它就是要为整个公司的集群利用率负责。
在这之上长出来的所有的基础软件,特别是基础软件这一层,都是要遵循一些相应的标准。谷歌里面有一些相应的文化,一定是最大化团队的生产力,而不是个体。团队效能最大化就是要整体集群利用率最大化,而不是说我单个软件优化得很好就行了。
但是我们回到行业里面来看,比如做数据库的公司,可能只会关注于数据库本身,做大数据的,可能就只关注大数据,做中间件的,就关注中间件。但是你要把这几个东西加在一起看的时候,你会发现原来我们的资源是浪费的。
因为在计算机集群,特别是面向互联网服务的集群里面,任何一个软件都是有高峰期、低峰期的,但是我们的资源只能按高峰来准备,需要各种各样的任务或者各种各样的资源负载,去做削峰填谷。这里面又牵扯到非常多软件的架构或者软件质量问题,包括两个任务削峰填谷、不用资源的时候真正能把资源放出来、真正需要的时候能够拿到。
这就回到我们软件高质量发展的问题,国家也在讲软件的高质量发展。打个比方,你做的数据库和我做的数据库有什么区别?就是如果是一个高质量的数据库,我是不需要消耗那么多资源来支撑同样的服务量,我服务的弹性更好,当我没有那么多服务的时候,可以把资源释放出去。
刚才讲的更多是软件的部分,谷歌现在也延伸到了硬件。从我看来,硬件的发展跟软件的发展是一样的,它一定会追求更低能耗、更快的效率。绿色计算不是简单的看我们最终的结果是减排了多少碳等等,最核心的是在未来科技发展到下一个阶段的时候,我们有没有足够的硬件和软件的能力,去支撑到我们产生更先进的技术。
科技早知道:现在国内把软件的战略方向更优先了。
何征宇:对,硬件当然国家一直在抓,抓得也比较紧。
但是从我们国家的现实发展角度来看,第一,我们的软件工程师数量肯定是多于硬件工程师;第二,软件的迭代速度也远大于硬件;第三,硬件发展过程中客观也遇到了一些问题。但是从计算机系统来讲,软硬是一体的,软件从某种意义来说,如果发展的好,可以弥补一些硬件带来的不足。
科技早知道:顾老师一直在研究软件方向,特别是在弹性计算或者边缘计算,这一块现在有哪些方式方法,在往绿色的方向前进?
顾荣:我观察到的软件还有一个优势,因为我们现在确实有很大的存量市场,也就是说对于存量的机房,对于已经设计好并且在投入使用的数据中心设备,大量的软件方面还有可以优化的空间,这个现在来看应该是一个蓝海。
具体怎么做呢?其实这就是一个供和需的关系。这个问题存在于两个层面:一个层面,算力的供应往往不是面对一个应用,而是面对多个应用。第二,内存也是一种算力,因为计算机要供给你,为了服从你更好的把任务完成,它消耗的资源涉及到电力。当然还有你对 IOA 的需求,你对网络的需求,需求画像每个人都不一样,各个系统就要综合考虑。
对于单个应用而言,在同一时刻对资源的需求量是确定的,但是在一个时间线上是变化的。比如微信,我们明显知道它有潮汐现象,就是在上班的路上大家用的比较频繁,下班的时候用的比较频繁,中间的时候可能用的少一点。
如果我们没有能够在软件层面很好的处理,做资源的供给把握,就会造成给的太少会导致性能运行不起来,经常出问题。这个我们看到的比较少,因为这个直接跟业务体验直接相关,基本上没有哪个公司可以容忍。为了防止它供应过少导致无法运行,往往会走向另外一个极端,就是尽量多要一点,这个时候分配不合理,就会导致很多资源浪费。
所以我总结一下,一个是多个应用怎么样合理的分配,在同一时刻合理的分配;一个是对于单个应用而言,怎么样在一个时间线上能够合理去分配,这背后就是你提到的弹性资源分配的技术、削峰填谷等等资源匹配的方式。
这次蚂蚁大赛我也很高兴看到有这样一些题目,设计的很合理,比如云原生的分时调度,数据中心里面流量的预测分析,找到了一些比较好的视角,去看能不能有一些好的方案。
▲蚂蚁集团 2022 年双十一期间应用绿色计算减排 947 吨二氧化碳
科技早知道:您说看到了在这次比赛当中好的一些想法和创意的角度,能不能给我们列举一两个项目?
顾荣:这次因为每个老师只做一个赛题的评委,所以我参加的是云原生分时调度,这也是我的一个研究方向。
很多选手都有很精彩的想法,把以前传统的运筹学、调度学放到这里面来做。我个人比较喜欢的一个,有一个队伍是这么想这个问题的:
其实我们并不难做到在同一时刻去做匹配,较难做到的是这一次弄完之后,是不是有更多的空间,使得下一次再有任务来的时候我还能放得进来,每次放进来之后,还能为未来优化,为未来更多的应用留出了时间。
何征宇:顾老师刚才举的那个例子我也比较喜欢,充分体现了这次绿色计算大赛玩的感觉,跟玩俄罗斯方块差不多。我补充一下我看到的一些点,也比较有意思。
我们还有一个赛道是遥感图象识别,这个案例也是蚂蚁真实的例子,就是蚂蚁森林抢能量的功能。每天早上起来有很多人抢能量,抢能量是为了种树,用户每在支付宝上种一棵虚拟的树,蚂蚁集团都会在沙漠里面种一棵真树。现在种树种得很多了,得去盘这个树种了后长得怎么样等等。赛道二的赛题就是怎么从遥感图像里面提取出树木,识别树木的数量,不用护林员去数。
有很多选手也想了很多方法,要识别准确,因为有的树还很小,地貌也比较复杂,不是那么容易。有一个点我比较喜欢的,就是有选手在做这个东西的时候,没有忘记我们出这个题的绿色计算或者蚂蚁森林的初心,他们用脉冲神经网络,一种能耗非常低的算法模型,有点像模仿人的神经系统,比如你紧张的时候基础代谢率肯定是更高的,这是生物的本能,但这时候能耗是非常高的。
新一代脉冲神经网络,它也属于深度学习,但是它模仿生物的能力,动态神经网络里面神经元不是在每一次迭代传播中都被激活的,达到一定阈值才会被激活。从神经网络角度来说,可以降低计算系统的基础代谢率。
这个技术还比较新,团队名次不是太好,但是我觉得他对绿色计算的思考,包括对我们本质想要达到的目标非常了解,十分值得鼓励和学习。
科技早知道:这次蚂蚁绿色计算大赛有没有一些更加受到大家关注或者更加有挑战性的题目?
顾荣:这次赛事是这样的,有三个赛道,云原生调度、遥感识别、时序流量预测、数据库,分了预赛、决赛。初赛的三个赛道是不限制的,大部分选手选择了两个以上的赛道,数据上,时序流量和云原生调度比较受欢迎。决赛有两个题,信息系统的性能优化和图象识别是两个必答题。决赛和预赛题目的方向是不同的,比如你是做云原生调度的,最后决赛可能还得做图像识别。
从参赛人员来说,选手有国内顶尖的学校,像北大、浙大、南大等等的同学,还有企业的。说明绿色计算技术是大家共同关注的话题,我觉得是一个小的技术生态的感觉。
科技早知道:蚂蚁发起这个事情,也是吸引更多其他的一些公司一起来关注绿色话题,并不是只做自己的。
何征宇:是的,我们觉得这是一个行业性的问题。我们举办这次比赛,本质上是把蚂蚁的案例精炼出来,变成了赛题。蚂蚁把自己的场景开放出来,希望跟学术界、各个公司,甚至一些个人、社区,一起合作,首先大家一起先看到这个问题,当大家意识到这个问题的时候,就会有更多的关注,会有更多的思路和办法。
绿色计算的未来趋势:弹性计算、AI 大模型
科技早知道:对于很多其他的公司,不管是海外还是国内的,绿色计算目前最大的困难点或者挑战是什么?
何征宇:就是管理层不认为这是个问题。从社会责任也好,从公司本身的经营也好,取决于是否对整个趋势有这样的判断,必须要解决算力是否高效的问题。
在这个大的方向被确定以后,剩下的包括技术性的问题,我觉得国内的公司,从蚂蚁的经验来讲,很多实践是依赖于我们对软件和硬件有一些掌控能力,这个掌控不是说我所有的东西都要自研,但必须有自己可以修改的能力。
蚂蚁发展十几年,积累了一些这样的东西,包括数据库,数据库弹性是很难做的,但得益于蚂蚁有OceanBase 这个比较出名的分布式数据库,从第一天开始就是自研的,一直在围绕着蚂蚁的场景做一些深入的技术的探索和研究,确实帮助绿色计算节省了很多资源。
从我们的现实数据来讲,计算和存储是一半一半,存储大部分是 OceanBase 这个数据库。国内公司很多软件都是外采,甚至自己不具备软件的研发能力,可能更多得依赖于像云计算等等 IT 厂商去做弹性或者能源的计划,可能要把算力这件事情完全外包给一家公司做。
但是传统的外采软件,在你自己机房里面去运行,在传统的 IT 架构上是比较难做的。蚂蚁的做法类似于谷歌,有点像甲方公司,我们自持的所有软件都是为蚂蚁自身的业务服务的,但我们也会开源或者做学术交流,交流一些技术。
这个行业里面也存在 IBM 这种公司,它的业务更多的是帮助其他行业里面的公司去做计算机系统或者相关的解决方案。但是这些解决方案更多只局限在大数据的场景下,很多公司买一台 IBM 的机器或者是解决方案,利用率是足够高的,但是从甲方的视角来看,我还有很多利用率可能不算高的东西,比如像在线的服务。但是甲方也没法把 IBM 的服务器拆了或者软件给拆了,然后去填在线服务的空。
从谷歌、蚂蚁的视角,我需要把大数据软件解构开,解构开才能填满在线任务,因为在线任务没办法,它必须要满足需求,而且得按峰值准备。所以必须要把这些大数据或者 AI 的应用拆开,才能满足全公司的低碳、环保或者绿色。所以这是不同的思路。
科技早知道:未来我们需要做一些什么样的努力才能改变这一点?是先要教育宣传到位,还是通过技术来解决?
顾荣:开设绿色计算相关的课程,其实蛮有必要的,咱们得先有人。因为大部分硕士或博士毕业的去工作,在学校就没有听过绿色计算,都不太懂这个。通过学校的培养,很好的把这个技术引入进去。
科技早知道:有没有一些新的技术趋势或者是创业的趋势让人觉得比较兴奋的?
何征宇:从趋势来讲,第一,算力在转化,整个互联网的构成正在发生一些大的变化。过去以服务驱动的互联网模式,大部分算力是被在线应用、数据库等等提供服务的计算系统占大头,慢慢转换到以AI、大数据甚至现在兴起的视频编解码等算力密集型的任务。
所以所有技术上的变化就会围绕这个大的趋势来进行。云原生的弹性调度的趋势就是要走服务方向,对于大部分的在线服务应用来说,它要能够把整个数据中心或者整个云计算当作一台计算机来事先部署它的资源。
第二,大数据、AI方向。现在整个学界和工业界也在讨论,比如AI大模型效用的问题。大模型是不是真的有用,它是不是就是在堆砌无用的算力,来获得一点点的效果。所以蚂蚁也有相应的绿色AI的工作方向。
AI本质上是从大量数据里面去提取知识,但是你训练一个模型,我也训练一个模型,最终在同样的数据里面重复提取知识,我们给它取了一个比较难听的名字,叫做重复智能。我觉得大的趋势是会慢慢收拢到大模型,也就是大家不要重复提取知识,有人提取一遍,你就可以少提取一次。你可以在这个大模型的基础上去重新训练,加一些你自己的数据。这也跟绿色计算大的精神吻合。
▲NVIDIA 运用绿色计算大大提高了 AI 的能效,图为 MLPerf AI 推理基准测试数据
最后,还有一个大的方向就是硬件的创新,因为硬件的处理器,我们现在用通用的处理器,从 CPU 到 GPU 还有谷歌 AI 专用的 TPU,我们也看到很多音视频专门的处理器,能够大幅的降低同一个任务下的能耗。我们觉得硬件的创新也会加速。
现在企业的发展,大家也都感受到了,100 年前可能公司看一个财务就行了,后面还要看员工福利,现在大家要看对于社会的影响。
所谓可持续发展,是说公司不能只为财报奋斗,我们要有社会责任部,要为员工着想,要为环境等等一系列的事情所负责任,所谓能力越大,责任越大。
欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频
微信扫码关注该文公众号作者