中国东西部共同谋划“第四次工业革命”科技2023-07-11 14:07酷玩实验室作品首发于微信号 酷玩实验室微信ID:coollabs最近几天,推特“限流”的新闻引发了巨大的关注和争议。据悉,限流之后,推特已认证账户、未认证账户、新注册账户每天分别最多可以浏览10000条、1000条、500条推文。如果把推特类比为微博,这意味着尊贵的会员一天也只能看10000条微博,其中还包括评论在内。站在用户和广告主的角度,这无异于把流量拒之门外。对此,马斯克给出的理由是:阻止AI公司“偷”取推特用户数据,用于AI训练。图源:马斯克推特尽管随后马斯克又声称,限流是为了防沉迷,但不可否认的是,数据,以及由此衍生的算法和算力,正在成为数字经济时代最重要的财富。上周五(7月5日),我去参加了由雁栖湖研究院主办、雁栖湖文化传播有限公司承办的第五届雁栖湖论坛,论坛请来了中国工程院院士、超算领域专家郑纬民教授。我在现场听了郑教授关于《构建自主可控的数据底座》的演讲,其中也提到:数据,已成为继土地、劳动力、资本、技术之后的第五大生产要素。对我们普通人来说,数据也许只是网购、外卖、打车、扫码付款等各种日常生活产生的“电子碎片”,它凭什么成为新时代的“战略资源”?这就不得不提2022年2月提出的,与“南水北调”“西气东输”类似的一项国家级工程——东数西算。顾名思义,“东数西算”就是将东部产生的数据,传输到西部地区进行分析和计算。按照规划,“东数西算”工程将在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。图源:《中国战略新兴产业杂志社》为什么要大费周章,将数据从东边传到西边,算完了再传回东边?首先要知道,我们点一单外卖、网购一款产品,每一个基于互联网的行为,都不是简单的点对点行为,而是会产生大量的数据,这些数据都需要一个数据中心来集中处理。比如BAT,百度云计算的数据中心在山西阳泉,阿里在贵州贵安有一个数据中心,腾讯在全国有8个数据中心;再比如微软的数据中心在海底,谷歌则自全球有36个数据中心。数据中心服务器机房场景一个数据中心通常由主机房(包括网络交换机、服务器群、存储器、数据输入、输出配线、通信区和网络监控终端等)、基本工作间(包括办公室、缓冲间、走廊、更衣室等)、辅助房间(包括维修室、仪器室、资料室以及灭火设备、空调设备等)组成,好比一个超大网吧。数据中心规划场景建设这个“网吧”,首先需要土地。以中国移动在福州新区滨海新城规划的超大数据中心为例,根据工业和信息化部披露的数据,这个数据中心规划机架数3万架,可容纳24万台服务器,总占地面积为185亩,大约相当于17个标准足球场的大小。在寸土寸金的东部地区建设这么一个“庞然大物”,仅地皮、修建等这样的基础投资大约就需要30亿元。其次,数据中心耗电巨大。统计显示,一个数据中心,以6000个机柜算,一年要消耗约6亿度电。2020年,全国数据中心共耗电2045亿千瓦时,占全社会用电量的2.7%,总能耗突破了2千亿千瓦时。资料来源:中国数据中心节能技术委员会而在供需关系上,东部地区因为集中了大量的工业生产,城市用电量本来就高于西部地区,这也是国家发展“西电东送”工程的初衷。如果数据中心都集中在东部,就相当于要“抢占”本就紧张的东部用电,却“浪费”了现成的西部电力。第三,数据中心喜欢低温环境。电脑用多了需要散热,数据中心同样如此。为了保证良好的性能,避免机房因过热“宕机”,数据中心的温度需要维持在20ºC - 22ºC的理想区间。事实上,一个数据中心的能耗中,散热系统的占比高达40%,相当于每发一度电,有四成都用来散热了。资料来源:前瞻研究院这一点落到地理位置上就很好理解,平均气温更低的西部地区,更适合建设数据中心。综上,“东数西算”对东部地区来说,避免了城市用电紧张,也使土地资源更具“性价比”;而对西部地区来说,建设数据中心可以形成产业集群,带动一方经济;对企业来说,“向西”布局降低了算力成本,对国家而言,则降低了能耗,调节了区域之间能源和经济的不平衡。可以说,“东数西算”是一个“全赢”的牌面。那么就有了第二个问题,既然“东数西算”全是优点,为什么直到去年才开始搞?最大的原因,是“时效性”。华为董事长梁华分享过这样一组数据:全球70亿人,平均每人每天产生的数据高达1.5GB。仅一辆自动驾驶汽车,一天能产生64TB数据。而像自动驾驶、视频会议这种对网络时延要求较高的“热数据”,以现有的传输能力,还实现不了低时延。郑纬民教授打了一个形象的比喻,“北京有一个4T容量的数据要传到无锡,在网络不出错情况下需要5天时间,而把它刻成光盘,快递运送大概也就两天。”因此,目前像天气预报、自动驾驶这样的“热数据”,还得留在东部“就近解决”,只有对时延要求不高的“冷数据”,如后台加工、离线分析、存储备份等数据,才适合转移到西部。现阶段的“东数西算”,其实叫“东数西存”更贴切。但正如“西电东送”一开始,中国也不知道自己的特高压技术未来会冠绝全球一样,“东数西算”同样是一个系统性工程,它关注的不止当下,而是未来10年、20年,甚至更久远的将来。人人都知道,未来是一个数字化的时代,世界经济论坛创始人克劳斯·施瓦布更是将“技术和数字化”带来的变革,称为“第四次工业革命”。发展算力,不是“有没有准备好”的问题,而是“慢之分秒,差之千里”的问题。中国信通院发布的《中国算力指数发展白皮书(2022)》显示,截至2022年底,中国的算力规模达到了180EFLOPS,仅次于美国,位居世界第二,与GDP排名相当。但具体到不同类型,中美基础算力在全球市场的份额分别为26%、37%,智能算力分别为28%、45%,超级算力分别为18%、48%。换句话说,错过了机械化、电气化两次工业革命的中国,在第四次工业革命的门口,还应该投入更多政策、资金、技术,提升算力算法水平。针对目前“东数西算”中存在的远距离传输问题,郑纬民教授也分享了他的看法。首先就是要持续打造大宽带、高可靠、低时延的网络。比方说贵州,网络运力已具备面向全国算力使用需求的3ms/10ms/20ms三级时延圈保障能力,从贵安枢纽到成渝地区的时延在6ms以内,到粤港澳地区的时延在10ms左右。更重要的是算力的“互联互通”。当前,很多数据中心的机器都是异构的,大家的存储芯片不一样、操作系统不一样、编程框架不一样,基于硬件的软件系统也不一样。“比如我们的天气预报软件,基于太湖之光编的,你编完之后想把这个软核在天河一号装,装不了,要重新编,基本都是10个月的事”(注:神威·太湖之光和天河一号都是我国自主研制的超级计算机)。这就需要在算力资源感知、算力资源汇聚、算网一体化调度等方面有一个系统化的“标准”,通过统筹协同,让基于不同机器的数据和算力,实现“跨服聊天”。此外,郑维民教授也提到了“芯片卡脖子”的问题。随着AIGC的研发和应用,人工智能芯片价格水涨船高,英伟达的A100芯片单价从1万美元的官方价,一路飙到了15万美元/块的市场价,仍然一“芯”难求。中国目前也有20多家类似生产人工智能芯片的公司,但抛开性能不谈,这些芯片最大的问题是,生态不行——现成的软件,在这个芯片可能无法运行;或者新编的软件,在这个芯片上要进行长时间的训练才能使用。在数字化时代,做好大模型生态,实现算力的互联互通,这是“东数西算”必须要解决的问题,也是我们正在努力的方向。2015年,《中国制造2025》提出了“数字化转型”的概念,把“数字产业化”和“产业数字化”提到了政策层面。或许对我们普通人来说,这是两个拗口的名词,但实际上,“数字产业化”就是像ChatGPT一样,以数据、算力、算法为基础,形成数字产业链;而“产业数字化”,则是将传统制造业、重工业等进行数字化改革,让人工智能代替人类,去做更多基础性的工作。无论是“数字产业化”,还是“产业数字化”,最终都将普惠到每一个普通人身上。酷玩实验室整理编辑首发于微信公众号:酷玩实验室(ID:coollabs)如需转载,请后台留言分享给朋友或朋友圈请随意酷玩实验室视频号热点视频推荐↓↓↓用数字撬动未来!微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章