算力产业迎来“高效供给”
在宁夏贺兰山东麓的葡萄园里,智能化管理系统对空气温度、风速、土壤湿度等实时监控,为葡萄酒酿制提供科学依据;在山东能源李楼煤矿井下,摄像头和传感器背后的AI大模型替代工人充当“监工”,对钻孔施工作业规范程度进行自动判别……在越来越多的行业中,智能计算已经成为破解发展问题的新思路。
记者从8月19日在宁夏银川召开的2023中国算力大会上获悉,近五年我国算力总规模年均增速近30%,目前已达到197EFLOPS,其中智能算力规模占比达25%,同比增加60%。智能算力将成为未来算力增长的主要动力。工业和信息化部党组书记、部长金壮龙在会上指出,加大高性能智算供给,增强算力网络可靠性,提升高效集约利用水平。
贺兰山东麓西鸽酒庄葡萄园应用智能化管理系统
大模型催生算力供给“新模式”
数据显示,2023年上半年,与大模型直接相关的融资事件超20起,国内已发布的各类大模型数量超过100个。记者从大会上获悉,截至今年6月底,我国算力规模达到197EFLOPS,其中通用算力规模占比达74%,智能算力规模占比达25%,智能算力规模同比增加60%。
与会专家共识认为,大模型的发展正在驱动我国算力结构发生根本性变化。“近几年,自动驾驶、生命医学、智能制造等行业发展迅速,随之而来的超大规模人工智能模型和海量数据对算力的要求不断提高,适合大模型训练的智能算力成为算力增长的主要动力。”华为公司董事长梁华表示。
产业链多方正进一步加大高性能智算供给,激发AI算力赋能效应。
中国商飞基于华为昇腾AI底座,面向大型科技设计打造了东方御风大模型,对飞机机翼流场进行模拟仿真,满足工业级精度要求,仿真耗时仅为传统软件的1/24,助力于在7种领域加速飞机制造的创新。“华为构建了对开发者友好的AI软件开发平台和生态,让各种各样的大模型在昇腾的算力底座上加速创新,加速释放高性能算力。”梁华说道。
与此同时,新的智能算力供给模式也在悉数涌现。
在大会期间,中国移动携手多个智算中心、超算中心及云服务商,共同打造算力类型最全、规模最大、覆盖最广的“百川”算力并网平台。“通过算力并网,能够形成一种新的算力供给模式,吸纳包括大型算力中心、智算、超算的算力,甚至社会上一些闲散算力都能够并入移动算力网,像电力网一样,风电、水电都并到网里,让用户即取即得。”中国移动通信集团首席科学家、副总工程师王晓云对《中国电子报》记者表示。
2023中国算力大会中国移动展台智算展区
“假如有一个渲染公司,拥有自己的智算,白天很忙,到晚上算力闲下来了,这个时候把算力并到移动的算力网上去,给该公司提供链接到用户的服务,使它的算力能让全国任何一个地方的用户都触手可得。”王晓云举例说。
为帮助企业在初期投入最小的情况下,满足自己大模型的使用,中国电信提供了“移动算力服务”。据中国电信首席大模型专家刘敬谦介绍,如果客户想做微调,想做二次训练,自己建立一个智算中心是非常不合算的,大模型训练有波动的特点,运营商买那么多卡天天闲置也是极大的资源浪费。而“移动算力车”能够把算力、算法、电源都绑定在一起,把车开到数据中心里面,帮助企业做微调服务。
“算、存、运”需高效协同
数据显示,算力、存力、运力如果做好高效协同,一个AI算力中心的效率可能会提升50%。目前,许多发达国家已经把算、存、运三者涉及的科学技术作为创新前沿,并投入重金发展。
“中国算力总规模全球第二,但存在利用率不高等问题,甚至通用算力利用率只有百分之十几。”大会期间,中国工程院院士、紫金山实验室主任刘韵洁在接受《中国电子报》记者采访时表示,“而像智算算力这样的算力资源,又是稀缺的。”
为什么会出现这样的矛盾?在刘韵洁看来,是运力不足。以超算为例,目前运输存储超算数据的硬盘还是通过卡车、火车、飞机,算完了再把结果取回来,这些算力还都是孤岛。”刘韵洁说,对于超算来说,如果通过现在的互联网来运输数据,虽然成本低,但是效率也很低,还不安全;如果通过专线,价格很贵,成本很高。这就需要有一个新的技术解决方案——公用专网的技术,它不同于公网和专网,而是一种类似于能提供专网的公网,像专网一样安全、保证质量,又像公网一样经济、方便灵活。
有数据显示,从存力和算力的比重来看,美国是1.1,我国是0.4。“与美国相比,我国更注重算力,而存力不够将影响计算中心的效率。”中国工程院院士倪光南说。
全球已逐渐从以“机械技术”为主升级到以“半导体技术”为主。倪光南表示,当前中国仍在大量使用机械存储,落后于国际先进水平。目前,全球3家主流机械硬盘企业都来自国外,未来用先进存储替代机械存储,中国必须加快步伐。从性价比来讲,已经到了转折点,我们能够大规模实现存储技术变革。
面对层出不穷的应用场景,产业界也推出了多种多样的算力基础设施,有传统通用处理器,也有专用处理器、专用加速器等。而多种芯片和不同算力会形成很多延存,算力基础设施也出现了“有的地方热、有的地方冷”的情况。异构算力、不同芯片间如何协同,进而实现算力的高效供给?
在浪潮信息的张东看来,应该面向各种应用,以系统为中心,设计适合各种应用、软硬件一体化的系统,即用一套系统、一朵云去管理这些芯片。但核心就在于一定要实现分层解耦,即每一层只负责这一层的工作,层和层之间还要开放标准。
寻求算力和能效的“有效平衡”
走进2023中国算力大会的展厅,中科曙光一项“黑科技”吸引了不少人驻足。只见一块块服务器主板浸泡在横向透明的液体箱子里,随着服务器开启工作,周围的液体不断地“咕嘟”冒泡,颇有“水煮主板”的感觉。
在算力规模快速增长的趋势下,算力能耗总量也在急剧攀升。在降低数据中心PUE方面,液冷是成为目前业界公认的最佳路径,中科曙光展台的工作人员告诉记者,相比传统风冷散热,该款浸没式液冷解决方案可使数据中心能耗降低30%,让算力更加绿色化。
大会期间,记者在中兴通讯展台看到了液冷技术的另一种技术路线——冷板式液冷。酷似传统风冷机柜的背后,其实暗藏玄机:依靠流经冷板的液体,将固定在冷板上的元器件热量带走。据展台工作人员介绍,冷板式液冷对数据中心服务器的改造成本较低,可以在成本和效能之间找到一个比较好的平衡点。
中兴通讯冷板式液冷机柜
解决能效问题,软件也是关键环节。
“目前,数据中心电能仅有6%~12%真正用于计算本身。”蚂蚁集团副总裁、平台技术事业群总裁何征宇指出,这些算力供给出来本质上都是要被软件所消费的,没有人可以直接用算力,它一定是通过软件变成一个服务。那这个服务背后消耗的算力,就要看软件的质量如何,或者是软件与硬件的协同程度怎么样。
在软硬件协同方面,已有不少企业展开探索,并从中获益。超聚变数字技术有限公司从服务器部件能效动态寻优、整机级能效动态寻优以及数据中心能效动态寻优技术三个维度,可以实现部件根据负载状态动态调整自身参数,达到自身能效最优;整机级无须重启即可实现能效管理参数动态调整并生效;服务器系统网管,实现数据中心制冷与业务联动,达到数据中心能效最优。
据何征宇介绍,得益于软件侧和硬件侧共同发力,去年蚂蚁集团的资源效率已经提升至33%,而这一数据在三四年前还不足10%。随着智能算力的高效供给,蚂蚁集团智能算力的利用效率已经从17%提升到22%。
微信扫码关注该文公众号作者