智能计算“浙江路径”初露雏形
水稻有4万多个基因,如何破解其基因密码,让传统育种方式转型升级?浩瀚宇宙中的快速射电暴,持续时间仅有几毫秒,如何借助数据挖掘揭开其起源的奥秘?……在浙江杭州的之江实验室内,这些国家重大科研项目瞄准的“世纪难题”,正在被智能计算“数字反应堆”逐个破解。
之江实验室是浙江竞逐智能计算赛道、打造区域竞争优势的一个缩影。4月12日,记者随“算力中国行”大型调研采访团走进长三角中心城市杭州,看到一条独具特色的智算“浙江路径”已经初露雏形。
浙江省经济和信息化厅相关负责人告诉记者:“智算产业已成为浙江省着力打造的标志性产业,也是省里正在重点推进的‘415X’产业集群之一。”在这个良渚文化的发源地,从网络、芯片、操作系统到整机、应用的智算产业链上下游玩家正在汇集,形成协同发展的创新产业生态。
之江实验室的“数字反应堆”
2022年3月,我国科研团队基于“中国天眼”的观测证据,在快速射电暴起源研究中取得重要成果。研究团队夜以继日地巡视着浩瀚宇宙,每天产生的数据高达300TB,足以装满300台个人电脑。
之江实验室多模光纤显微内窥镜展台
以前,研究人员面对海量数据就像“大海捞针”。如今,基于异构资源计算运行的之江实验室“数字反应堆”展开智能计算,让深度挖掘快速射电暴数据成为可能。不止在天文领域,新材料、生物医药等越来越多的领域,都离不开智能算力的支撑。
“调研发现,我国算力的利用率还不足30%,尚未被充分利用开发。其中一个重要原因,是算力资源尚不能针对性解决行业研究领域的问题,且算力资源分散分布,集中调用起来十分困难。”之江实验室主任、智能计算数字反应堆总设计师,浙江大学党委副书记朱世强告诉《中国电子报》记者。
基于这一考虑,之江实验室联合10余家顶级创新机构,于2021年10月正式启动了智能计算“数字反应堆”这一重大科学装置,以算力为“燃料”,在“数字反应堆”引擎推动下,让异构算力资源聚合和调度成为可能,为不同垂直行业带来“裂变”。
为提供充足的算力,之江实验室落成了目前国内同类科研机构中规模最大、等级最高的算力中心之一。“数字反应堆”聚合起智能超算、智算集群,类脑计算机、图计算机等算力资源,协同整合算力可达10EFlops(每秒1000京次浮点运算次数)。
“数字反应堆”已经开枝散叶,满足了育种、制药、材料、基因等多个垂直行业创新研发的核心需求。以材料科技领域为例,传统研发模式是把不同元素原料混起来,一点点调整,反复试错。在数字反应堆打造的新平台上,从筛选到建模再到设计验证都有人工智能为其助力。
智能计算何以担此大任?之江实验室智能计算数字反应堆总架构师潘爱民告诉《中国电子报》记者,智能计算不是超级计算、云计算的替代品,也不是现有计算的简单集成品,而是根据任务所需,以最佳方式和最恰当的计算方法,解决实际问题的一种计算形态。
潘爱民透露,之江实验室建设“数字反应堆”还有更深层的原因。一方面在于降低项目中复杂任务的计算门槛。以不同技术实现的计算资源,往往具有不同的系统架构或指令集,用户有时还必须专门编写程序。有了该系统的统筹协调,用户不必再为重复开发、软硬件不兼容等挠头。数字反应堆还可为科研人员提供“零代码一键部署”服务,帮助他们以最少的手动编码开发出功能强大的应用。
另一方面是服务于我国算力产业的发展特点。不同于ChatGPT背后有强大产业链的支撑,我国在大模型、数据和智算芯片等环节还没那么完善。在这样的现实情况下,提供这样一套兼容不同型号产品、不同体系架构的算力基础设施就显得愈发重要。
浙江智算产业呈“链式”发展态势
每个地区都有自己的竞争优势。在浙江,智能计算就是区域竞争的关键变量之一。
根据国家信息中心发布的《智能计算中心创新发展指南》,“十四五”期间,在智算中心实现80%应用水平的情况下,城市对智算中心的投资,可带动人工智能核心产业增长约2.9-3.4倍、带动相关产业增长约36-42倍。
杭钢云计算数据中心智慧化应用
华为公司前期调研发现,浙江省AI算力需求旺盛,有超过80%的企业、科研单位迫切需要外部专业力量在智能应用算力部署、性能调优、算法调优和数据标注予以支持,本地智能化算力服务供给还不充足。
浙江省经济和信息化厅相关负责人告诉记者,近年来,浙江省着力提升高性能算力占比,提升算力算效水平。推进数据中心算力供应多元化,支撑各类智能应用。截至今年2月底,浙江省已建数据中心150多个,在杭州、嘉兴、湖州、金华、温州等地皆有布局。到“十四五”末期,浙江省算力规模将达到23.66EFlops(每秒2366京次浮点运算次数)。
从网络、芯片、操作系统到整机再到应用,浙江省正在聚合整条产业链上下游的玩家,成为我国智算产业“版图”上举足轻重的一部分。
经过几年的积累,中国(杭州)算力小镇、杭州智能计算示范中心、中国(浙江)智能计算产业创新园等一批重要算力设施园区平台载体相继揭牌、投运;宁波人工智能超算中心、阿里仁和液冷数据中心智算资源(部分投产,总规划250P)等一批先进算力设施建设如火如荼……浙江已经形成电信运营商、互联网企业、金融公司、大型生产企业及政府事业单位、研究院所、国有企业“携手并进”的发展态势,同时带动全省智能算力基础设施产业生态不断“外溢”。
近日,浙江移动的算力网络与杭州人工智能计算中心实现AI算力并网,完成了杭州智团信息技术有限公司的宫颈细胞学病理AI模型训练任务的调度。并网成功后,推理时间从之前的2分钟降低到1.2秒,模型训练时间从168小时降低到120小时。杭州联汇科技、杭州它人机器人等企业也正在使用杭州人工智能计算中心的AI服务,进行流程的对接及模型的调试优化。
浙江省经信厅相关负责人告诉记者,未来浙江省将推动一批低算力的数据中心向智算中心转型升级,推动CPU、GPU 等异构算力部署,提高数据中心算力算效水平和供应能力,为各类应用提供高质量的AI算力服务,丰富算力应用场景,形成多层次算力设施体系。
据了解,目前我国的智算中心采用了高标准建设,100P算力是起步目标,该算力大约相当于5万台高性能电脑。这也意味着,智算中心建设对软硬件的要求更高。
华为公司依托杭州人工智能计算中心,将鲲鹏/昇腾生态等根技术交付给本地产业伙伴,打造差异化产品面对细分市场,让自研产品向全国延展;面对未来大量的异构算力需求,新华三为行业打造了智算中心解决方案,利用“一芯多云”构建智算中心基础环境,覆盖了自动驾驶、智能驾仓、小分子研发、蛋白预测、智能客服等细分行业场景。
“下一步的重点工作之一,是要推动算网产业生态繁荣。强化‘链式思维’,形成龙头企业带动、大中小企业协作、打造安全稳定、自主可控、开放共赢的算网产业繁荣新生态。”浙江省经信厅相关负责人说。
东西部地区应加强场景挖掘和合作研究
走进阿里云仁和数据中心的液冷机房,耳边没有空调运行的“嗡嗡”声,一座座卧式机柜整齐排列,一排排服务器静静躺在绝缘冷却液里。这里是全国规模最大的单相浸没液冷集群,全程用于散热的能耗几乎为零,实现了数据中心100%无机械制冷,数据中心PUE(电能利用效率)可低至1.09。
“数据中心应用液冷技术是大势所趋。”阿里云基础设施IDC研发事业部总经理王朝阳告诉记者,我国数据中心年用电量约占全社会用电的2%,随着算力爆发式增长,所需的服务器数量也会相应增加,这就要求业界采用更高效节能的散热技术。
“相较于容易受到温湿度、灰尘影响的传统风冷散热,浸没式液冷散热不仅故障率低、不受气候和地域闲置,尤其适合部署在极寒或温湿度较高的南方。”据王朝阳介绍,浸没式液冷数据中心还有另一大优势,即单机柜可部署功率密度15—100kW,这意味着相同电力容量,液冷数据中心可以多部署约50%的服务器,这也能更好地适应AI训练等大算力业务场景。
为迎接智能计算时代的到来、提升算效,除了数据中心要实现技术创新,综合提升规模、算力、智能化外,还要在算力跨域调度、枢纽集群互联模式、算力与需求高效匹配等方面进行优化。
“目前来看,现有算力枢纽集群间多采用点对点的直连网络模式,网络相对封闭,资源利用率低、建设投资大、普惠程度低,不利于算力产业规模化发展。”郁文飞建议,基于国家新型互联网交换中心的扁平化架构,依托区域内汇聚、枢纽内协同和枢纽间贯通,开放化共享算力调度专网,探索跨行业、跨部门、跨系统联动的算力调度场景应用。强化算力资源高效供给。
智能算力时代,算力与需求和应用要高效匹配。在浙江电信云网发展部副总经理曹懿军看来,当前算力产业跨域调度的需求场景不够明确,盈利模式尚未明确,不少企业仅仅停留在基础设施建设阶段。应当针对综合性、复杂性的工程项目,要鼓励联营等创新组织模式;鼓励采用“算力券”等创新业务模式,探索以此为核心的算力中心运营成本统筹结算分担机制。他认为,东西部政府应加强场景挖掘和合作研究,共同鼓励“东数西算”“东数西存”“东数西渲”等重点场景规模化孵化。
“存储设施是数据永久性的‘家’,存储设备及成套系统是支撑新型数据基础设施存储能力建设的直接影响因素。“我国在数据基础设施布局方面,存在‘重计算、轻存储’的问题,根据不完全统计,目前我国存算比例为1:3.3,但欧美发达国家这一比例为1:1.5。”杭州宏杉科技股份有限公司总工程师单东来表示,建议出台相关扶持政策加快存储上下游产业链的全面发展,除了核心的存储器、存储芯片等,还应更多关注存储系统集成等产业中下游缓解,进而有效提升新型数据基础设施的存储能力。
微信扫码关注该文公众号作者