随着数字化建设的开展,近年来我国云计算、大数据等行业飞速发展,各地涌现出了越来越多计算中心。但各地的算力中心资源相互隔断,其应用潜力仍然受到限制。如果能够把各地的资源打通,再根据不同的客户要求按需调度,是否就能在一定程度上解决资源隔断和分配不均的问题呢?为此,我们找到了在计算行业中深耕多年的中科曙光,试图通过曙光的产品设计和行业布局,进一步了解行业现状。2021年7月,中科曙光推出了全国首个一体化算力服务平台,该平台用于多元算力资源的融合调度及弹性供给。什么叫做全国一体化算力服务?通俗地来说,就是中科曙光让全国各地算力中心的资源上云,以此形成统一资源池,再通过资源池为客户提供算力服务。这样一来,用户调用算力资源,就不用再受地域的限制,并且其能调度的资源数量也会增加。如今,中科曙光的全国一体化算力服务平台(以下简称“曙光4.0平台”)已经更新到了4.0版本,该版本于2022年10月26日上线,主要以“客户体验”为中心,对平台设计、核心功能、交互方式、后台技术等进行了重构。该版本也增加了很多亮点功能,如跨域传输、升级版的Portal功能、快捷入口等等。▲用户登陆平台后,可以先选择自己所需的服务类型,再按需调度不同地区的资源。
全国一体化算力服务平台4.0究竟能够解决什么样的问题?具体又是如何推动算力服务的发展?为了寻找这些问题的答案,智东西与中科曙光深度学习研发总监吕灼恒进行了深度对话。
如今,算力正在成为像水、电、煤一样必不可少的日常生产资料。IDC预测,到2025年,全球整体算力规模将达到3300 EFlops。今年2月,国家级工程“东数西算”全面启动。在这样的背景下,曙光推出全国一体化算力服务平台4.0,将全国的算力资源进行有机结合,实现资源与需求的调度匹配,致力于解决数据中心能耗高、数据资源利用效率不足等问题。让全国各地的算力连成一张网,你可以把这称为算力网络,也可以把这称为算力互联网。简而言之,算力互联网就是让全国各地的算力资源互联互通、有机结合。算力互联网这一思维也体现在了曙光平台的设计逻辑上。吕灼恒告诉智东西,曙光团队在平台背后的设计逻辑上花了很大功夫,他们希望客户来到这个平台后能够“开箱即用”。他为我们举了一个用户去商场购物的例子。用户去商场购物时,看到什么喜欢的物品,直接拿走付钱就可以,而不用考虑背后的供应链、组装、成本造价等问题。他们希望客户来到这个平台,也不用再特地去装软件、调环境,而是可以直接按需购买相应的服务。在设计平台时,曙光团队思考的是,平台要怎样高效统一地把资源整合在一起来为用户提供服务,让用户有“无感”的使用体验?“无感”的具体解释,就是让用户对服务背后庞大复杂的架构无感。就像一个电源开关,下按灯亮,上按灯灭,用户不需要知道开关背后的电力供给、能源、电路等,只需享受一键式的便捷服务即可。
一方面,国家大力支持计算中心的建设。另一方面,算力一体化已经成为ICT行业的共识,各云计算和大数据基础服务商纷纷投入建设算力服务平台。在激烈的竞争环境下,中科曙光吸引行业用户的差异化优势是什么呢?哪些用户在使用曙光平台,他们又为什么选择了曙光?根据访谈我们发现,曙光4.0平台有两个差异化优势。第一,与头部公有云服务商相比,曙光4.0平台聚焦在计算密集型应用这个垂直细分领域,更具备专业优势。第二,国家级的算力中心侧重前沿战略领域,曙光智算则更侧重为企业和组织提供商业化服务。第一,曙光4.0平台聚合了很多中心资源。第二,曙光4.0平台依托于中科曙光在计算领域的先发优势和技术底蕴,有一整套运营服务和技术体系作为支撑。第三,曙光4.0平台的研发迭代的节奏快,能够迅速响应用户的需求。▲平台4.0更新的亮点功能之一:跨域传输
目前,曙光平台已在多个行业得到广泛应用,其客户分布在科教、AI(人工智能)推理、工业、政企等行业。曙光平台为科教行业提供稳定的作业环境,为AI推理行业提供计算加速能力,为工业行业提供模拟仿真服务。在平台运营中,曙光发现,不同行业的客户需求都有不同的特点。科教类用户本身的计算机水平较高,能够比较直接地提出对平台的诉求和建议。AI推理用户希望平台变得像云计算一样,用容器和虚拟化来让整个推理过程更加快速便捷,这两者有一定的相似之处。但是工业用户不太一样,他们的计算机知识储备不太多,会更加聚焦在自己的业务结果上,不会太关注底层计算的维度。
曙光平台3.0版本上线后,曙光团队获得了很多用户的使用反馈。但是通常情况下,用户的反馈并不能准确指明问题出在哪一步,只是会给出使用体验不佳的最后结果。这其中到底是哪一个环节出现了问题,还需要曙光团队凭借行业经验识别出来。曙光平台4.0是曙光团队收集了2000+用户的使用反馈后更新的最新版本,4.0版本在上一代的基础上增加了很多新功能。在推出每项新功能前,曙光团队都会做很多用户维度的调研和分析。根据这些分析,曙光团队会在内部做很多推演,再综合技术和用户等各种维度,进行新功能的试运行。然后,曙光会向不同行业用户寻求使用反馈,再根据反馈进一步修正新功能。在这套流程中,每项新功能推出的前、中、后阶段,都是以“用户体验”为核心来推进的。如何准确理解客户反馈的需求,这也是一个需要行业经验识别的技术活。有时客户提出的问题只是一个小点,但曙光团队会把这个点放到更大的体系和维度中再去做甄别。以火车票为例,假设旅客今天去买火车票,却需要花3个小时排队,这中间出了什么问题?这不是售票窗口的问题,也不是售票员的问题,这有可能是整个售票体系中的某个环节出了问题。最简单粗暴的优化方式就是提供更多的火车票供应,但还有更多别的优化方式。就像这个例子一样,用户反馈的使用问题只是最后的表现出来的结果,但其中到底是哪个流程出了问题,还需要曙光团队去排查整个平台体系中的其它部分。
当下,随着数字经济发展,国家越来越重视“新基建”建设,大数据、云计算行业也正以惊人的速度发展。2022 年1月国务院《“十四五”数字经济发展规划》指出,到 2025 年,我国数字经济迈向全面扩展期,数字经济核心产业增加值占国内生产总值比重达到 10%。算力上云、全国算力资源一体化调度,这已成为行业共识。大家都在往同一个方向努力,在这个跑道上,谁跑得快,谁跑得好,谁与市场结合得更紧密,谁就更有优势。中科曙光自去年推出首个全国一体化算力服务平台后,不断收集用户反馈,持续改善产品,如今,其4.0版本让平台的功能更加完善。在战略打法上,中科曙光聚焦垂直的商业应用场景,跟大型公有云服务商错位竞争,这或许是一个不错的策略。但对于整个数字经济产业的发展而言,各厂商努力让算力上云、建设算力服务平台,这只是一个开头。下一步,数字经济行业将会有更大突破。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)