智东西6月30日报道,“当前AI服务器需求暴涨,但80%-90%的数据中心依然采用风冷散热,尽管数据中心节能政策频出,液冷投入成本下降,但液冷升级中仍存在着多重困难,不同行业问题也各不相同。”国内知名服务器企业宁畅的CEO秦晓宁说。今年以来,随着人工智能领域“百模大战”的打响,服务器芯片的功耗随算力的提升而提高,传统风冷散热受到挑战,本来应该保持凉爽的数据中心越来越难以“冷静”。另一方面,国家的双碳战略和东数西算也在不断引导数据中心的绿色建设。在这样的背景下,在2022年“液冷元年”后,2023年液冷行业快速发展。当下,很多服务器厂商开始尽全力“押注”液冷服务器,因此许多液冷产品和方案被推向市场。但问题是,不同数据中心对液冷的需求不同,因此,厂商和数据中心在推进“风冷”转“液冷”的过程中还面临着各种问题和难点。基于此,国内领先的服务器企业宁畅信息产业(北京)公司(简称:宁畅)在北京吹响数据中心液冷升级“集结号”,推出“无忧焕液”计划,面向三大目标用户群提供差异化迭代服务,旨在让液冷从“奢侈”走向“普惠”。
随着人工智能领域大模型“百模大战”的打响,大模型玩家对AI服务器的需求急剧增加,与此同时,AI服务器中的CPU/GPU芯片的功耗也随着算力能力的提高而提升。从招商证券发布的报告来看,AI拉动算力密度将从8kW/柜提升到50kW/柜,然而自然风冷数据中心单机密度一般只支持8-10kW。显然,这已经突破传统风冷散热能力的范畴。与此同时,近两年来,数据中心节能政策频出,今年4月,北京市规定指出数据中心的PUE(能源使用率)值大于1.8时,数据中心每度电费增加0.5元。中国建筑标准设计研究院有限公司数据中心工程部主任吴晓晖称,超过规定PUE值的数据中心需要支付巨大的电费成本支出。▲北京数据中心节能审查规定
此前,数据中心由“风冷”转“液冷”还有一大顾虑就是“液冷投入成本”,近年来,液冷投入成本正在不断下降。以功率度为10kW/机架为例,风冷和液冷的数据中心投资成本大致相当,但是液冷数据中心提升4倍功率密度后,可节省14%的投资成本。▲液冷投入成本不再是数据中心“风冷”转“液冷“的阻碍
从市场的角度来看,宁畅CEO秦晓宁透露,目前公司已面向互联网、通信、金融、教育等行业部署18万台的液冷服务器。虽然,大模型使厂商对液冷的接受度有所增加,但目前80%-90%的数据中心依然采用风冷散热,液冷升级中仍存在着多重困难,不同行业问题也各不相同。▲宁畅CEO秦晓宁讲解目前“老旧难”数据中心面临的三道难关
在秦晓宁的分析中,可以看到过去87%的“老旧难”数据中心的液冷升级存在三道难关。1.“技术难”,液冷属于技术密集型产业,液冷冷头的热性能提升、多冷头均流性、复杂部件液冷适配等技术的积累非常重要,这就意味这不掌握相关技术的厂商很难布局;2.“成本高”,液冷数据中心初期建设成本要比风冷高出10%左右,成本问题也限制了一些厂商采取下一步的行动;3.“建设久”,一些原本的风冷数据中心想要改造成液冷数据中心可能会涉及到楼体改造、空间重布等环节,因此导致落地困难。这也导致了即使一些数据中心有“风冷”转“液冷”的需求,但是由于上面三道难关也只能继续使用“风冷”散热方案。宁畅在长期的摸索下,想出了解决这些“老旧难”数据中心“液冷升级”的方案。
宁畅表示,机房建筑的特点、所在层级的不同、户外是否有自然冷源都深深地影响着数据中心的“风冷”改“液冷”方案。基于此, 宁畅推出了“无忧焕液计划”,即面向三大目标客户设计出三档套餐。宁畅可支持模块化预制,工厂预制后到机房现场组装,打造了液冷升级的“预制菜”模式。
首先,针对无法规模部署且有价格顾虑的用户,宁畅团队可在24小时内为客户实现风冷服务器节点内的液冷改造以及液冷机柜升级。据称,该方案可免机房部署,对比同型号配置全新机器,成本降低90%,性能提升10%。其次,面向对液冷有强烈需求的用户,如互联网、金融、科研、运营商等,宁畅提供升级版,即全栈液冷模块化解决方案。在该方案下,宁畅会基于客户需求,提供服务器升级,数据中心机房基础设施环境侧改造等服务。▲宁畅CTO赵雷讲解全栈液冷模块化解决方案
简单来讲,“模块化”解决方案也就是将传统风冷数据中心,即“冷却塔-冷却水泵-冷却水机组-冷却水泵-空调”中的冷却水机组、空调等替换成一次侧管路、CDU、二次侧管路。赵雷称,宁畅会将很多模块在工厂中做好,然后再针对不同的机房、数据中心外部基础设施在机房组合,这样就大大节省了时间。第三,对热流密度高、节能需求高的用户,宁畅将提供浸没液冷全系统方案,宁畅将基于浸没液冷服务器及其相关配套设施进行升级,实现20%性能提升,30%节能效果优化。今年1月份,宁畅发布了浸没式液冷服务器B7000,这款服务器可以使数据中心整体PUE值小于1.05,而目前市面上大部分浸没式液冷服务器仅能保证PUE值在1.09左右。更重要的是,B7000还有着低挥发的特点,其年耗散率小于3%,而目前行业平均水平为年耗散率5%。在冷液成本较高的前提下,降低其年耗散率也就意味着减少了补液的成本。液冷改造后还具有两大优势,一是智能水利调节,宁畅将智能水利调节模块集成到在液冷机柜与CDU之间,这个模块可以根据冷热变化,自行判断负载。赵雷称,这项可在冷板式液冷服务器的基础上将PUE值再降低0.02到0.05。另一大优势就是动态补液,宁畅在浸没式服务器的缸体里布置了大量的液位、液体传感器,它们可以监测液体的流向、流速以及流体的均衡性,这样既避免了部分元器件泡不到而被烧坏,同时也避免液体溢出导致浪费。秦晓宁以规模为240台服务器的单机房为例,分别计算出风冷方案和液冷方案5年期的电费情况。从数据上看,使用液冷方案的全周期成本费较风冷方案节省101.25万元。而大型数据中心远不止240台服务器,以2万台的服务器的数据中心为例,5年可节省1亿元人民币能耗成本。▲240台单机房规模下,传统方案和液冷方案的建设成本、运行成本情况,数据来源:IDC、中银证券
事实上,目前很多厂商都可以做液冷技术。“但其中有一样东西是比不来的,那就是经验。”秦晓宁称,就和人的岁数一样,摔得跟头越多,就知道下一步该怎么走。宁畅拥有多年积累总结出的“液冷设计库”,在秦晓宁看来,这里面包含了曾经出现的问题以及积累的素材,这是其他厂商编不出、想不出的,“只有把积累的经验攒起来,才能灵活地实现液冷产品的设计、验证和量产工作。”
可以看到,在“百模大战”的背景下,传统风冷方案已经跟不上AI服务器散热需求。同时无论是从政策角度、还是市场需求、抑或是技术发展等层面,液冷正成为大模型时代数据中心散热的重要方式。在作为服务器领域主要玩家的宁畅推出完整的“液冷升级”方案,有助于帮助这些企业的数据中心降低液冷升级门槛,实现绿色与算效同步升级,同时,也让宁畅的业务范畴进一步拓展,从单纯的服务器厂商变成提供服务器及相关配套基础设施的服务商。