Redian新闻
>
中国液冷数据中心第一诞生!大模型时代需“冷平衡”一下

中国液冷数据中心第一诞生!大模型时代需“冷平衡”一下

公众号新闻

“液冷”靠AI大模型带起飞,实现性能、能耗、成本三元平衡是发展关键。
作者 |  周炎
编辑 |  云鹏
根据OpenAI发布的一项分析显示,自2012年以来,在最大的AI训练中使用的计算量呈指数级增长,平均每100天就翻倍。在人工智能领域“百模大战”的背景下,大模型训练对算力的需求更是急剧增加。
一些厂商推出AI服务器以满足算力需求,但是就在服务器芯片算力提升的同时,其功耗也在不断提高,这就导致了传统风冷散热受到挑战。液冷由于具有“保障芯片工作温度”、“省空间”、“省电费”等优势,也逐渐受到关注。
与此同时,国家的“双碳战略”和东数西算不断引导数据中心绿色建设。在赛迪顾问分析师袁钰看来,2023年是中国液冷数据中心的“驻点”,液冷数据中心各类验证已基本通过,正进入规模扩张阶段。
面对这样可观的增量市场,当下许多服务器厂商都推出了“液冷方案”,但是平衡性能、能耗、成本的三元关系依然是数据中心的建设、运营过程中的难题。基于此,曙光数创针对性地提出“冷平衡”战略,并打造SLiuqid技术品牌和CloudBASE数据中心整体解决方案品牌为该战略提供支撑。
赛迪顾问《2023中国液冷应用市场研究报告》显示,2021年至2023年上半年,曙光数创以平均58.8%的市场份额,位列中国液冷数据中心基础设施市场规模第一。智东西通过与该高管们对话,对其近年来推出的产品、核心技术进行了深入挖掘,我们发现:在未来的液冷市场竞争中,玩家们比拼得不仅仅是产品,而是谁能为数据中心的建设、运营提供系统的解决方案,从而达到“系统大于各部分之和”的生态。

01.
“百模大战”加速液冷时代到来,
“冷平衡”成为数据中心最优解


在ChatGPT推出后的这半年多的时间里,人工智能领域的“百模大战”持续升温。大模型玩家对AI服务器的需求急剧增加,与通用服务器相比,AI服务器虽然满足了算力需求,但是其中CPU/GPU芯片的功耗也随着算力能力的提高而攀升。

▲曙光数创总裁何继盛讲解“百模大战”对算力需求激增

ODCC发布的《冷板式液冷服务可靠性白皮书》显示,A集群算力密度有望达到20-50kW/柜,而目前自然风冷的数据中心单机柜密度一般只支持8-10kW。在曙光数创副总裁张鹏看来,传统风冷方案在解决高密度数据中心的散热问题变得越来越困难。

▲曙光数创“冷平衡”战略暨SLiquid品牌发布仪式

2021年,发改委发布“新建大型、超大型数据中心PUE(能源使用率)不超过1.3”的规定。然而从2022年底中国数据中心PUE分布情况来看,超过60%的数据中心PUE值将无法达到国家要求。
此后,北京、上海、深圳等地也陆续发布通知,其中,北京市更是提出,数据中心PUE值超过1.8时,数据中心每度电费增加0.5元。以通知中最低等级,即年电力消费量达到500万千瓦时以上的数据中心为例,如果该数据中心PUE值大于1.8,那么每年至少要缴纳250万元的电费。
此前,“液冷投入成本高”一直影响着数据中心采用液冷方案,但当下,液冷投入成本正在不断降低。从曙光数创的部署实践来看,冷板液冷初期投资已低于风冷。

▲采用曙光数创冷板式液冷相较于风冷每年数据中心可节省1752万元电费

从市场的角度来看,去年一年,中国液冷数据中心基础设施市场部署规模达到139.2MW,而今年第一季度,部署规模就达到了111.6MW。可以看到,在政策、市场等多重因素的叠加下,“百模大战”正加速液冷时代的到来。

▲2023年第一季度,中国液冷数据中心基础设施部署规模达到111.6MW

今年以来,虽然服务器厂商、空调厂商等都推出了相关液冷方案。但高算力需求叠加低PUE要求,以及用户的成本控制意愿,使得平衡性能、能耗、成本的三元关系,依然成为摆在每个数据中心建设、管理及运营者面前的难题。在赛迪顾问分析师袁钰看来,随着液冷进入应用拓展阶段,数据中心建设也呼唤经验证、可推广、可复制的发展模式。
作为液冷数据中心市场的先行者,曙光数创针对性地提出了“冷平衡”战略,为数据中心提供强劲性能、绿色低碳、可控成本的三元平衡方案。

▲“冷平衡”战略,实现强劲性能、绿色低碳、可控成本的三元平衡解决方案

在目前的方案下,数据中心中服务器的核心部件降温达到20-30摄氏度,实现芯片效能的大幅提高;此外,数据中心全时全域自然冷却PUE值可以达到1.04,目前,PUE值小于1.2的数据中心仅占4.9%;最后,到成本上,使用曙光数创冷板液冷方案,数据中心初投资可以低于风冷解决方案,使用全浸式液体相变冷却产品运行5年的成本也低于风冷。
曙光数创之所以可以平衡性能、能耗、成本的三元关系,是因为有SLiquid技术品牌和CloudBASE数据中心整体解决方案品牌为该战略提供支撑,二者分别为冷平衡提供“先进液冷之力”和“服务全局之能”。

02.
十年打下多条“技术护城河”,
3年可节省1亿元能耗成本


作为曙光数创新推出的技术品牌,在副总裁张鹏看来,SLiquid技术品牌走了一条液冷未来发展“主流”的道路。

▲SLiquid技术品牌的理念

液冷技术目前主要存在三种技术路线,分别是冷板式液冷、浸没式液冷和喷淋式液冷目前,喷淋式液冷应用较少,在中国科学院计算机网络信息中心专家佟钊看来,冷板液冷未来将成为数据中心主要方案,高密度场景下,浸没液冷将成为未来主要的发展趋势。
值得注意的是,目前浸没式液冷又可分为相变液冷和单相液冷。在张鹏看来,单相液冷的散热效果较差,而相变液冷可以通过沸腾过程实现更好的传热效率。目前曙光液冷的产品就紧紧围绕冷板式液冷和全浸式相变液冷两项技术。
作为曙光数创数据中心整体解决方案品牌CloudBASE在过去的这些年里,已推出包括全浸式液冷相变冷却产品C8000、冷板式液冷产品C7000等在内的标志性液冷产品。
C8000是针对超高密度刀片服务器推出的浸没液冷基础设施产品,一般应用在超高密度数据中心机房,满足科研、金融、互联网领域的人工智能计算等应用。
目前该产品采用低沸点液体作为冷媒,其与发热器直接接触,至少可实现200W/平方厘米高效散热;同时由于无风扇设计,较传统风冷数据中心节能超30%。以同等IT容量规模40MW的数据中心为例,使用全浸式液冷相变冷却方案每年可节约电费3504万元,计算下来,3年可节省约1亿元人民币能耗成本。
值得一提的是,C8000可以使服务器中CPU等主要电子元器件温度降低且负载波动减小,这样可以充分挖掘芯片潜能提高计算机系统整体等性能。
C7000是为冷板服务器提供稳定运行环境的数据中心技术设施解决方案,机房内主要以机房微模形式呈现。C7000采用采用液冷+风冷混合散热形式,其中CPU、内存等主要发热部件利用液冷冷板套件进行冷却,比例达90%以上。曙光数创具有从冷板散热、VCDU、不锈钢管路到CDU的冷板液冷散热系统的全链路产品。
作为中国液冷数据中心基础设施市场规模第一的曙光数创,在过去的几年中,曾参与科研、环境等多个领域的数据中心建设,具有全栈、全周期服务能力,不仅可以为数据中心建设、运营提供可再生能源、数据中心节能技术、设备节能技术、芯片节能技术在内的多层次支撑,还可以提供规划咨询、方案设计、建设实施、运维管理、升级改造等一系列服务。
在张鹏看来,在数据中心领域深耕20年的曙光数创接下来在扩大技术优势的同时,会继续维护和完善供应链,争取通过上下游的协同不断降低数据中心液冷方案部署的成本。

03.
结语:大模型算力需求更新,
“冷平衡”成为液冷时代重要趋势


可以看到,百模大战的不断升温正推动“液冷时代”加速到来。在液冷应用拓展过程中,数据中心建设缺少既可以平衡性能、能耗、成本的三元关系又经过验证、可推广、复制的发展模式。
作为在液冷服务器数据中心领域份额超其他厂商总和的头名,曙光数创推出的“冷平衡”战略,有助于降低数据中心“液冷”建设门槛。在SLiquid技术品牌和CloudBASE数据中心整体解决方案品牌的保障下,数据中心不仅可以实现绿色和性能的同步升级,还能在有效控制成本。对于整个未来几年的液冷行业来说,推出数据中心实现“冷平衡”或成为重要发展趋势。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如何快速实现大模型落地?5小时get大模型时代实战密码!5小时get大模型时代提效神器:写出高价值大模型Prompt!对话|三个月诞生79个基础大模型,中国到底需要什么大模型?刘强东夫妇“移民美国”?京东回应;恒大汽车获中东资本5亿美元战投;特斯拉已在中国建立数据中心;雷军曝光小米大模型进展丨邦早报张学友演唱会上晕倒!“耳水不平衡”是什么病?大模型时代数据和隐私问题何解?来WAIC这场学术交流会听权威学者观点洞察只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型大模型时代,解析周志华教授的「学件」思想:小模型也可做大事播放分钟数代替播放量、24年“盈亏平衡”:B站商业化“急了”?芍药牡丹,富丽堂皇用AIGC重构后的智能客服,能否淘到大模型时代的第一桶金?让张学友在演唱会上晕倒的“耳水不平衡”是什么病?大模型时代,一定要来讨论下数据与隐私AI的大模型时代 ≠ 只有大模型的AI时代大模型时代也要避雷,AIGC的真正使用者是打工人OpenAI等推出AI语音翻译;百度发布首个量子领域大模型;微软或将用核电供能AI数据中心丨AIGC大事日报大模型时代的三道鸿沟:数据、成本与想象力原来,那是上天的一滴泪!百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报如何构建大模型时代下的智能算力?| Q推荐文勇刚:大模型时代,我们需要怎样的数据中心?丨GAIR 2023独家丨华为重仓大模型,成立两大组织:AI算力平台先遣组、数据中心军团身在天涯 心在守望什么是富丽堂皇:圣家族大教堂特斯拉:已在中国建立数据中心,所有中国大陆市场车辆数据存储在境内黄学东:大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023如何解锁大模型时代AI研究开发新范式 ?尽在2023WAIC AI开发者领袖论坛让张学友晕倒在舞台上的“耳水不平衡”是啥病?用 AIGC 重构后的智能客服,能否淘到大模型时代的第一桶金?以网络IO为中心,无服务器数据中心(2023)盘古大模型之外,华为首秀大模型时代「硬实力」玻璃缸里的孙凤 (16)事关耕地红线!浙江推进“进出平衡” ,严控一般耕地转为其他农用地2023上半年投行M&A交易榜单来了!又有爆冷数据?大模型时代,「幕后主力军」数据中心走向何方?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。