Redian新闻
>
大模型需要什么样的智算中心?7位大咖谈AIGC时代算力挑战与风口丨GACS 2023

大模型需要什么样的智算中心?7位大咖谈AIGC时代算力挑战与风口丨GACS 2023

科技

破解AI企业难盈利困局,智算中心建设将是关键。
编辑 |  GACS
9月14日-15日,2023全球AI芯片峰会(GACS 2023)在深圳市南山区圆满举行。在第二天举行的智算中心算力与网络高峰论坛上,来自商汤科技、中国移动研究院、浪潮信息、科华数据、首都在线、趋动科技、中科驭数等7家企业或机构的技术决策者及高管分别发表主题演讲,分享有关智算中心的探索与实践。
算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。10月8日,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等6部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年算力规模超过300EFLOPS,智能算力占比达到35%,足见对智能计算中心发展的高度重视。
当前,新一轮科技革命和产业变革正在向纵深演进,算力基础设施的重要性不断提升。聚焦生成式AI与大模型浪潮带来的算力机遇、挑战与创新,7位行业嘉宾分别从智算中心技术瓶颈与优化方向、大模型工程实践经验、模块化液冷解决方案、包含DPU的异构计算、GPU资源池化等方面,对智算中心如何进一步突破算力天花板、达成“双碳”目标进行分享和解读。
以下是此次论坛的核心干货:

01.
商汤科技杨帆:
AI基础设施是核心战略
三要素规模化可降低边际成本


商汤科技联合创始人、大装置事业群总裁杨帆指出AI行业的场景碎片化问题,强调行业场景极度细分,导致边际成本高,使得AI公司难以盈利。而解决之道是通过AI基础设施,达到算力、数据、算法等核心要素协同的最佳实践,提供给行业低成本、高效益的AI基础能力。
商汤认为,未来5年,AI基础设施可能会是行业的真正发展路径,是解决AI目前创造巨大价值但行业自身不盈利的困局,最有可能的方向之一,因此商汤科技也将其作为核心战略之一。

▲商汤科技联合创始人、大装置事业群总裁杨帆

随着AI技术的进步,智算逐渐成为一个独立的概念。
算力方面,商汤的临港智算中心AIDC截至今年8月底,线上算力超过6000P,可以在单一的网络训练中聚集4000以上的GPU卡,可支持20个千亿级别超大模型同时训练。
数据方面,商汤认为数据要素是产业智能化发展中最宝贵的资源。商汤大模型数据专家团队通过对世界上最大的公开爬取数据集之一Common Crawl中,3PB+的原始数据进行清洗、去重、有害信息消除、质量过滤等处理动作,生成约30TB的有效数据用于大模型训练,可极大降低AI技术研发之中的成本。
算法方面,改进的方向主要集中于优化性能和优化推理过程,用更低成本的推理去达到同样的效果。
把算力、数据、算法这三要素中基础的核心沉淀出来,更加规模化地向外提供,降低边际成本,扩大边际效益,这是商汤科技认为AI产业发展的方向。

02.
中国移动陈佳媛:
定义NICC新型智算中心技术体系
从五个方面进行系统性重构


中国移动研究院网络与IT技术研究所技术经理、主任研究员陈佳媛分享了中国移动的NICC(New Intelligent Computing Center)新型智算中心技术体系。
根据信通院发布的中国综合算力指数预测,到2025年,智能算力在全国的占比将从今年的25.4%上升到85%。中国移动研究院将智算中心的发展分为两个阶段,一是2025年之前的集群时期,主要面向百亿或者是千亿规模的大模型发展;其次是2025年之后的超级池化时期,将面向万亿级的大模型进行革新。
基于这个预判,中国移动定义了新型智算中心的技术体系,并从互联、算效、存储、平台、节能等五个方面进行系统性重构,牵引行业在多个技术领域形成共识,加快相关技术成熟。

▲中国移动研究院网络与IT技术研究所技术经理主任研究员陈佳媛

陈佳媛认为,在新互联方面,为支撑更大规模的模型训练,构建更大规模的卡间高速通信能力,产业应共同打造统一的计算总线协议,联合AI芯片、交换芯片、服务器等上下游企业共同推动国内高速互联技术生态成熟;对于更大规模的网络互联,中国移动已经创新性提出全调度以太网技术(GSE),革新以太网底层转发机制,实现三大核心机制转变,打造无阻塞、高带宽、低时延、自动化的新型智算中心网络,希望更多伙伴加入,加速落地应用的过程。
在新存储方面,为突破GPU显存容量的限制,简化AI模型开发,行业应共同加速内存池技术的成熟,使得CPU、GPU/AI加速卡等异构设备共享统一内存,为大模型海量数据的高效处理奠定基础。
在新算效方面,陈佳媛谈到,产业在聚焦GPU能力升级、探索存算一体等新型芯片的同时,更要关注CPU,GPU、DPU三大芯片协同,加快验证DPU在智算中心的场景应用,整体提升智算中心海量数据的处理能力。
在新平台方面,中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,目标是打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署,目前中国移动已经实现至少三家芯片的跨架构迁移,希望未来能有更多AI芯片加入,构建算力原生的产业生态。
在新节能方面,针对智算中心不断攀升的能耗需求,产业标准化程度较低的问题,中国移动坚定推进液冷技术成熟,通过制定五大统一标准,在智算中心建设项目中大规模引入,实现极致能效、极高密度、极简运维的三“极”目标。
大模型时代,新型智算中心的相关技术受到国内外高度关注,但是目前产业存在多种解决方案,技术路线也尚未统一,希望产业凝聚力量,形成共识,共同推动智算关键技术成熟,共同繁荣国内AI生态发展。

03.
浪潮信息Stephen Zhang:
应对AIGC时代算力挑战
开放系统、多元算力是关键


AI算力是驱动大模型发展的核心引擎,但当前算力荒、算力贵的供给情况,恰恰成为了制约大模型发展的关键因素。浪潮信息开放加速计算产品总监Stephen Zhang从开放AI算力平台创新、促进多元算力融合发展、助推多元算力产业化应用等方面解读了生成式AI时代下算力的挑战与创新。
当前,多样化的技术路线带来了AI算力多元化的需求,但由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,需要定制化的系统硬件平台承载,带来了更高的开发成本和更长的开发周期。同时,大模型训练需要更高性能、高互联、强扩展的大规模AI算力集群支撑。因此,在芯片技术创新突破的同时,产业界也需要从更高的系统层面共同应对大模型时代的算力挑战。

▲浪潮信息开放加速计算产品总监Stephen Zhang

浪潮信息基于开放的算力系统研发和大模型工程实践经验,发布了《开放加速规范AI服务器设计指南》,面向AIGC应用场景,细化完善了从节点到集群间的AI芯片应用部署全栈设计参考,并提供系统测试指导和性能评测调优方法。AI芯片厂商可以基于《指南》快速将符合开放加速规范的AI芯片落地成高可用高可靠高性能的大模型算力系统,提高系统适配和集群部署效率。
开放加速计算架构具有大算力、高互联和强扩展的特点,天然适用于超大规模神经网络并行训练,近年来已经取得丰富的产业实践成果。基于此,浪潮信息已经发布了三代AI服务器产品,和10余家芯片伙伴实现多元AI计算产品落地,并推出AIStation平台,可高效调度30余款AI芯片,充分释放多元算力价值。
同时,面向复杂的大模型训练工程,浪潮信息最新推出了OGAI大模型智算软件栈,能够为大模型业务提供AI算力系统环境部署、算力调度及开发管理能力的完整软件栈和工具链,高效释放算力系统性能,加速生成式AI产业创新步伐。

04.
科华数据魏芳伟:
模块化液冷一站式方案
助攻智算中心双碳目标


芯片的功耗在持续上升,单颗芯片功耗的逐渐增大。英特尔2023年第一季度发布的Max9462处理器,TDP达350W;英伟达2023年第一季度发布的HGX Grace Hopper Superchip Platform,其TDP高达1000W。如用风冷技术,将很难降低CPU、GPU表面温度。此外基于双碳要求,工信部于2021年发布新型数据中心发展行动计划,要求到2023年底,新建大型及以上数据中心PUE值降低到1.3以下,严寒和寒冷地区力争降低到1.25以下
科华数据智慧温控制拓展部副总监魏芳伟谈道,目前主要的散热方式有6种,包括传统风冷、自然冷源风冷、冷板式液冷、喷淋式液冷、单相浸没式液冷以及两相浸没式液冷。其中,使用最多的是冷板式液冷和单相浸没式液冷。魏芳伟说,冷板式液冷适合绝大多数客户使用,优势是高性价比,低改造、低建设难度;浸没相变式液冷适合极致性能客户使用,特点是高性能、高投资。

▲科华数据智慧温控制拓展部副总监魏芳伟

魏芳伟解读了科华的模块化液冷一站式解决方案,主要包括三大类产品,包括主要应用在大型互联网IDC和超算中心的液冷微模块应用在边缘计算领域的液冷集装箱,以及应用在挖潜和老旧机房改造的是液冷一体机
液冷微模块的特点是高度集成,集成电源、配电、风冷空调、液冷CDU、二次侧管道等。每一个液冷项目具备特殊性,但是可以采用模组形式搭建多样化的适配载体,提高通用性。
液冷集装箱由各个模块组成,IT模块、电力模块、电池模块、消防模块、综合布线、液冷模块等可以根据单机柜功率、总功率、配电架构和占地面积等因素综合评估、选择、确定各模块配置数量,拼装组成数据中心。

05.
首都在线牛继宾:
解决智能算力平台建设痛点
已有几十个大模型客户成功案例


首都在线副总裁牛继宾谈道,构建新一代智能算力平台或是智算中心有很多痛点。一是英伟达高端算力供应链的问题,二是国产算力芯片的可用性问题,三是建成以后找不到足够多的运行客户。一个智算中心,如果解决不了以上几个问题,就建造不起来或者出现运营亏损。此外大规模内网互联、存储高速吞吐、模型优化服务、平台生态服务等技术因素也造成智算平台建设的技术瓶颈。
首都在线提出的解决方案是建设大规模异构智能算力平台。该平台拥有异构算力的资源池,以英伟达算力为主,以国产算力为辅,实现上做了从内网互连到公网的调优,模型的适配调优,并基于此提供GPU裸金属、GPU云主机、高速存储、数据库等多方面的云服务。经过一年半左右时间的迭代,首都在线打通了智算IaaS到智算MaaS,再到到客户的端到端应用场景,提供一套从生产到业务的端到端模型适配与服务平台,目前的客户包括国内数家TOP大模型客户以及终端的应用客户等。

▲首都在线副总裁牛继宾

牛继宾谈道,大模型的推理如果用8卡的机器,是严重浪费的,首都在线最早和国内大模型客户的在线推理业务合作,能够将千亿模型做到在两张24G显存、月成本只有千元左右的GPU云主机进行部署,而一台8卡A100成本得四五万元左右,相当于超过一个数量级的降低。“这样才能让最终的大模型应用走到每一个终端上。”
据他分享,首都在线目前已在搭建有商用级的千卡高端训练集群,能够直接响应大模型用户训练需求,同时建设了万卡的推理集群,目前已有数十个大模型客户案例、也有成功的将大模型服务转售给垂直场景用户的多个案例。国内依托于东输西算的业务形态进行部署,加快用户的响应,降低用户的研发与线上服务成本;海外在东南亚正在部署H100集群,在美国也上线了比较大的推理资源池。这就相当于打通了全球的训练、推理、网络。

06.
中科驭数张宇:
AI大模型需要新型算力底座
包含DPU的异构计算成主流


DPU是数据专用处理器,被称为继CPU、GPU之后数据中心的“第三块主力芯片”。DPU能够提供智算中心所必须的大带宽和低时延能力,使更多的CPU、GPU算力可以真正服务于业务,从而为新型智算中心提供更高效的算力底座,成为智算中心必备的核心组件。
中科驭数高级副总裁张宇强调了DPU和普惠算力在数智系统中的重要性。随着大模型和智能计算的崛起,传统的算力底座已不再满足需求成为瓶颈,AI大模型应用需要新型算力底座进行支撑。硬件架构突破以CPU为中心的体系,应用维度从芯片内、节点内向系统级分布式异构延伸,CPU+GPU+DPU+FPGA的异构计算成为主流趋势。在新的算力架构中,云、边、端共同构成了多层立体的泛在计算架构,通过与DPU的深度融合,构成新型算力底座。

▲中科驭数高级副总裁张宇

张宇谈道,大带宽、低时延,已成为AI大模型算力底座的核心诉求,而DPU可以提供这两项必须的能力,异构算力、三U一体成为算力底座主流的趋势。他认为对于所有的算力芯片而言,上层软件生态是最重要的,有时甚至会超出芯片本身设计的重要性。
中科驭数践行“IaaS on DPU”,从标准化的基础设施到客制化的业务应用均进行产品布局,历时五年打磨了开放DPU软件开发平台HADOS,具备丰富的算力能力接口,接口数量超过2000个,具有完备的生态兼容能力、多种开发维护工具,支持丰富的应用场景。

07.
趋动科技刘渝:
在业界率先提出GPU资源池化
软件定义优化AI算力供给


在AI大模型时代,英伟达的高端先进芯片难以采购,价格也是水涨船高。在巨大需求和AI算力供不应求情况下,趋动科技华南区技术总监刘渝认为应该优化GPU,也就是AI芯片和AI算力的供给模式
传统的供给模式是物理卡挂载给AI应用使用,无论是基于物理机、容器或虚拟机,通过软件对GPU做简单的虚拟化切分,没有办法使算力资源动态满足不同AI应用的弹性需求。AI开发、训练、推理,这些不同的工作任务对于GPU资源的需求是不一样的。

▲趋动科技华南区技术总监刘渝

软件定义AI算力的解决方案,总体来说包含了六大典型应用场景:1、“隔空取物”,进行vGPU资源的远程调用;2、“化零为整”,通过软件进行GPU资源的聚合,节省算法人员的时间;3、“化整为零”,将GPU切分为多份,让多个AI任务叠加使用,比如推理场景;4、“显存扩展”,调用内存补显存;5、“随需应变",通过软件进行资源动态伸缩,无需重启;6、“动态超卖”,资源高效轮转使用。
刘渝称,趋动科技在业界首提GPU资源池化的定义。趋动科技的OrionX GPU池化(GPU Pooling)软件处在驱动程序以上,属于标准化软件;对于AI应用和框架来说,不需要修改任何代码,就可以使用OrionX池化之后的GPU,对于用户来说也不需要改变任何的使用习惯。OrionX对GPU资源进行池化后共享,每人按需动态进行GPU挂载和释放,GPU硬件采购成本平均节省70%以上,GPU综合利用率平均提升4倍以上

08.
结语:算力结构变化催生新型智算中心


正如智一科技联合创始人、CEO龚伦常作为主办方在致辞中所言,在人工智能进入新阶段之后,全球对算力的需求与日俱增。随着社会智能化、数字化快速演进,未来,每个大一点的企业都需要智算中心。

▲智一科技联合创始人、CEO龚伦常

一方面,大模型时代下,传统的算力中心面临着与大模型匹配度较低、缺乏行业统一标准、竖井式发展、缺乏全局协同等多方面的挑战。另一方面,国内企业已经发起冲锋,从基础设施、液冷技术、芯片协同等方面,重新定义新型智算中心,为构建更加健康、高效和可持续的AI生态系统铺设了道路。




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
爱因斯坦不知道到的是什么?GPT大爆炸时代,会产生什么样的超级SaaS丨GAIR 2023活动招募|内卷时代,我们需要什么样的语文课?无IGCSE VS IGCSE全A*都能拿到G5 offer,IGCSE还有必要学吗?浪潮信息:发布大模型智算软件栈OGAI,为大模型创新打造高效生产力变革时代,未来世界需要什么样的人?AIGC日报丨雷军王小川牵手,小米大模型投资布局首次曝光;总算力达400P,武汉人工智能计算中心完成三期扩容北极雄芯马恺声:全国产Chiplet封装链路跑通,Chiplet架构正在重塑大算力芯片丨GACS 2023AMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 2023知存科技詹慕航:AI算力提升数百倍、功耗降低数十倍!加速存内计算芯片端到边应用丨GACS 2023【2023 坛庆】贴首今天吹的笛子《湖天一览楼》1部2章(3)庚子国变算力风云突变,智算中心何以蜕变? | 另类投资观点第190期蚂蚁集团已建设万卡异构算力集群;长安汽车泰国制造基地正式动工;腾讯联合松江落地国内最大规模GPU智算中心丨智能制造日报AIGC时代的算力基石,未来的数据平台将如何演进?智算中心网络架构选型及对比GW-ICC 2023 | 大咖谈:共迎未来,乐可为®开启血脂管理新模式云天励飞李爱军:揭秘大模型时代,边缘计算芯片进化论丨GACS 2023文勇刚:大模型时代,我们需要怎样的数据中心?丨GAIR 2023【2023 坛庆】 ⑤⑥ 花妖的鸳鸯枕中科加禾崔慧敏:AI芯片+编译器才是王道!性能提升2~3倍,将推出大模型推理引擎丨GACS 2023燧原科技张亚林:大模型带来计算范式变革,形成“大树型”生态格局丨GACS 2023微缩工艺加码、先进封装助力,芯片制造圈奋力应对算力挑战大美和二美(二十四) - 卢卡吃香了奎芯科技王晓阳:大模型游戏规则下,内存互联+Chiplet新方案推动国产化丨GACS 2023亿铸科技熊大鹏:大模型时代,AI大算力芯片急需破除“存储墙”丨GACS 2023飞临美丽的耶路撒冷圣城【2023 坛庆】山之茶【2023 坛庆】《菊花台》使能算力:锐捷网络发布AIGC智算中心网络整体方案大模型战事中场:AIGC时代的企业,如何用AI原生应用乘风破浪?重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章灌水:the awe effect上海交大梁晓峣:疯狂的大模型时代,开源GPGPU平台为国产AI芯片企业谋出路丨GACS 2023芯至科技尹文:拆解架构创新四大路径,打造10倍性价比大模型推理芯片丨GACS 2023原粒半导体原钢:大模型加速奔向边缘端,AI Chiplet成部署新选择丨GACS 2023面向未来,我们需要什么样的城市|未来城市大奖2023报名启动好用的不通用,通用的不好用,金融落地大模型需要“专业型”选手黄学东:大模型时代需要注重「三个臭皮匠」的联合能力丨GAIR 2023【2023 坛庆】 ※ 烟雨行舟 ※ 夜垂云流缓 清梦醉阑珊
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。