Redian新闻
>
“智算”雄起 | 腾讯云:为国产化智算云筑基

“智算”雄起 | 腾讯云:为国产化智算云筑基

公众号新闻







今年全国两会的《政府工作报告》首次提出“人工智能+”行动。打造以人工智能为引擎的新质生产力,已经成为当前最紧迫的任务。

为人工智能落地应用提供支撑的智算中心正在全国范围内快速兴起。智算中心与云计算中心有何区别?智算中心如何建设,又如何运营和运维?智算中心如何助力新质生产力的打造?为解答这些问题,我们邀请了业界知名厂商、专家,在“智算雄起”的大潮下,各抒己见、观点碰撞,希望为推动智算中心的建设和发展提供有益的借鉴和参考。




智算中心要达成的任务或者目标是,完成特定的一个或多个大模型训练或者推理的任务。而完成这个任务所需要的内容包括算法、数据和算力。因此,要求智算中心必须具备对算法进行开发、优化、调度的模型管理能力,算力和数据所对应的高性能计算和高性能存储能力,以及算力和数据交互所需要的高性能网络能力。


从用户的角度来看,智算中心的使用者大体分成三类:算法工程师,一般负责对算法进行设计和调优,不涉及工程层面;AI开发工程师,负责模型训练和推理的实际落地执行,一般工程化实现都是基于各大AI框架(如TF、PyTorch)+容器平台;AI运维工程师,负责AI训练推理所需要的底层计算、存储、网络资源。所以,智算中心的业务定位应该满足这三类使用者的诉求。


腾讯云副总裁沙开波概括说,一个完整的智算中心应该可以提供AI开发人员和运维人员需要的算力和数据所对应的高性能计算、存储和网络能力,同时还要提供上层的模型、数据管理,以及算法调优能力,以满足更上层算法工程师对于最终训练推理的要求。


智算中心有何不同?


智算中心与云数据中心都是由上层应用软件、中层云服务、底层基础资源三部分组成,而不同点在于这三部分有各自不同的含义(如下表所示)。



数据中心

智算中心

上层应用软件

随业务不同,运行多样化的应用软件

主要运行大模型训练软件,负责对于模型的管理、数据的管理、算法的调优等

中层云服务

丰富的云服务,大数据、安全、中间件、容器等

最主要是大模型训练相关的容器平台和任务调度平台,负责训练、推理任务相关的分配、调度和执行

底层基础资源服务

CPU为主的算力资源服务,包括计算、存储、网络

GPU/CPU和RDMA网络为基础的算力资源服务,包括高性能计算、存储、网络


智算中心与传统的云数据中心最主要的差异在于,底层资源增加了GPU等异构算力和RDMA网络资源,以及在上层云服务和应用软件方面,更聚焦在和大模型相关的服务和软件上。云数据中心以传统业务应用为主,对云基础设施进行规划设计和建设,其算力特点是以CPU 算力为主、GPU算力为辅,网络以以太网为主。智算中心是以AI方向业务需求为主,进行基础设施规划建设,算力以GPU/NPU为主,CPU 为辅,为满足AI方向业务特点,需要配套的高性能网络,如RDMAIB网络。两种方向上的差异也会体现在IDC规划建设的不同,以及智算中心对算力密度和能耗规划要求更高。


构建属于用户自己的智算云


沙开波介绍说,腾讯自身有大模型产品——“混元”,其背后也有对应的自建智算资源。与此同时,腾讯专有云TCE和TCS两个产品也可以帮助企业客户构建智算中心。


TCE是和腾讯公有云同源同构的全栈云平台,坚持一云多芯,坚持软硬开放,提供从基础IaaS到上层PaaS的全栈云产品,目前已经拥有众多行业标杆,特别是在金融领域处于领导者地位。


TCS是基于云原生技术的PaaS平台,可以灵活地组合式输出各种腾讯自研PaaS产品,且支持GPU/NPU容器虚拟化、RDMA高性能网络、容器批量计算、多集群管理和一云多芯,为企业提供智算方案的云原生技术底座支持。


在智算中心场景中,TCE可以为客户提供异构CPU/GPU的高性能计算、RDMA高性能网络,满足大模型训练时需要的直通算力和多卡数据交互需求,以及提供以并行文件系统为代表的高性能存储,满足大模型训练时checkpoint等数据的快速读写。总之,基于TCE和TCS,企业客户就可以构建完整的智算中心。


面对智算中心,腾讯专有云提供了一整套端到端的解决方案,包含TCE的HCC(腾讯云高性能计算集群)和CFS Turbo(腾讯云并行文件存储系统),提供了高性能计算能力和RDMA高性能网络能力,也提供了并行文件系统,实现数据高速读写;另外,还包含TCS产品,提供支持大模型训练推理调度能力的云原生容器平台。


“以TCE和TCS产品为基础的腾讯专有云智算中心,其最大特色就是全面的国产化和一云多芯”沙开波如是说。


整个TCE和TCS软件全部自研,符合国内服务器虚拟化、虚拟化云平台、容器云平台等一系列自主可控云计算平台的标准,同时还以业内领先水平支持国产化密码标准。尤其是其中的并行文件系统,因为技术门槛较高,业内主要的做法是使用或封装国外产品,而腾讯则是完全自研,可以实现从客户端调用到数据存储的端到端全链路国产化。


TCE和TCS可以实现从硬件适配、资源池化到异构调度的完整全栈一云多芯,并向下纳管异构芯片资源、向上屏蔽硬件差异,从而保障业务高效稳定运行,并可帮助企业降低硬件供应链风险,实现平滑过渡式国产化替换。


TCE和TCS还全面支持国产GPU,实现了从CPU到GPU的全国产异构算力。


综上,企业完全可以基于腾讯专有云TCE和TCS搭建一朵完全属于自己的国产化智算云。


沙开波表示,腾讯云已经在IDC、汽车、金融等多个行业成功落地了智算中心项目。在IDC行业,腾讯云提供TCE智算云平台,帮助客户从传统数据中心托管业务实现转型升级,可以高效便捷地提供智能算力服务。在汽车行业,腾讯云提供了TCE智算云平台及其上的自动驾驶工具链,帮助客户极速构建一站式的自动驾驶开发、测试和上线运行环境,极大减少了自动驾驶业务的研发和运营成本。在金融行业,腾讯云提供TCE智算云平台和TCS云原生AI套件,帮助客户构建大规模国产化GPU算力资源池和编排调度能力,实现关键基础设施的智能化业务自主可控。


打破瓶颈 步步为营


随着以Sora为代表的新的多模态生成式AI问世,可以预见,各大企业对于GPU卡的需求还会持续大幅度增长,再加上不可预知的外界因素影响,围绕GPU算力的硬件供应链是后续智算平台进一步发展的最大挑战。沙开波认为,解决思路就是完整实现国产化,充分发挥一云多芯,让智算云平台通过适配、管理、调度多种国产化CPU和GPU芯片,最大程度降低供应链风险,同时还能满足不同业务对于不同算力的需求。腾讯专有云TCE和TCS会持续帮助广大企业建设真正属于自己的智算云。



往/期/回/顾

从科技赋能到价值引领,东莞证券可进化的信创云建设启示录“智算”雄起 | 智算操作系统要“顶天立地”

“智算”雄起 | 青云科技:智算中心建设、运营两不误


“智算”雄起 | 天翼云:大模型背后的算力推手


“智算”雄起 | 智算操作系统要“顶天立地”




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
多伦多豪门夺子风云:交往6年男友突发身亡,全部遗产留给姐妹和前妻,女子当即迅速掳走孩子…“五一”机票价格突然跳水!有网友直呼“买亏了”,有人称“退了重买也划算”!业内:运力加多了,能卖一张是一张特稿丨极致靠谱!这一系统实现软硬件完全国产化推动超高清视频产业链路国产化,「博雅睿视」获亿元级A轮融资|36氪首发智库访谈 | 王建峰:掘金”数据资源,开启数据资产化时代突破多项关键技术!这一设备实现100%国产化一场失败的实验: 对共产主义运动的反思与批判 page 14春天购物季!美国奥莱主打“精打细算”,outless真的成扫货胜地了!迎龙年【首发】泉微科技完成数千万人民币天使轮融资,自研裸珠从源头解决磁珠国产化难题一场失败的实验: 对共产主义运动的反思与批判 page 12中美科技合作协定续约疑云:科学能战胜政治吗?智领全栈 模力全开|锐捷网络携智算中心网络方案亮相2024GIDC一场失败的实验: 对共产主义运动的反思与批判 page 11收入大增65%,移动云抢滩AI智算,用核心技术向未来布局邀请函|2024GIDC,锐捷邀您共度智算中心创新探索之旅重磅!鹅又悲催了;欧洲雄起了……聚生态 智算兴,超聚变的行业生态之“变”马云:小公司创业看用什么人,大公司经营看开掉什么人云原生消息流系统 Apache RocketMQ 在腾讯云的大规模生产实践推动数字化智变发展 锐捷网络保持行业领先大模型“暴力计算”时代,中国如何突围算力之困?华为Pura 70首次实现北斗卫星发送图片信息;全球运营商最大单体智算中心已投入使用丨智能制造日报马云发文悼念宗庆后引热议,后者曾当众骂马云:整天胡说八道!云原生消息流系统Apache RocketMQ在腾讯云的大规模生产实践一口气升级7个大模型SaaS应用,百度智能云:突出一个“开箱即用”2023智算产业发展白皮书(附下载)7180.4米,试验完成!核心器部件100%国产化开放赋能,筑基云智未来|锐捷网络亮相2024中国移动算力网络大会全局智算 眼见为实腾波音,改换C919,总计30架!这家民营航司宣布:机队将清一色为国产大飞机宁畅AI算力栈火力全开,用全局智算凿出通往AGI的快车道解析《心迷宫》如何成为国产黑马的?一场失败的实验: 对共产主义运动的反思与批判 page 13国家数据局《深化智慧城市发展 推进城市全域数字化转型的指导意见》征求意见
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。