腾讯加入 AI 大战,首发国内最强显卡,性能提升 3 倍科技2023-04-14 23:04最近国内 AI 圈像下过了一场雨,各种 AI 模型如同春笋一样冒了出来。根据金十数据的统计整理,目前国内至少有 15 个大大小小的 AI 大模型正在研发。其中,百度的文心一言和阿里的通义千问最受人们关注。BAT 其中两家 AI 大模型已经进入试用阶段,这下压力来到了腾讯这边。在今天,腾讯也公布了它在 AI 模型和云计算上面的动态。从公布的内容来看,腾讯似乎不仅仅是想赶这场「AI 淘金热」——它想「给淘金者卖水」。腾讯云近日推出了新一代高性能计算集群 HCC,旨在满足不断增长的人工智能、科学研究和工程领域的计算需求。众所周知,训练 AI 大模型需要大量的计算资源和数据进行训练。普通个人或小型公司可能无法承担这样的资源消耗,因为购买和维护这些计算资源的成本非常高。腾讯推出 HCC 高性能计算集群,便是面向大规模 AI 训练,以专用集群方式售卖算力,这就像是给前来 AI 金矿淘金的淘金者们卖水。新一代 HCC 集群提供了诸多创新技术和架构,包括星星海自研服务器、星脉自研网络、高性能文件存储和对象存储架构以及国内首发的英伟达 H800 Tensor Core GPU。经过实测,腾讯云新一代集群的算力性能较前代提升高达3倍,是国内性能最强的大模型计算集群。先来说说显卡,HCC 计算集群采用的英伟达 H800 Tensor Core GPU 是英伟达新一代基于 Hopper 架构的图形处理器,专为深度学习、大型AI语言模型、基因组学和复杂数字孪生等任务而设计,性能较前一代 A800 提高了3倍。星星海自研服务器则采用 6U 超高密度设计,上架密度提高了 30%。通过利用并行计算理念、一体化的 CPU 和 GPU 节点设计,单点算力性能得到显著提升。星脉自研网络还提供了业界最高的 3.2T 超高互联带宽,配合高性能文件存储和对象存储架构,具备 TB 级吞吐能力和千万级 IOPS。这一架构能有效解决 AI 训练过程中计算、存储、网络的「木桶效应」,确保运算速度不会因瓶颈而受限。星脉网络还采用了 1.6T ETH RDMA 高性能网络,为每个计算节点提供 1.6T 的超高通信带宽,带来 10 倍以上的通信性能提升。让我们从直观计算的表现来看。去年 10 月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于HCC 计算集群,训练时间将进一步缩短至4天。HCC 高性能计算集群应用广泛,包括自动驾驶训练、自然语言处理、AI生成创造(AIGC)大模型训练以及科研计算。为了简化AI开发流程,腾讯云自研了TACO Kit(Tencent Accelerated Computing Optimizer),包含TACO Train 和TACO Infer,帮助用户快速完成工业级的训练或推理部署。为了进一步降低训练大型AI模型的成本,腾讯推出了AngelPTM 训练框架。现在,AngelPTM 已经加入了 TACO Train加速组件,助力大模型训练显存上限和性能大幅提升。这就像为机器人安装了一套强大的学习系统,让其能够更快地掌握各种技能。此外,腾讯多款自研芯片已经量产。其中,用于 AI 推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与 CPU 握手等待时间。目前,紫霄已经在腾讯头部业务规模部署,提供高达 3 倍的计算加速性能,和超过 45% 的整体成本节省。腾讯云的新一代 HCC 高性能计算集群结合了先进的硬件和软件技术,提供了强大的计算能力和高度优化的系统性能。这些创新将有助于推动 AI、科研和工程领域的快速发展,满足各种行业在大数据和复杂计算任务方面的需求。通过自研硬件、网络、存储和软件优化等各个方面的突破,腾讯将高性能计算的能力提升到了一个新的高度。正如科幻电影中的智能机器人,新一代HCC集群将不断学习、进化,为各行各业提供强大的计算支持,推动国内人工智能领域的进步。点击「在看」是对我们最大的鼓励微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章