腾讯加入 AI 大战，首发国内最强显卡，性能提升 3 倍

2023-04-14 23:04

最近国内 AI 圈像下过了一场雨，各种 AI 模型如同春笋一样冒了出来。

根据金十数据的统计整理，目前国内至少有 15 个大大小小的 AI 大模型正在研发。其中，百度的文心一言和阿里的通义千问最受人们关注。

BAT 其中两家 AI 大模型已经进入试用阶段，这下压力来到了腾讯这边。

在今天，腾讯也公布了它在 AI 模型和云计算上面的动态。从公布的内容来看，腾讯似乎不仅仅是想赶这场「AI 淘金热」——它想「给淘金者卖水」。

腾讯云近日推出了新一代高性能计算集群 HCC，旨在满足不断增长的人工智能、科学研究和工程领域的计算需求。

众所周知，训练 AI 大模型需要大量的计算资源和数据进行训练。普通个人或小型公司可能无法承担这样的资源消耗，因为购买和维护这些计算资源的成本非常高。

腾讯推出 HCC 高性能计算集群，便是面向大规模 AI 训练，以专用集群方式售卖算力，这就像是给前来 AI 金矿淘金的淘金者们卖水。

新一代 HCC 集群提供了诸多创新技术和架构，包括星星海自研服务器、星脉自研网络、高性能文件存储和对象存储架构以及国内首发的英伟达 H800 Tensor Core GPU。

经过实测，腾讯云新一代集群的算力性能较前代提升高达3倍，是国内性能最强的大模型计算集群。

先来说说显卡，HCC 计算集群采用的英伟达 H800 Tensor Core GPU 是英伟达新一代基于 Hopper 架构的图形处理器，专为深度学习、大型AI语言模型、基因组学和复杂数字孪生等任务而设计，性能较前一代 A800 提高了3倍。

星星海自研服务器则采用 6U 超高密度设计，上架密度提高了 30%。通过利用并行计算理念、一体化的 CPU 和 GPU 节点设计，单点算力性能得到显著提升。

星脉自研网络还提供了业界最高的 3.2T 超高互联带宽，配合高性能文件存储和对象存储架构，具备 TB 级吞吐能力和千万级 IOPS。

这一架构能有效解决 AI 训练过程中计算、存储、网络的「木桶效应」，确保运算速度不会因瓶颈而受限。星脉网络还采用了 1.6T ETH RDMA 高性能网络，为每个计算节点提供 1.6T 的超高通信带宽，带来 10 倍以上的通信性能提升。

让我们从直观计算的表现来看。去年 10 月，腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下，将训练时间由 50 天缩短到 11 天。如果基于HCC 计算集群，训练时间将进一步缩短至4天。

HCC 高性能计算集群应用广泛，包括自动驾驶训练、自然语言处理、AI生成创造（AIGC）大模型训练以及科研计算。

为了简化AI开发流程，腾讯云自研了TACO Kit（Tencent Accelerated Computing Optimizer），包含TACO Train 和TACO Infer，帮助用户快速完成工业级的训练或推理部署。

为了进一步降低训练大型AI模型的成本，腾讯推出了AngelPTM 训练框架。现在，AngelPTM 已经加入了 TACO Train加速组件，助力大模型训练显存上限和性能大幅提升。这就像为机器人安装了一套强大的学习系统，让其能够更快地掌握各种技能。

此外，腾讯多款自研芯片已经量产。其中，用于 AI 推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用，性能指标和综合性价比显著优于业界。

紫霄采用自研存算架构，增加片上内存容量并使用更先进的内存技术，消除访存能力不足制约芯片性能的问题，同时内置集成腾讯自研加速模块，减少与 CPU 握手等待时间。

目前，紫霄已经在腾讯头部业务规模部署，提供高达 3 倍的计算加速性能，和超过 45% 的整体成本节省。

腾讯云的新一代 HCC 高性能计算集群结合了先进的硬件和软件技术，提供了强大的计算能力和高度优化的系统性能。这些创新将有助于推动 AI、科研和工程领域的快速发展，满足各种行业在大数据和复杂计算任务方面的需求。

通过自研硬件、网络、存储和软件优化等各个方面的突破，腾讯将高性能计算的能力提升到了一个新的高度。正如科幻电影中的智能机器人，新一代HCC集群将不断学习、进化，为各行各业提供强大的计算支持，推动国内人工智能领域的进步。

点击「在看」

是对我们最大的鼓励

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq