Redian新闻
>
H800国内首发!腾讯云推出大模型算力集群,集群算力提升3倍

H800国内首发!腾讯云推出大模型算力集群,集群算力提升3倍

科技

破解ChatGPT/Matter如何驱动家居智能化升级!GTIC 2023全球AIoT智能家居峰会4月28日在AWE同期举行,欢迎报名。

腾讯云发布最新高性能计算集群,可将万亿参数大模型训练时间缩短至4天。
作者 |  ZeR0
编辑 |  漠影
国内性能最强的大模型计算集群,来了!
智东西4月14日报道,今日,腾讯云发布面向大模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群。实测显示,该集群的算力性能较前代提升高达3倍,据称是目前国内性能最强的大模型计算集群
该集群采用最新一代腾讯云星星海自研服务器,搭载英伟达最新代次H800 Tensor Core GPU,属于国内首发。服务器之间采用业界最高的3.2T超高互联带宽,可以为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。
2022年10月,腾讯完成首个万亿参数AI大模型训练,在同等数据集下将混元NLP大模型的训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天


01.
最新服务器用上英伟达H800
自研芯片已内部交付使用


H800 GPU是英伟达新代次处理器,基于Hopper架构,对跑深度推荐系统、AI大型语言模型、基因组学、复杂数字孪生等任务的效率提升明显。
与A800相比,H800的性能提升了3倍,在显存带宽上有明显的提高,达到3TB/s

▲A800/H800 GPU基本参数对比(图源:腾讯云)

相较于上一代的Ampere架构,新的Hopper架构具备的亮点:制程工艺、引入Transformer引擎、第4代NVIDIA NVLink、NVIDIA机密计算、第二代MIG、新的DPX指令等。
此前腾讯的多款自研芯片也已经量产。
其中,用于AI推理的紫霄芯片用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。
紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与CPU握手等待时间。
目前,紫霄已经在腾讯头部业务规模部署,提供高达3倍的计算加速性能,和超过45%的整体成本节省。
紫霄芯片已在语音转写、OCR等腾讯业务场景使用:在腾讯的业务场景中,将语音转文字速度提升4.7倍,OCR识别吞吐能力提升2.4倍。视频处理芯片沧海已在云游戏、直点播等场景中规模落地,压缩率比业界通用的软件编解码x265 Medium提升35%。
腾讯云的分布式云原生调度总规模已超过1.5亿核,并提供16 EFLOPS(每秒1600亿亿次浮点运算)的智算算力。

02.
先进芯片≠先进算力
大模型对网络提出更高要求


先进算力的背后,是先进芯片、先进网络、先进存储等一系列的综合支撑,缺一不可。
原因是高性能计算存在“木桶效应”,一旦计算、存储、网络任一环节出现瓶颈,就会导致运算速度严重下降。
大模型进入万亿参数时代,单体服务器算力有限,需要将大量服务器通过高性能网络相连,打造大规模算力集群。
据悉,视觉类模型参数需求带宽约在100G到400G,互联网行业需求模型参数带宽需求则高达800G到1.6T。

▲不同模型的参数规模和带宽需求(图源:腾讯云)

目前,GPU并行是大模型训练的必备技术,大模型的并行计算不仅以加快计算速度为目的,还要考虑怎样将庞大的参数有机地分布到多张GPU卡中,并保持不同GPU卡之间有效的通信,整体配合完成大模型的训练部署。
即使是目前业界已有的GPU分布式训练方案,也严重依赖于服务器之间的通信、拓扑、模型并行、流水并行等底层问题的解决情况。
如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么GPT-3发布一年时,只有少数企业能复现打造出类似规模的大模型。

03.
业界最高3.2T超高通信带宽
TB级吞吐能力存储


那么如何针对大模型对算力的核心诉求,取得最优解?
腾讯云认为,云原生架构是模型训练到应用的最优选择,并提供极致的硬件底座、灵活的实例调用、易用的加速软件等针对性解决方案。

▲云原生架构是模型训练到应用的最优选择(图源:腾讯云)

通过对处理器、网络架构和存储性能的全面优化,腾讯云攻克了大集群场景下的算力损耗问题,能为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

▲不同精度下的单卡算力性能(图源:腾讯云)

网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。腾讯自研的星脉网络为新一代集群带来了业界最高的3.2T的超高通信带宽。
实测结果显示,搭载同样的GPU卡,3.2T星脉网络相较前代网络,能让集群整体算力提升20%,使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能;并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。

存储层面,几千台计算节点同时读取一批数据集,需尽可能缩短加载时长。腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力千万级IOPS,能够满足大模型训练的大数据量存储要求。
底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的TACO Train训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。
腾讯混元大模型背后的训练框架AngelPTM,也已通过腾讯云对外提供服务,能够帮助企业大幅提高大模型训练显存上限、性能。
目前腾讯混元AI大模型已覆盖自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。在腾讯云上,企业基于TI 平台的大模型能力和工具箱,可结合产业场景数据进行精调训练,提升生产效率,快速创建和部署AI应用。

04.
智算平台覆盖三大方向
支持多种方式取用算力


腾讯云智算平台当前覆盖AI训练/推理、渲染、科学计算三大方向:
1、AI训练/推理,如人脸识别、图像识别、语音识别、智能推荐等。
2、实时渲染,如云游戏、云手机、云电脑、动画制作、智能封面、智能编辑等。
3、科学计算,如流体动力学计算、地震分析、基因组学、芯片仿真等。
在算力层面,腾讯云针对训练、推理、测试及优化场景,提供匹配方案和产品。
其中,HCC高性能计算集群,面向大规模AI训练,以专用集群方式售卖,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并结合CFS Turbo高性能存储、节点之间通过RDMA网络互联,给大模型训练业务提供高性能、高带宽和低延迟的一体化高性能计算。

▲GPU产品选型关键因素(图源:腾讯云)

除了用于自然语言处理模型和AIGC大模型训练外,HCC还可以用于自动驾驶训练、科研计算等场景。
此外,腾讯云还通过云服务的方式对外提供适配OCR场景的推理卡、视频编解码的卡等等。
目前腾讯云提供裸金属、云服务器、Serverless容器、云函数、GPU Lab等多形态多层级的算力取用方案。

05.
结语:腾讯正打造面向AIGC
的高性能智算网络


集群算力显著提高后,未来不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。
以新一代高性能计算集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向AIGC的高性能智算网络,为加速云上创新提供支撑。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

GTIC峰会预告


破解ChatGPT/Matter如何驱动家居智能化升级!GTIC 2023全球Alot智能家居峰会4月28日在AWE同期举行,欢迎报名。



  


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
突发!腾讯云降价了,核心产品降幅最高达40%每天少使用15分钟手机,可增强免疫、改善睡眠;让GPT-4自我反思:性能提升近30%,编程能力提升21%|本周值得读北京内推 | 中国电信北京研究院招聘大模型算法工程师实习生只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型完成Pre-A+轮融资,语言大模型企业「澜舟科技」推出孟子MChat可控大模型|36氪首发谷歌云推出配置管理仪表板,简化 Kubernetes 集群管理Tesla ecosystem: energy generation, energy storage & electri百度智能云推出代码助手 Comate,覆盖 30 种编程语言,正式开放邀测国内首个算力交易平台上线;波音再次暂停交付“梦想客机”丨科技早新闻上海内推 | 上海人工智能实验室招聘大语言模型算法研究实习生公司官网:Blue Alchemist Technology Powers our Lunar Future拨云见日、笃行未来,腾讯云CTO100企业服务研习团·北京站圆满收官!数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报国内首个开放公测的大模型产品上线,接入通义千问理解与摘要能力 | 新闻潞晨科技招聘:NLP/AIGC大模型算法,​AI编译器开发,云计算研发等1.49亿!腾讯云中标宝安区“智慧健康一体化”大单广东篇:加快培育发展先进材料产业集群等十大战略性支柱产业集群、十大战略性新兴产业集群特斯拉:Giga Berlin is the machine that builds the machine剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态复旦放大招,国内首个类ChatGPT大模型开放测试!《流浪地球》MOSS照进现实面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍字节参战!火山引擎推出大模型训练云平台,自研DPU实例性能提升3倍Ferrari CEO compliments Tesla for shaking up the automotive indu当GPT-4反思自己错了:性能提升近30%,编程能力提升21%国内大模型争霸赛,你最看好哪家?这是你心目中的大模型排名吗?阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlBlue Origin makes a big lunar announcement 。。。腾讯加入 AI 大战,首发国内最强显卡,性能提升 3 倍谷歌将推新版大模型;抖音发布AIGC平台规范;宇视推出行业大模型 | AIGC日报搞颜色,一年躺赚7000万美元!腾讯、华为都是他的客户刚刚!腾讯重磅宣布,华为也有大消息!9000亿巨头"杀疯了","军备竞赛"打响?谷歌模型支持手机上跑Stable Diffusion;普华永道砸10亿美元投资AIGC;天翼云将推出大模型丨AIGC大事日报【动脉严选新品鉴第12期】腾讯健康组学平台:为基因测序行业提供腾讯云整体解决方案之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?国内首款存算一体大算力芯片,瞄准智能驾驶!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。