越过智算云发展拐点！解读天翼云智算服务，用“组合拳”突围大模型训推难题

公众号新闻

2024-07-09 11:07

▲头图由AI生成

天翼云万卡方案驱动万亿参数大模型训练

作者 | 香草

编辑 | 漠影

在大模型热潮的推动下，AI算力呈现出爆炸式的增长，为云计算行业带来新的机遇。

但同时，如何满足巨大的算力需求，提供高性能、强稳定的解决方案等，也为云厂商带来新的挑战。云计算厂商如何在智能云赛道中突围？

智东西7月9日报道，在2024世界人工智能大会（WAIC 2024）期间，天翼云科技有限公司董事长、总经理胡志强带来主题演讲，深入解读了天翼云在智算资源供给、智算服务能力、模型应用生态三个方面的能力。

▲胡志强在WAIC上演讲

具体来说，天翼云自建了丰富的智算资源，并汇集了大量社会智算资源；基于一体化计算加速平台云骁、一站式智算服务平台慧聚，能承载万亿参数规模的基础大模型训练及行业大模型训练推理；推出AI云电脑，构建红云大模型开发者社区，打造开放的模型生态。

其中在智算服务方面，天翼云聚焦基础大模型、行业大模型两大场景，分别提供模型开发训练、训练推理等服务，通过云骁、慧聚两大平台打造了万卡集群的平台化能力和解决方案能力，为客户提供高效、便捷、稳定的智算服务。

天翼云智算服务具体能解决哪些行业痛点？是否已经在企业中落地并取得一定成效？带着这些疑问，我们试图寻找答案。

01.

天翼云万卡方案破解三大挑战

可训万亿参数基础模型

现阶段，大模型的参数量在Scaling Law的推动下持续增长。以OpenAI等第一梯队的大模型公司为例，其一直在扩充训练数据、加大算力投入、堆积模型参数等方向上前进，尤其是基础大模型，呈现出参数越来越大的趋势。

而随着模型参数的增加，对计算资源、存储能力和网络带宽等需求也随之增加，这对AI基础设施提出高要求。

胡志强谈道，天翼云在支撑中国电信星辰大模型训练过程中，遇到的挑战主要集中在三个方面：算力、性能和稳定性。

算力方面，要训练一个万亿参数大模型，至少需要单集群6000卡，甚至万卡以上规模，并通过同等规模的亚毫秒延时级RDMA（远程直接数据存取）网络，才能支撑训练过程中PB级的数据存取。

性能方面，大规模的分布式训练对算力、存储、网络协同难度大，模型训练中生成的Checkpoint文件大、读写速度慢等诸多性能问题，导致大模型训练综合效率低下。

稳定性方面，AI基础设施软硬件技术栈复杂，任何中断或错误都可能导致训练失败，重新开始不仅浪费时间，也增加了成本。例如，硬件故障率高，且故障难以发现、恢复速度慢，严重影响大模型训练效率。

针对这些痛点，云计算厂商应如何破解？

天翼云交出的答卷，是面向超大规模参数基础大模型开发训练的万卡解决方案。

具体来说，天翼云基于单集群万卡智算中心，结合一体化计算加速平台云骁、一站式智算服务平台慧聚，从基础设施到平台，构建了基础大模型训练解决方案。

▲天翼云智算服务相关成果

在算力层面，天翼云以可横向扩展的PB级并行文件存储服务（HPFS），提供高性能、亚毫秒级时延的并行文件存储能力；以超大规模二层RDMA网络，满足基础算力的需求；同时，通过对计算、内存、通信等方面的多维优化，提升了综合算效。

在性能层面，天翼云对AI框架进行升级，使编译效率翻倍；通过拓扑感知调度，大幅提升集合通信效率；基于存储异步加速，实现Checkpoint文件快速保存及加载。

在稳定性层面，基于对200多项指标的实时监控，模型训练单次不中断运行可达近一周时间；且一旦发生故障，可迅速断点续训，实现高稳定可用运行。

基于国产万卡智算集群和自研智算平台，天翼云智算服务已经具备支撑万亿参数基础大模型训练的能力。

从系统工程上来看，要构建国产万卡集群，并不只是堆叠一万张卡这么简单，还涉及到硬件设计、软件架构、网络通信、能源管理以及系统稳定性等多个方面的综合考量，包括超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等技术难题。

天翼云提供的万卡解决方案，展示了国产算力如何通过技术创新来应对这些挑战，这不仅对天翼云自身是巨大的技术突破，也为整个行业提供了启示。

02.

一站式智算服务

行业大模型训推三步走

在本届WAIC上，除了众多基础大模型的迭代更新引人注目外，行业大模型如何推动技术落地，也成为备受关注的话题。

不同于基础大模型注重通用性和广泛适用性，行业大模型更侧重于特定行业的定制化需求。在落地层面，尤其是面向企业场景，行业大模型发挥了至关重要的作用。

而在技术层面，基础大模型的开发重点在于模型的训练过程，包括模型架构的设计、大规模数据集的构建等；行业大模型则更侧重于训练推理过程，即如何对训练好的模型面向不同场景进行微调，并应用到实际场景中，解决具体问题。

行业大模型的训推服务同样面临三大挑战：训练部署工程化复杂、训推效率低、训练中断频繁。

▲配图由AI生成

基于云骁、慧聚两大平台，天翼云面向行业大模型训推场景提供一站式的智算服务，针对性地破解这三个难题。

在训练部署工程方面，行业大模型通常需要处理特定领域的复杂数据，这要求模型训练和部署过程中必须考虑数据的多样性和特定性，这带来数据的清洗、标注，模型的适配、训练、调优、量化及部署等7个环节的难题，因此，自动化流程的建立对于简化训练部署至关重要。

针对这些复杂环节，慧聚平台提供全栈工具链，通过预置行业数据集、支持国内外主流AI加速硬件、预置多个基础大模型等能力，实现大模型训推三步走。客户只需要经过选数据、选硬件、选模型三个步骤，就可以实现大模型精调。

在训练效率方面，大模型的训推过程需要大量计算资源，如何高效利用这些资源、避免资源浪费，是提高训推效率的关键。

例如，在训推过程中，数据需要在不同的处理单元之间传输，数据传输的效率直接影响到整体的训推速度。针对模型参数量大、算子运行效率低、模型开箱性能低等因素，天翼云通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术，大幅提升训练效率。

为了进一步优化模型结构和算法、节省算力成本、提高模型运行速度，天翼云使用了模型量化压缩、自研推理加速算子库、自硏AI推理加速框架等核心技术，让模型推理效率得到显著提升。

在训练连续性方面，特别是在大规模训练过程中，硬件故障是导致训练中断的常见原因；同时，软件或配置错误、数据输入错误、运行环境不稳定等问题也常常导致训练的中断。

如何在全链路感知故障并准确定位，成为解决训练频繁中断难题的重要挑战。

天翼云通过全链路故障分钟级检测、定位、告警，全链路日志监控与可视化、断点续训快速恢复等核心技术，实现训推过程全链路监控。

基于一站式的智算服务能力，天翼云为国内领先的AI公司提供AI基础设施层服务，缩短其语音识别模型训练时间周期并降低算力成本；在科研、制造业等领域，天翼云智算服务也已经落地，帮助客户进行大模型训练和微调，降低科研、科技创新成本。

随着AI技术落地的需求增长，行业大模型也将迎来更广阔的应用前景。天翼云提供的一站式智算服务能力不仅能帮助企业客户突破瓶颈，也能在实践过程中不断汲取经验再进化，推动技术迭代创新。

03.

结语：国家队出手

智算云助力产业数智升级

在WAIC 2024现场，天翼云以最新的智算成果亮相，展出了单体万卡液冷智算池，息壤、云骁、慧聚三大智算平台，AI云电脑以及基于天翼云智算云底座的星辰大模型等技术成果。

作为云服务国家队，天翼云没有拘泥于现有的技术和市场格局，而是以开放的心态和前瞻的视野，积极探索和引领云计算和AI领域的新趋势。基于丰富的智算资源储备、强大的智算服务能力以及开放的模型应用社区，天翼云正在加速布局全新的智算云生态，为千行百业向智、向新发展注入国云力量。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章