「大力未必出奇迹」:AI算力集群背后的逻辑透露了哪些关键要素?
解读要点
1. 构建 AI 算力集群这事儿为什么很重要? 2. 从算力到 AI 算力,再到 AI 算力集群,AI 算力集群到底是什么?包含哪些部分? 3. AI 算力集群并非「越大越好」?有哪些必须要搞清楚的「盲区」? 4. 从业内解读看,三大 AI 云服务厂商的布局有何不同?
为什么构建 AI 算力集群很重要?AI 算力集群和大模型之间的关系是什么?
1、今年 3 月,据外媒 Information 消息,微软和 OpenAI 计划筹备数据中心项目,该项目包含一个拥有数百万专用服务器芯片的超级计算机,项目成本可能高达 1000 亿美元。同时,据传,科威特也正在建造一个 1GW、1.4M H100 等效的集群。
2、据 OpenAI 前研究员、前超级对齐部门成员 Leopold Aschenbrenner 所写的报告[14] 估计,GPT-4 集群的建设成本为 5 亿美元,而随着模型规模的增长,算力集群的建设支出将随之增长。未来全球 GPU 生产的更大比例可能会流向最大的训练集群,例如,因为只有少数一家领先的实验室被整合,而不是许多拥有前沿模型规模集群的公司。
3、而 AI 模型的规模的增长与算力需求成正比,因为更复杂的模型需要更强大的计算资源来训练和运行。算力集群的性能直接影响 AI 模型的性能,更高性能的算力集群可以支持更快速、更高效的模型训练,使得 AI 模型能够处理更复杂的任务,提供更准确的预测和决策。
① 据工业和信息化部的研究报告预测,到 2024 年年底,我国将有 5%~8%的企业大模型参数从千亿级跃升至万亿级,算力需求增速会达到 320%。同时,国际数据公司 IDC 与浪潮信息发布的《2023-2024 年中国人工智能计算力发展评估报告》显示,我国智能算力规模年复合增长率将高达 33.9%。
4、但大型 AI 算力集群的建设并非易事,从大模型训练到 AI 算力集群,还包括一环,即电力。对于训练集群来说,钱也许不是限制因素,电力才是。
① 「我在哪里找到 10GW?」是旧金山近期的热门话题。任何计算人员都在考虑的是确保电力、土地、许可和数据中心建设。等待 GPU 可能需要一年的时间,但这些的交货期要长得多。而各厂几乎没有多余的容量,电力合同通常是长期锁定的,而建造一个新的吉瓦级核电站需要十年。
1、首先,先弄清楚概念。
① 从狭义角度来讲,算力是软硬件配合执行某种信息处理需求的能力;
② AI 算力是面向人工智能算法模型训练与运营服务的计算机系统能力,通常由 GPU、ASIC、FPGA、NPU 等各类专用芯片承担计算工作;
③ AI 算力集群是专门为人工智能应用提供大规模计算资源的基础设施,由大量的处理器(如 CPU、GPU 或专用的 AI 加速器)组成,提供高性能的计算能力,以满足深度学习、大模型等复杂算法的需求。通过采用先进的 AI 芯片、不断地优化算法以及提高数据传输效率,来实现算力的提升。
2、AI 算力集群主要由 AI 芯片等硬件架构、操作系统组成。其中,
① 硬件架构包括 AI 芯片、内存、CPU 处理器、存储、集群网络等关键组件。AI 芯片是 AI 算力集群的核心,分为 GPU、FPGA、ASIC、神经拟态芯片,通常使用的是英伟达的 GPU;由于绝大多数 AI 算力集群都是采用英伟达 GPU 算力卡搭建,因此服务器主要采用英伟达的 DGX、HGX 服务器;集群网络主要是 RDMA 网络,RDMA 一种高带宽低延迟的大规模通信网络,适用于 AI 算力集群。
② 除了硬件架构外,还包括操作系统对软件进行优化,以提高计算效率,包括操作系统、虚拟化技术、并行计算库、负载均衡监控与管理等。操作系统在 AI 算力集群起到承上启下的作用,对下管理着包括 CPU 处理器、AI 加速卡、内存、磁盘等硬件,对上为应用软件提供算力支撑。
3、从产业角度来看,AI 算力产业链的上、中、下游分别基础软硬件、算力网络及平台、各类应用场景。
① 上游基础软硬件是计算力、存储力、运载力的最基本单元,也是决定算力质量的根本环节。主要包括基础硬件(如 CPU、GPU、存储器等)、基础软件(如操作系统、数据库、中间件等)及各类计算设备(服务器、板卡、终端等)和网络设备(交换机、路由器等)。上游主要由设施、设备、软件供应商、网络运营商构成;
② 中游算力网络及平台是为下游应用提供算力服务的核心环节,主要是各类算力基础设施,以及基于基础设施开展的各类算力服务和安全服务,主要由基础电信企业、第三方数据中心服务商、云计算厂商构成;
关于 AI 算力集群,有哪些必须要搞清楚的「盲区」?
1、集群算力如何计算。
① 集群有效算力 (Q) 由单个 GPU 峰值算力 (C) 、GPU 数量 (N)、算力利用率 (u)三个因素共同决定,即 Q = C * N * u。在大模型训练时,算力利用率 (u) 即 MFU (Model FLOPS Utilization),是关键,MFU 代表使用 N 个 GPU 的计算任务所能获得的有效算力。
2、算力集群并非越大越好。
① 在理想情况下,集群总有效算力与 GPU 卡数量呈线性增长,但增长受限于单个 GPU 的利用率,可能较低。集群的性能看两个指标......
② 影响集群加速比的因素包括峰值算力、显存容量、互联方式和网络架构等,在优化情况下,线性加速比可达 90% 以上。大规模 GPU 集群的平均算力利用率仅约为 50%......
订阅机器之心Pro会员通讯👇,查看完整解读
微信扫码关注该文公众号作者