Yandex 开源 LLM 训练工具，可节省高达 20% 的 GPU 资源

2024-06-16 06:06

2024 年 6 月 11 日，莫斯科跨国科技公司 Yandex 最近推出了一种用于训练大型语言模型 (LLM) 的开源方法 YaFSDP，用于增强 GPU 通信并减少 LLM 训练中的内存使用量。

LLM 训练依赖于组织成集群的大量 GPU，互连的图形处理器阵列可以执行训练具有数十亿个参数的模型所需的大量计算。在集群中的处理器之间分配计算需要不断通信，这通常会成为“瓶颈”，减慢训练过程并导致计算能力的低效使用。

为了克服这一瓶颈，Yandex 开发人员创建了 YaFSDP，来改善 GPU 通信并优化学习速度和性能的方法。

YaFSDP 的工作原理是消除 GPU 通信效率低下的问题，从而优化网络使用率并减少内存负载。它确保训练时只需要必要的处理器内存，并使 GPU 交互不间断，从而促进进一步的优化，例如最大限度地减少处理器通信时间。这可以显著提高性能和内存效率。

YaFSDP 是 FSDP 的增强版，在 LLM 训练中最耗通信的阶段（如预训练、对齐和微调）中，其表现优于 FSDP (Fully Sharded Data Parallel，全切片数据并行）方法。

官方表示，与 FSDP 相比，YaFSDP 训练速度提升最高可达 26%，具体取决于架构和参数量。通过使用 YaFSDP 减少 LLM 的训练时间可以节省高达 20% 的 GPU 资源。与 Yandex 的其他性能增强解决方案结合使用时，该方法可将某些模型的训练过程加速高达 45%。

YaFSDP 方法可以有效应用于基于 transformer 的多层文本生成模型（多层感知器）。Mikhail Khruschev 表示：“YaFSDP 在 130 亿至 700 亿个参数的模型上表现出色，在 300 亿至 700 亿个参数范围内表现尤为惊人。目前，YaFSDP 最适合基于 LLaMA 架构的广泛使用之开源模型。”

与 FSDP 相比，YaFSDP 在 Llama 2 和 Llama 3 上表现出的最终提速表明训练效率显著提高，在 Llama 2 70B 和 Llama 3 70B 上分别达到 21% 和 26%。

“目前，我们正在积极尝试各种模型架构和参数大小，以扩展 YaFSDP 的多功能性，”Yandex 高级开发专家、YaFSDP 团队成员 Mikhail Khruschev 指出，“我们很高兴与全球 ML 社区分享我们在 LLM 训练方面的研发成果，希望能为全球研究人员和开发者获得更多的开源工具和更高的效率做出贡献。”

在大型语言模型 (LLM) 训练期间，开发人员必须有效管理三种主要资源：计算能力、处理器内存和处理器通信。YaFSDP 保护了前两个资源，这有助于加速 LLM 训练过程。

YaFSDP 并不是 Yandex 的第一个开源工具。Yandex 之前曾分享过其他几款在 ML 社区中很受欢迎的工具，包括：CatBoost，一种高性能的基于决策树之梯度提升库；YTsaurus，分布式存储和处理的大数据平台。AQLM，先进的量化算法之一，用于大型语言模型的极限压缩；Petals，一个旨在简化 LLM 训练和微调过程的库。

Yandex 承诺为全球人工智能社区的发展做出贡献，将 YaFSDP 开源提供给全球的 LLM 开发人员和人工智能爱好者即是履行此承诺的其中一步。

内容推荐

大模型已经在各种领域有着广泛的应用和实践，如BI、企业生产、AIoT、编程、数据分析等场景。各个企业当前的探索为大家在落地时解决各种问题提供了重要参考。「AI前线」整理了AICon 北京 2024上大模型在不同领域的应用探索和 Agent 实践相关PPT以及资料。关注「AI前线」，回复关键词「应用探索」即可免费获取。