国际科技财经博客移民网络热点娱乐民生时事公众号

>

Galvatron项目原作解读：大模型分布式训练神器，一键实现高效自动并行

Galvatron项目原作解读：大模型分布式训练神器，一键实现高效自动并行

公众号新闻

2023-01-14 04:01

目前「大模型」在 AI 领域的多种应用场景都在大放异彩，其中基于 Transformer 的大规模预训练模型已经成为了当前基础模型（Foundation Model）的核心架构。与此同时，这类稠密大模型拥有着动辄数十亿、百亿甚至万亿规模的参数量，面临高昂的计算、存储、以及通信成本，为 AI 基础设施带来了巨大的挑战。人们研发了很多工具（如 Megatron、DeepSpeed、FairSeq 等）来实现如数据并行、张量模型并行、流水并行、分片数据并行等各种并行范式。但这种粗粒度的封装逐渐难以满足用户对系统效率和可用性的需要。如何通过系统化、自动化的方式实现大模型分布式训练，已经成为了当前 MLSys 领域最为重要的问题之一。

最近已经有一些系统开始提及“自动并行”的概念，但它们大部分都还停留在对 API 和算子进行工程上的封装，仍然依赖用户人工反复尝试或系统专家经验才能完成部署，并没有从根本上解决自动并行难题。近日，北大河图团队提出了一套面向大模型的自动并行分布式训练系统 Galvatron，相比于现有工作在多样性、复杂性、实用性方面均具有显著优势，性能显著优于现有解决方案，论文成果已经被 VLDB 2023 接收。

机器之心最新一期线上分享邀请到了北大河图团队负责人苗旭鹏，为大家解读他们近期的工作 Galvatron。

分享主题：大模型分布式训练神器 Galvatron，一键实现高效自动并行

分享嘉宾：苗旭鹏，卡内基梅隆大学博士后研究员，博士毕业于北京大学计算机学院，河图（Hetu）团队负责人，主要研究方向包括机器学习系统、数据管理和分布式计算，在SIGMOD、VLDB等国际顶级学术会议和期刊上发表论文20余篇。

分享摘要：Galvatron是北大河图团队推出的业界首个囊括四种主流并行方法的全自动并行训练系统，提出了一套创新性的高效自动并行探索方法。常规PyTorch用户无需付出任何额外安装调试代价，就可以轻松实现自动并行。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/galvatron

2）论文链接：

https://www.vldb.org/pvldb/vol16/p470-miao.pdf

3）代码仓库：

https://github.com/PKU-DAIR/Hetu/tree/main/tools/Galvatron

4）机器之心报道：

https://mp.weixin.qq.com/s/levwBKhbp3dJAIslvqyZAQ

加群看直播

直播间：关注机器之心机动组视频号，北京时间 1 月 16 日 19:00 开播。

交流群：本次直播设有 QA 环节，欢迎加入本次直播交流群探讨交流。

如群已超出人数限制，请添加机器之心小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「Galvatron」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向，随时告诉我们吧：https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

FastTrack Universität 2023莱比锡大学公立语言项目招生简章诺贝尔奖看中的中国女作家 DiffusionBERT项目原作解读：掩码预训练语言模型的扩散生成探索用树莓派集群进行并行和分布式计算 | Linux 中国应用谷歌云实现高效视频转码和分发深入理解Pytorch中的分布式训练 NeurIPS 2022 | 序列（推荐）模型分布外泛化：因果视角与求解 SparK项目原作解读：卷积模型的首个BERT预训练 MIGA项目原作解读：基于生成式预训练语言模型T5的Text-to-SQL模型第二次徒步圣路，750公里葡萄牙之路+英国之路:D01～圣路缘由如何实现高效联邦学习？跨终端、硬件加速等方案全都有先苦后甜和生日庆祝一个轻量级的分布式日志标记追踪神器，十分钟接入，非常好用！怎样让ChatGPT在其内部训练神经网络？先让它想象自己有4块3090 UniMatch项目原作解读：统一光流、立体匹配和深度估计三个任务不是谦虚，我真的不是这里带娃的天花板！华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型 C++ 实现高性能内存池项目实现 VLDB 2023 | 北大河图发布分布式训练神器Galvatron，一键实现大模型高效自动并行 VLDB 2023 | 北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行硬件预算最高直降46倍！低成本上手AIGC和千亿大模型，一行代码自动并行，Colossal-AI再升级 DAMO-YOLO项目原作解读：兼顾速度与精度的高效目标检测框架中国愤青摄影展（儿童不宜）MOAT项目原作解读：强大的可扩展视觉骨干网络基于Seata探寻分布式事务的实现方案热点解读：大模型的突现能力和ChatGPT引爆的范式转变 Jenkins+Docker 实现一键自动化部署项目！步骤齐全，少走坑路详解Redisson分布式限流的实现原理又见百小僧，.NET分布式毫秒级定时任务Sundial面世 Meta最新语言模型LLaMA论文研读：小参数+大数据的开放、高效基础语言模型阅读笔记 AudioLDM一作解读：文本生成高质量音频，单GPU即可怎样让ChatGPT在其内部训练神经网络？文末送书 | 从0到1全面探讨分布式人工智能：理论、算法与实践 2023年，用这个小物件换一个高效自律的娃 AIGC落地门槛被打下来了：硬件预算一口气降至1/46，低成本上手Stable Diffusion2.0，一行代码自动并行

热点事件追踪