Redian新闻
>
三种8卡GPU评测Llama2:解密大模型训练、微调和推理运行时的性能问题

三种8卡GPU评测Llama2:解密大模型训练、微调和推理运行时的性能问题

公众号新闻
©作者 | HKUST&DAMO TECH
来源 | 始智AI wisemodel



始智AI wisemodel.cn社区已上线2个月,是类huggingface社区的产品,将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划,大家自己研发的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎同步发布到国内wisemodel.cn社区,方便大家更容易获取和使用。


大型语言模型(LLMs)在学术和工业界都取得显著进展,推动了开源框架和技术的更新,以加速 LLMs 的训练和应用。然而,在不同硬件和软件配置下,性能差异显著。


香港科技大学(广州)褚晓文教授团队与北京大模科技研发团队合作对不同大小 LLMs 在多种 GPU 平台上的性能进行了基准测试,包括各种优化技术,还深入分析了 LLMs 的子模块,包括计算和通信操作。这项工作旨在帮助用户和研究人员更好地理解和选择 LLMs 的配置,以及发现进一步优化性能的潜在机会。


论文标题: 
Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models

论文链接 : 

https://arxiv.org/abs/2311.03687



性能评估问题
LLMs 投入生产包括预训练、微调和服务三个主要阶段。预训练是最耗时阶段,通常需要上千显卡以及数月。微调阶段则针对特定任务调整模型。最后将模型作为网络服务部署,提供推理结果。

然而,LLM 框架和优化技术在不同硬件上的性能仍有待探索。重要的问题包括:特定硬件配置的需求、时间成本、启用的优化技术,以及现有系统是否充分利用了 GPU 资源。为此,该研究在不同 GPU 服务器上对 LLM 流程的运行时和内存性能进行了基准测试,涵盖了不同框架、硬件、优化技术的性能评估,及对模型模块和操作的详细分析。

▲ 从微调到部署LLaMA2模型的完整流程


测试方法

全面的基准测试方法评估了 Llama2 模型在三种 8 卡 GPU 平台(NVIDIA A800、RTX4090 和 RTX3090)上的性能。这些平台代表市场上不同级别的高性能计算资源。测试聚焦于预训练、微调和服务三个阶段,使用多种性能指标,如端到端步骤时间、模块级时间和操作时间,以深入分析 LLMs 的时间效率。目的是全面理解 LLMs 在不同硬件上的表现,并为其优化提供洞见。



预训练

这部分主要分析了不同规模模型(7B、13B、70B)的预训练性能,主要关注迭代时间或吞吐量和内存消耗和模块级和操作级的微基准测试。
3.1 端到端性能分析 
DeepSpeed 的训练速度优势主要归因于其数据并行训练的效率。但是,同等批量大小下,DeepSpeed 相较于基于张量并行的 Megatron-LM 消耗更多 GPU 内存。
▲ Megatron-LM与DeepSpeed比较
3.2 不同GPU平台的扩展效率 
基于 DeepSpeed 和量化技术研究不同硬件平台的扩展效率,结果表明:A800 平台几乎实现了线性扩展;而 RTX4090 和 RTX3090 平台的扩展效率略低,其中 RTX4090 比 RTX3090 高 4.9%。在 RTX3090 上,使用 NVLink 连接可以额外提升约 10% 的扩展效率。
▲ 在不同GPU上进行数据并行训练的扩展性
3.3 硬件及优化技术对训练性能的影响 

研究也通过 DeepSpeed 来评估不同内存和计算效率高的方法对训练性能的影响,结果如下表所示。

▲ 在四种类型的8-GPU平台上,我们比较了基线设置(Naive)、ZeRO-2(Z2)和3(Z3)、卸载(O)、量化(Q)、激活值重计算(R)以及FlashAttention(F)在预训练性能上的表现。我们报告的吞吐量单位为10^3 tokens/s (T/s),每个吞吐量值的右下角显示了三次独立运行的平均值和标准差,以及峰值GPU内存使用量(M)以GB为单位。在每次运行中,吞吐量在30步预热步骤后的100步中取平均。"-" 表示内存溢出(OOM)。
3.3.1 硬件对预训练的影响 
在考虑硬件影响时,A800 的吞吐量通常是 RTX4090 和 RTX3090 的 50 倍。但在使用量化技术时,RTX GPU 的性能可达到 A800 的一半。在 RTX4090 和 RTX3090 的比较中,RTX4090 性能比 RTX3090 高出 50%,而 RTX3090 上的 NVLink 能提升约 10% 的性能。 
3.3.2 解析子模块 
为了深入理解预训练性能,该研究对预训练过程进行了模块化分析。有趣的发现是,约 37% 的时间被用于优化器。后续将计划进一步探讨这一现象,特别是重计算的影响。 

该研究也对前向和后向阶段进行了时间分析。在 Llama2 模型中,decoder layer 占据了大部分计算时间。特别是,依赖于通用矩阵乘法(GEMM)的多层感知器(MLP)和查询、键、值(QKV)投影是最耗时的部分。此外,RMSNorm 和 RoPE 模块也因大量元素级操作而占用了相当时间。在后向阶段,由于梯度在 GPU 间同步,会产生额外的通信开销。

▲ Llama2-7B在前向和后向阶段的模块时间消耗和百分比。解码器层中模块的时间消耗是32次迭代的累积时间。


3.3.3 FlashAttention的影响 

下表显示,FlashAttention 可以分别提高 34.9% 和 24.7% 的注意力模块速度。


微调

在微调方面,该研究专注于对比 LoRA 和 QLoRA 在不同模型大小和硬件设置下的性能,发现 LoRA 的吞吐量是 QLoRA 的两倍,但 QLoRA 的内存消耗仅为 LoRA 的一半。结合 FlashAttention 和 ZeRO-2 使用时,LoRA 微调吞吐量提升 20% 和 10%。微调 Llama2-13B 模型比 Llama2-7B 模型吞吐量下降约 30%。使用所有优化技术,甚至 RTX4090 和 RTX3090 也能微调 Llama2-70B 模型,总吞吐量约为每秒 200 个 tokens。

▲ 在4种类型的8-GPU服务器上,包括A800、RTX4090、RTX3090 w/ NVLink和RTX3090 w/o NVLink,我们比较了LoRA (L)、QLoRA (QL)以及不同优化方法的微调性能,包括ZeRO stage 2和3 (Z2, Z3)、FlashAttention (F)、卸载 (O)、激活重计算 (R)。批处理大小固定为1。我们报告了三次独立运行中的平均吞吐量10^3 tokens/s (T/s)及其标准差,以及峰值GPU内存使用量 (M)(以GB为单位)。

推理
5.1 端到端推理性能分析 
5.1.1 吞吐量分析 
在比较不同硬件平台和推理框架的吞吐量时,发现 TGI 在 24GB GPU 上效果好,而 LightLLM 则在高性能 GPU(如 A800/A100 系列)上表现最佳。
5.1.2 延迟比较
在比较同一 GPU 平台上不同推理框架的延迟时,发现 RTX3090 和 A800 上 TGI 有最低延迟,其次是 LightLLM,vLLM 延迟最高。另外,消费级 GPU 上推理时间随模型参数增长而增加,尤其在 RTX4090上,Llama2-7B 与 Llama2-70B 推理时间差可达 13 倍。而在 A800 上,大模型推理时间差较小,显示 A800 能有效处理大型 LLMs,70B 模型未达其性能极限。

▲ Llama2-7B在RTX3090和A800

▲ RTX4090上7B vs 70B


5.1.3 推理总结 
在吞吐量和延迟方面,A800 平台优于 RTX3090 和 RTX4090。RTX3090 相对于 RTX4090 有轻微优势。三个推理框架在吞吐量上表现类似,但 TGI 框架在延迟上更好。在 A800 上,LightLLM 吞吐量最高,延迟与 TGI 接近。 
5.2 微基准测试 
5.2.1 通信分析 
该研究也测试了 NVLink 的高速通信能力。测试显示,装备 NVLink 的 RTX3090 在 AllGather 和 ReduceScatter 通信操作中性能优于未装备 NVLink 的同型号。


在数据并行中,后向阶段使用 AllReduce 同步权重,而 ZeRO-2 和 ZeRO-3 分别使用 Reduce 和 ReduceScatter 原语。结果表明,NVLink 对通信效率有显著提升。

实验结果显示,ReduceScatter 内核在处理小数据量时启动时间占主导,而大数据量时性能依赖于带宽。ZeRO-2 和 ZeRO-3 使用 AllGather 更新参数,其内核性能也类似。



结论
该研究在 A800-80G、RTX4090 和 RTX3090 的 8 卡 GPU 硬件平台上对 LLMs 的预训练、微调和部署性能进行了基准测试,分析了影响总运行时间的关键模块和操作。这为用户选择硬件、软件和优化技术配置提供了重要信息,有助于 LLMs 的预训练、微调和部署,同时也为系统性能改进提供了优化机会(更详细内容欢迎大家阅读原文)。
在中国做开源社区是件非常充满挑战的事,也是一项需要长期坚持和投入的工作,希望大家多多支持,多点包容和多点耐心!欢迎扫码添加 wisemodel 运营,加入始智 AI-wisemodel 社区用户群,添加请注明“姓名-单位-职位”信息。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​开源模型在竞赛数学MATH上首次突破50%,清华、微软联合推出工具集成推理语言模型最强大模型训练芯片H200发布!141G大内存,AI推理最高提升90%,还兼容H100哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展线上闭门会上新!北航、MIT、莫纳什和商汤四位专家直播探讨大模型微调与推理部署甜蜜的故乡-遥远的乡情iQOO 12:影像史诗级进化,一款更精致的性能旗舰Meta 宣布改组旗下 AI 部门,正训练自家下一代大语言模型 Llama 3;国内首个网络安全大模型评测平台发布丨AIGC日报比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4许老板 兔死狗烹中国经济是否像30年前日本一样坏?有可能更糟!单GPU运行数千大模型!UC伯克利提出全新微调方法S-LoRA打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训老师木新创业项目曝光:瞄准大模型成本问题,推理性能将得到数量级的提升阿里云联手英特尔「压榨」CPU性能,跑起了72B大模型推理大模型并行推理的太祖长拳:解读Jeff Dean署名MLSys 2023杰出论文“我们比云厂商做得好”!老师木新创业项目曝光:瞄准大模型成本问题,推理性能将得到数量级的提升小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性斯坦福NLP提出EFT:如何不实际微调而“假装”微调了LLM?大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?大模型落地最后一公里:111页全面综述大模型评测S-LoRA:一个GPU运行数千大模型成为可能无需经验, GPT大模型训练兼职丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一GLM-4国产大模型上线 称整体性能逼近GPT-4 降低推理成本魔都妈妈课外花费百万都在“鸡”什么?斯坦福AMC教练、科创竞赛专家、顶级辩论教练、平和牛娃妈的“高端鸡娃局”来了!学习林黛玉经典语录(三)MetaMath:新数学推理语言模型,训练大模型的逆向思维6018 血壮山河之随枣会战 南昌之战 11国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上大模型推理乘上RISC-V快车?国内AI芯片创企推大模型系列一体机
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。