Redian新闻
>
700亿参数LLaMA2训练加速195%,开箱即用的8到512卡LLaMA2全流程方案来了!

700亿参数LLaMA2训练加速195%,开箱即用的8到512卡LLaMA2全流程方案来了!

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

LLaMA2训练微调推理,大提速了!

针对700亿版本,训练加速195%

而且还能基于云平台实现无代码训练个性私有化模型,并一键部署

超活跃的大模型系统开源项目Colossal-AI又上新了!

可提供开箱即用的8到512卡LLaMA2训练、微调、推理方案,并提供一站式云平台解决方案。

大模型开发和应用落地成本,再降亿点点~

LLaMA2训练加速195%

得益于开源特性,LLaMA系列大模型在短短几个月内已经衍生出诸多应用和项目,也成为很多公司企业应用大模型的首选。

最新的7B~70B LLaMA2大模型,进一步提高了语言模型的基础能力。

但由于LLaMA2的预训练预料大部分来自英文通用知识,而仅用微调能够提升和注入的领域知识和多语言能力也相对有限

此外,高质量的专业知识和数据集通常被视为各个行业和公司的核心资产,仅能以私有化形式保存。

因此,以低成本预训练/继续预训练/微调LLaMA2系列大模型,结合高质量私有化业务数据积累,帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。

但LLaMA2大模型仅发布了原始模型权重与推理脚本,不支持训练/微调,也未提供数据集。

所以,针对这些现有问题,Colossal-AI开源了针对LLaMA2的全流程方案并具备高可扩展性,支持从70亿到700亿参数的模型,从8卡到512卡都可保持良好的性能

在使用8卡训练/微调LLaMA2-7B时,Colossal-AI能达到约54%的硬件利用率(MFU),处于业界领先水平。

而对于预训练任务,以使用512张A100 40GB预训练LLaMA2-70B为例,DeepSpeed ZeRO3策略因显存不足而无法启动,仅能通过速度衰减较大的ZeRO3-offload策略启动。Colossal-AI则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速195%。

Colossal-AI LLaMA-2训练/微调方案的高性能来源于新的异构内存管理系统Gemini和高性能算子(包括Flash attention 2)等系统优化。

新Gemini提供了高可扩展性高鲁棒性高易用性的接口。其Checkpoint格式与HuggingFace完全兼容,减小了使用和转换成本。其对于切分、offload等的设置更加灵活且易用,能够覆盖更多硬件配置下的LLaMA-2训练/微调任务。

仅需数行代码即可使用:

from colossalai.booster import Booster
from colossalai.booster.plugin import GeminiPlugin
plugin = GeminiPlugin()
booster = Booster(plugin=plugin)
model, optimizer, train_dataloader, criterion = booster.boost(model, optimizer, train_dataloader, criterion)

ShardFormer多维细粒度并行

虽然对于主流硬件条件和大多数模型,Colossal-AI的新Gemini已经能够提供良好的性能,但是对于一些极端硬件条件,或者是特殊模型,可能仍然需要多维并行的细粒度优化。

现有其他方案通常需要分布式系统资深专家,手动对代码进行大规模重构和调优,Colossal-AI的ShardFormer提供了开箱即用的多维并行和算子优化的能力,仅需数行代码即可使用,在单机/大规模集群上都能提供良好的性能。

from colossalai.booster import Booster
from colossalai.booster.plugin import HybridParallelPlugin
from transformers.models.llama import LlamaForCausalLM, LlamaConfig
plugin = HybridParallelPlugin(tp_size=2, pp_size=2, num_microbatches=4, zero_stage=1)
booster = Booster(plugin=plugin)
model = LlamaForCausalLM(LlamaConfig())
model, optimizer, train_dataloader, criterion = booster.boost(model, optimizer, train_dataloader, criterion)

Colossal-AI ShardFormer支持包括LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM在内的主流开源模型,也可以直接使用Huggingface/transformers模型导入,Checkpoint格式也与HuggingFace完全兼容,对比Megatron-LM等需重写大量代码的方案,大大提升了易用性。

对于并行策略,已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero数据并行等,并可将多种并行方式组合使用,只需通过简单的配置命令,即可适配各种复杂的硬件环境/模型。

同时,其内置了各种高性能算子,免去了繁琐的兼容/配置过程。其中包括:

  • Flash attention 2

  • Memory efficient attention (xformers)

  • Fused Normalization Layer

  • JIT kernels

云平台大模型一站式解决

为了进一步提升开发和部署效率,Colossal-AI团队还将上述系统优势与算力结合,提供Colossal-AI云平台,提供廉价算力和开箱即用的AI主流应用,包括对话大模型,多模态模型,生物医药等,现已开启内测。

通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等,AI开发者可以继续专注于AI模型与算法设计,以更低成本更快速度完成AI大模型助力业务降本增效。

用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署。相关的应用都经过Colossal-AI团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。

感兴趣的童鞋可访问Colossal-AI GitHub地址查看详情,云平台可通过搜索“Colossal-AI Platform”了解更多~

参考链接:
https://www.hpc-ai.tech/blog/70b-llama2-training

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
直播预告 | 阿里巴巴NLP算法专家王潇斌:开箱即用的文本理解大模型斯大林孽正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完10万美元+26天,一个低成本千亿参数LLM就诞生了腾讯开源的Markdown编辑器,开箱即用、轻量简洁、易扩展一个开源方案,极速预训练650亿参数LLaMA昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源OpenAI假设被推翻!给定计算量,较小模型打败大模型,Llama 2训练与GPU计算关联度1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型这首歌 这阵雨大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维开学季 | 新版义务教育课程方案里,藏着孩子学好数学的关键碾压Llama2!微软13亿参数phi-1.5,单个A100训练,刷新SOTA留几个尸字头字在生癖字里吧。——— 读李承鹏《嘘,吃饭的时候不要说话》32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了LLM as Co-pilot:AutoDev 1.0 发布,开源全流程 AI 辅助编程开箱即用~ 神器 Prometheus 如何深入浅出?不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星电影全流程训练营开课倒计时三天免费、可商用,阿里云开源70亿参数通义千问大模型Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败DiffusionAMD王宏强:700亿参数大模型单个GPU部署,做好AI软件和生态实现“开箱即用”丨GACS 20231800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布【时间简史】夜谭手记之时空篇首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT苹果已研究生成式AI多年/阿里云开源通义千问70亿参数模型/新一代Switch最早本月宣布传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作The lives and stories of 56 signatories of the Declaration of In7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。