Redian新闻
>
中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型

中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型

公众号新闻



  新智元报道  

编辑:好困 桃子
【新智元导读】最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉化模型,开源可商用。

LLaMA-2相较于LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了大型模型的应用想象空间。
然而,从头预训练大模型的成本相当高,被戏称「5000万美元才能入局」,这使得许多企业和开发者望而却步。那么,如何以更低的成本构建自己的大型模型呢?
作为大模型降本增效的领导者,Colossal-AI团队充分利用LLaMA-2的基础能力,采用高效的训练方法,仅使用约8.5B token数据15小时数千元的训练成本,成功构建了性能卓越的中文LLaMA-2,在多个评测榜单性能优越。
相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。
秉承Colossal-AI团队一贯的开源原则,完全开源全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架ColossalEval,以实现低成本的可复现性。
此外,相关方案还可迁移应用到任意垂类领域和从头预训练大模型的低成本构建。

开源代码与权重:https://github.com/hpcaitech/ColossalAI

性能表现


注:基于ColossalEval评分,括号中分数来源于对应模型官方发布的榜单分数,C-Eval分数来源于官网Leaderboard。
在常见的中、英文评测榜单,可以看到,在英文MMLU榜单中,Colossal-LLaMA-2-7B-base在低成本增量预训练的加持下,克服了灾难性遗忘的问题,能力逐步提升(44.47 -> 53.06),在所有7B规模的模型中,表现优异。
在中文榜单中,主要对比了CMMLU, AGIEVAL, GAOKAO与 C-Eval,效果远超基于LLaMA-2的其他中文汉化模型。尤其是与原始LLaMA-2相比,Colossal-LLaMA-2在中文能力上有了质的飞跃 (CMMLU: 32.97 -> 49.89)。
即使与其他采用中文语料,可能花费上千万元成本,从头预训练的各大知名模型相比,Colossal-LLaMA-2在同规模下仍表现抢眼。
而通过SFTLoRA等方式微调,能有效注入基座模型的知识与能力十分有限,不能较好的满足高质量领域知识或垂类模型应用的构建的需求。
为了更好的评估模型的性能,Colossal-AI团队不仅仅依赖于量化的指标,还对于模型的不同方面进行了人工的评估,以下是一些例子:
从整个训练的Loss记录来看,在利用Colossal-AI系统降本增效能力的同时,模型收敛性也得到充分保证,仅通过约8.5B tokens(85亿tokens),数千元算力成本,让模型达到如此惊艳的效果。
而市面上的大模型动辄使用几万亿token进行训练才有效果保证,成本高昂。
那么Colossal-AI团队是如何把训练成本降低,并达到如此的效果的呢?

词表扩充与模型初始化


LLaMA-2原始词表并未针对中文做特定优化,所包含的中文词有限,导致在中文语料上理解力不足。因此,首先对LLaMA-2进行了词表的扩充。
Colossal-AI团队发现:
  1. 词表的扩充不仅可以有效提升字符串序列编码的效率,并且使得编码序列包含更多的有效信息,进而在篇章级别编码和理解上,有更大的帮助。
  2. 然而,由于增量预训练数据量较少,扩充较多的单词反而会导致某些单词或组合无实际意义,在增量预训练数据集上难以充分学习,影响最终效果。
  3. 过大的词表会导致embedding相关参数增加,从而影响训练效率。
因此,经过反复实验,同时考虑了训练的质量与训练的效率,Colossal-AI团队最终确定将词表从LLaMA-2原有的32000扩充至69104。
有了扩充好的词表,下一步就是基于原有的LLaMA-2初始化新词表的 embedding。

为了更好的迁移LLaMA-2原有的能力,实现从原有LLaMA-2到中文LLaMA-2能力的快速迁移,Colossal-AI团队利用原有的LLaMA-2的权重,对新的embedding进行均值初始化。

如此一来,既保证了新初始化的模型在初始状态下,英文能力不受影响,又可以尽可能的无缝迁移英文能力到中文上。

数据构建

为了更大程度的降低训练的成本,高质量的数据在其中起着关键作用,尤其是对于增量预训练,对于数据的质量,分布都有着极高的要求。
为了更好的筛选高质量的数据,Colossal-AI团队构建了完整的数据清洗体系与工具包,以便筛选更为高质量的数据用于增量预训练。

Colossal-AI团队数据治理的完整流程
除了常见的对数据进行启发式的筛选和去重,还对重点数据进行了打分和分类筛选。
合适的数据对于激发LLaMA-2中文能力,同时克服英文的灾难性遗忘问题,有着至关重要的作用。
最后,为了提高训练的效率,对于相同主题的数据,Colossal-AI团队对数据的长度进行了排序,并根据4096的最大长度进行拼接。

训练策略


多阶段训练
在训练方面,针对增量预训练的特点,Colossal-AI团队设计了多阶段,层次化的增量预训练方案,将训练的流程划分为三个阶段:
  1. 大规模预训练阶段:目标是通过大量语料训练,使得模型可以产出相对较为流畅的文本。该阶段由LLaMA-2完成,经过此阶段,模型已经掌握大量英文知识,并可以根据Next Token Prediction输出流畅的结果。
  2. 中文知识注入阶段:该阶段依赖于高质量的中文知识,一方面增强了模型对于中文知识的掌握程度,另一方面提升了模型对于新增中文词表中单词的理解。
  3. 相关知识回放阶段:该阶段致力于增强模型对于知识的理解与泛化能力,缓解灾难性遗忘问题。
多阶段相辅相成,最终保证模型在中英文的能力上齐头并进。
分桶训练
增量预训练对于数据的分布极为敏感,均衡性就尤为重要。
因此,为了保证数据的均衡分布,Colossal-AI团队设计了数据分桶的策略,将同一类型的数据划分为10个不同的bins。
在训练的过程中,每个数据桶中均匀的包含每种类型数据的一个bin,从而确保了每种数据可以均匀的被模型所利用。

评估体系


为了更好的评估模型的性能,Colossal-AI团队搭建了完整的评估体系——ColossalEval,希望通过多维度对大语言模型进行评估。
流程框架代码完全开源,不仅支持结果复现,也支持用户根据自己不同的应用场景自定义数据集与评估方式。

评估框架特点总结如下:

  1. 涵盖针对于大语言模型知识储备能力评估的常见数据集如MMLU,CMMLU等。针对于单选题这样的形式,除了常见的比较ABCD概率高低的计算方式,增加更为全面的计算方式,如绝对匹配,单选困惑度等,以求更加全面的衡量模型对于知识的掌握程度。

  2. 支持针对多选题的评估和长文本评估。

  3. 支持针对于不同应用场景的评估方式,如多轮对话,角色扮演,信息抽取,内容生成等。用户可根据自己的需求,有选择性的评估模型不同方面的能力,并支持自定义prompt与评估方式的扩展。

构建通用大模型到垂类大模型迁移的桥梁
由Colossal-AI团队的经验来看,基于LLaMA-2构建中文版模型,可基本分为以下流程:
那么这套方案是否可以复用呢?
答案是肯定的,并且在业务落地的场景中是非常有意义的。
随着ChatGPT掀起的人工智能浪潮,全球各大互联网巨头、AI公司、创企、高校和研究机构等,纷纷在通用大模型的赛道上策马狂奔。
然而,通用大模型通用能力的背后往往是针对特定领域内知识的不足,因此,在实际落地上,大模型幻觉的问题就变的尤为严重。
针对业务微调固然可以有一定的收获,但垂类大模型的缺失导致应用落地存在性能瓶颈。
如果可以快速低成本构造一个垂类大模型,再基于垂类大模型进行业务微调,一定能在业务落地上更进一步,占得先机与优势。
将以上流程应用在任意领域进行知识迁移,即可低成本构建任意领域垂类基座大模型的轻量化流程:
对于从头预训练构建基础大模型,也可借鉴上述经验与Colossal-AI降本增效能力,以最低成本高效完成。

系统优化


上述Colossal-LLaMA-2的亮眼表现和成本优势,构建在低成本AI大模型开发系统Colossal-AI之上。
Colossal-AI基于PyTorch,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,提升模型任务表现,降低GPU需求等。
仅一年多时间便已在GitHub开源社区收获GitHub Star 3万多颗,在大模型开发工具与社区细分赛道排名世界第一,已与世界500强在内的多家知名厂商联合开发/优化千亿/百亿参数预训练大模型或打造垂类模型。

Colossal-AI云平台


为了进一步提高AI大模型开发和部署效率,Colossal-AI已进一步升级为Colossal-AI云平台,以低代码/无代码的方式供用户在云端低成本进行大模型训练、微调和部署,快速将各种模型接入到个性化的应用中。
目前Colossal-AI云平台上已经预置了Stable diffusion, LLaMA-2等主流模型及解决方案,用户只需上传自己的数据即可进行微调。
同时,也可以把自己微调之后的模型部署成为API,以实惠的价格使用A10, A800, H800等GPU资源,无需自己维护算力集群以及各类基础设施。
此外,更多应用场景、不同领域、不同版本的模型、企业私有化平台部署等也正在不断迭代。
ColossalAI云平台现已开启公测,注册即可获得代金券,欢迎参与并提出反馈。
Colossal-AI云平台:

platform.luchentech.com

Colossal-AI云平台文档:

https://docs.platform.colossalai.com/

Colossal-AI开源地址:

https://github.com/hpcaitech/ColossalAI
参考资料:
https://www.hpc-ai.tech/blog/one-half-day-of-training-using-a-few-hundred-dollars-yields-similar-results-to-mainstream-large-models-open-source-and-commercial-free-domain-specific-LLM-solution




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”首富的傲娇和价值观免费、可商用,阿里云开源70亿参数通义千问大模型仅69.9万!米尔顿市中心精选房源:3房2卫现代屋!可自住可商用!32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了效果超越SDXL!港中大博士生推出超真实人像合成工具,训练用了3.4亿张图2023“雷军年度演讲”在今晚7点举行;讯飞星火位列国产主流大模型测评榜首位|绿研院日报中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源土耳其索菲亚大教堂工作重要,还是妻子重要原创《思考陆扬的“晚唐清流文化”》MetaMath:新数学推理语言模型,训练大模型的逆向思维32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯全球首个可商用生物医药大模型BioMedGPT-10B开源国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力关于中文LLaMA2的一些不错的工作阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用15小时、几千元训完中文版LLaMA2!低成本方案全面开源,包含代码权重,支持商用昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源浙江大学发布开源大模型知识编辑工具EasyEdit,效果超越传统微调方法麦金尼市议会批准8.49亿美元预算,房产税率将下调在美国,150万美元预算,你愿意买“远大新”、还是“老破小”呢?民调出来啦!普林斯顿开源34B数学大模型:性能媲美谷歌Minerva,参数少一半!550亿token专业数据训练英伟达全球首发超级AI芯片:比上一代快50%,训练大模型成本更低5123 血壮山河之武汉会战 富金山战役 11首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下中文版开源Llama 2同时有了语言、多模态大模型,完全可商用国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。