Redian新闻
>
训练个中文版ChatGPT没那么难:不用A100,开源Alpaca-LoRA+RTX 4090就能搞定

训练个中文版ChatGPT没那么难:不用A100,开源Alpaca-LoRA+RTX 4090就能搞定

公众号新闻

机器之心报道

机器之心编辑部
Alpaca-LoRA 将微调类 ChatGPT 模型的算力需求降到了消费级,训练个自己的中文对话模型真就没那么难了。

2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。

ChatGPT 功能强大,但 OpenAI 几乎不可能将其开源。「其他」阵营表现欠佳,但不少人都在做开源方面的努力,比如前段时间 Meta 开源的 LLaMA

LLaMA 是一系列模型的总称,参数量从 70 亿到 650 亿不等,其中,130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3。不过,该模型并没有经过指令微调(instruct tuning),因此生成效果较差。

为了提高模型性能,来自斯坦福的研究者帮助其完成了指令微调的工作,训练了一个名为 Alpaca(羊驼)的 70 亿参数新模型(基于 LLaMA 7B)。具体来说,他们让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)样本,以此作为 Alpaca 的训练数据。实验结果表明,Alpaca 的很多行为都与 text-davinci-003 类似。也就是说,只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模语言模型。


对于普通研究者来说,这是一种切实可行的廉价微调方式,不过需要的运算量仍然较大(作者表示他们在 8 个 80GB A100 上微调了 3 个小时)。而且,Alpaca 的种子任务都是英语,收集的数据也都是英文,因此训练出来的模型未对中文优化。

为了进一步降低微调成本,另一位来自斯坦福的研究者 ——Eric J. Wang 使用 LoRA(low-rank adaptation)技术复现了 Alpaca 的结果。具体来说,Eric J. Wang 使用一块 RTX 4090 显卡,只用 5 个小时就训练了一个和 Alpaca 水平相当的模型,将这类模型对算力的需求降到了消费级。而且,该模型可以在树莓派上运行(用于研究)。

LoRA 的技术原理。LoRA 的思想是在原始 PLM 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的 intrinsic rank。训练的时候固定 PLM 的参数,只训练降维矩阵 A 与升维矩阵 B。而模型的输入输出维度不变,输出时将 BA 与 PLM 的参数叠加。用随机高斯分布初始化 A,用 0 矩阵初始化 B,保证训练的开始此旁路矩阵依然是 0 矩阵(引自:https://finisky.github.io/lora/)。LoRA 的最大优势是速度更快,使用的内存更少,因此可以在消费级硬件上运行。

Eric J. Wang 发布的 Alpaca-LoRA 项目。

项目地址:https://github.com/tloen/alpaca-lora

对于想要训练自己的类 ChatGPT 模型(包括中文版类 ChatGPT)但又没有顶级算力资源配置的研究者来说,这无疑是一大惊喜。因此,在 Alpaca-LoRA 项目问世后,围绕该项目的教程和训练成果不断涌现,本文将介绍其中的几个。

如何使用 Alpaca-LoRA 微调 LLaMA

在 Alpaca-LoRA 项目中,作者提到,为了廉价高效地进行微调,他们使用了 Hugging Face 的 PEFT。PEFT 是一个库(LoRA 是其支持的技术之一),可以让你使用各种基于 Transformer 的语言模型并使用 LoRA 对其进行微调。好处在于,它允许你在一般的硬件上廉价而有效地微调模型,并有较小的(也许是可组合的)输出。

在近期的一篇博客中,几位研究者介绍了如何使用 Alpaca-LoRA 来微调 LLaMA。

使用 Alpaca-LoRA 之前,需要具备一些先决条件。首先是 GPU 的选择,得益于 LoRA,现在你可以在 NVIDIA T4 这样低规格 GPU 或 4090 消费级 GPU 上完成微调;此外,你还需要申请 LLaMA 权重,因为其权重并不对外公开。

先决条件具备了,接下来就是如何使用 Alpaca-LoRA。首选你需要克隆 Alpaca-LoRA 存储库,代码如下:

git clone https://github.com/daanelson/alpaca-loracd alpaca-lora

其次,获取 LLaMA 权重。将下载到的权重值存储到名为 unconverted-weights 文件夹里,文件夹层次结构就像下面这样:

unconverted-weights├── 7B│   ├── checklist.chk│   ├── consolidated.00.pth│   └── params.json├── tokenizer.model└── tokenizer_checklist.chk

权重存储好后,接着使用以下命令将 PyTorch checkpoint 的权重转换为 transformer 兼容的格式:

cog run python -m transformers.models.llama.convert_llama_weights_to_hf \  --input_dir unconverted-weights \  --model_size 7B \  --output_dir weights

得到最终的目录结构应该是这样的:

weights├── llama-7b└── tokenizermdki

处理好上述两步,来到第三步,安装 Cog:

sudo curl -o /usr/local/bin/cog -L "https://github.com/replicate/cog/releases/latest/download/cog_$(uname -s)_$(uname -m)"sudo chmod +x /usr/local/bin/cog

第四步来到微调模型,默认情况下,微调脚本上配置的 GPU 功能较弱,但如果你有性能更好的 GPU,则可以在 finetune.py 中将 MICRO_BATCH_SIZE 增加到 32 或 64。此外,如果你有指令调优数据集,则可以在 finetune.py 中编辑 DATA_PATH 以指向自己的数据集。需要注意的是这一项操作应该确保数据格式与 alpaca_data_cleaned.json 相同。接下来运行微调脚本:

cog run python finetune.py

微调过程在 40GB A100 GPU 上花费 3.5 小时,对于处理能力较低的 GPU 则需要更多时间。

最后一步用 Cog 运行模型:

$ cog predict -i prompt="Tell me something about alpacas."Alpacas are domesticated animals from South America. They are closely related to llamas and guanacos and have a long, dense, woolly fleece that is used to make textiles. They are herd animals and live in small groups in the Andes mountains. They have a wide variety of sounds, including whistles, snorts, and barks. They are intelligent and social animals and can be trained to perform certain tasks.

教程作者表示,在完成以上步骤之后,大家可以继续尝试各种玩法,包括但不限于:

  • 带上你自己的数据集,微调你自己的 LoRA,比如微调 LLaMA,让它像动漫角色一样说话。参见:https://replicate.com/blog/fine-tune-llama-to-speak-like-homer-simpson
  • 将模型部署到云平台上;
  • 结合其他 LoRA,比如 Stable Diffusion LoRA,把这些都用到图像领域;
  • 使用 Alpaca 数据集(或其他数据集)微调更大的 LLaMA 模型,并查看它们的表现。这应该可以通过 PEFT 和 LoRA 实现,尽管它需要更大的 GPU。

Alpaca-LoRA 的衍生项目

尽管 Alpaca 性能可以媲美 GPT 3.5,但其种子任务都是英语,收集的数据也都是英文,因此训练出来的模型对中文并不友好。为了提升对话模型在中文上的效果,我们看看都有哪些比较好的项目。

首先是来自华中师范大学、商汤科技等机构开源的中文语言模型骆驼 (Luotuo),该项目基于 LLaMA、Stanford Alpaca、Alpaca LoRA、Japanese-Alpaca-LoRA 等完成,单卡就能完成训练部署。有意思的是,他们之所以将模型名字命名为骆驼,是因为 LLaMA(大羊驼)和 alpaca(羊驼)都属于偶蹄目 - 骆驼科。这样看来,起这个名字也在意料之中。

这个模型是在 Meta 开源的 LLaMA 基础上,参考 Alpaca 和 Alpaca-LoRA 两个项目,对中文进行了训练。


项目地址:https://github.com/LC1332/Chinese-alpaca-lora

目前该项目释放了两个模型 luotuo-lora-7b-0.1、luotuo-lora-7b-0.3,还有一个模型在计划中:


下面是效果展示:



不过 luotuo-lora-7b-0.1(0.1)、luotuo-lora-7b-0.3(0.3)还是有差距的,在用户询问华中师范大学地址时,0.1 回答错误:


除了进行简单的对话外,还有人在保险相关领域进行了模型优化。据这位推特网友表示,借助 Alpaca-LoRA 项目,他输入了一些中文保险问答数据,最后效果也不错。

具体来说,作者训练中文版 Alpaca LoRa 用了 3K 多条中文问答保险语料,实现过程使用了 LoRa 方法,并微调 Alpaca 7B 模型,耗时 240 分钟,最终 Loss 0.87 。

图源:https://twitter.com/nash_su/status/1639273900222586882

以下是训练过程和结果:




测试结果表明:1. 训练语料相关内容都能有大概合理的回复,但仅限于不胡说 2. 非语料相关内容则会强行回复某个语料内的数据 3. 逻辑推理数学计算则没有这个能力。


看到这个结果后网友纷纷喊要失业了:


最后期待更多的中文对话模型加入进来。

参考链接:https://replicate.com/blog/fine-tune-alpaca-with-lora?continueFlag=4ecae39885197a5c008faabbefb5c824


探寻隐私计算最新行业技术,「首届隐语开源社区开放日」报名启程


春暖花开之际,诚邀广大技术开发者&产业用户相聚活动现场,体验数智时代的隐私计算生态建设之旅,一站构建隐私计算产业体系知识:

  • 隐私计算领域焦点之性

  • 分布式计算系统的短板与升级策略

  • 隐私计算跨平台互联互通

  • 隐语开源框架金融行业实战经验

3月29日,北京·798机遇空间,隐语开源社区开放日,期待线下面基。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首个中文版ChatGPT来了:大模型的中国元“Yuan”参会抽RTX 4090,GTC23 China AI Day定档3月22日,嘉宾阵容公布送RTX 4090!黄仁勋对话ChatGPT背后的英雄,GTC 2023 AI大会来了!这10个春晚小品,经典看不厌!早报 | 瑞银30亿瑞郎收购瑞信;知名蛋糕巨头所有门店暂停运营;张兰回应海外欠债9.8亿;李开复宣布筹组中文版ChatGPT公司网文版ChatGPT来了:大模型辅助写作,澜舟和中文在线联手出品未央播报 | 央行发布2022年支付体系运行总体情况 李开复宣布筹组中文版ChatGPT公司李开复也发“英雄帖”,目标不只是中文版ChatGPT8点1氪:张兰回应海外欠债9.8亿;李开复宣布筹组中文版ChatGPT公司;苏州大学:恶意P图侮辱女性的学生被开除学籍特斯拉储能超级工厂落户上海,京东拟发布京东版ChatGPT,B站UWP版停止维护,RTX4070遭偷跑,这就是今天的其他大新闻!ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇Apple Music上架微软国区应用商店/李开复筹组中文版ChatGPT公司/《坠落》续集开发中开源版ChatGPT来了?多数任务效果超越GPT3,已开源!刚刚,谷歌版ChatGPT开放测试申请!暂无中文版,网友已玩疯李开复正在筹组AI2.0公司,不只要做中文版ChatGPT张兰回应海外欠债9.8亿;李开复加入中文版ChatGPT大战;瑞银30亿瑞郎收购瑞信;华为最新“天才少年”26岁年薪百万丨邦早报今日财经 | 张兰回应国外欠债9.8亿;李开复加入中文版ChatGPT大战;瑞银收购瑞信获批3090单卡5小时,每个人都能训练专属ChatGPT,港科大开源LMFlow帮助老海归进步立即体验!直接可用的中文版ChatGPT来了小海龟们最爱吃西餐最好看的警匪片《黑雨》“人工智能教父”杨立昆:ChatGPT没那么厉害可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍ChatGPT日活超千万/ 小米回应汽车设计图纸泄露/ 疑英伟达RTX 4090 Ti原型显卡曝光…今日更多新鲜事在此How does the Chinese communist party work?ChatGPT中文版来了!只需简单注册ChatGPT.bj,即刻使用【最先进】的AI工具~百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载港科大开源LMFlow!3090单卡5小时,每个人都能训练专属ChatGPT李开复:我亲自筹组Project AI 2.0 不仅仅要做中文版ChatGPT开源版ChatGPT,30分钟训完,性能堪比GPT3.5!李开复筹建新AI公司,“目标不只是中文版ChatGPT”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。