Redian新闻
>
每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体

每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体

公众号新闻

机器之心专栏

机器之心编辑部

BELLE 的目标是促进中文对话大模型开源社区的发展,愿景是成为能够帮到每一个人的 LLM  Engine

最近一段时间,以 “羊驼” 家族为代表的各类 ChatGPT 替代模型不断涌现。一方面,开源社区也有了可以与 ChatGPT “一较高下” 的开源模型;而另一方面,各模型在如何提升 LLM 的指令表现方面以及评估 LLM 效果的方法不尽相同。

此前,一个基于斯坦福的 Alpaca 、并进行了中文优化的项目受到大家关注,即开源中文对话大模型 70 亿参数的 BELLEBe Everyone's Large Language model Engine)。它基于斯坦福的 Alpaca 完成,但进行了中文优化,并对生成代码进行了一些修改,不仅如此,模型调优仅使用由 ChatGPT 生产的数据(不包含任何其他数据)。

BELLE 的目标是促进中文对话大模型开源社区的发展,愿景是成为能够帮到每一个人的 LLM  Engine。


相比如何做好大语言模型的预训练,BELLE 更关注如何在开源预训练大语言模型的基础上,帮助每一个人都能够得到一个属于自己的、效果尽可能好的具有指令表现能力的语言模型,降低大语言模型、特别是中文大语言模型的研究和应用门槛。为此,BELLE 项目会持续开放指令训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。

BELLE 项目亮点包括:

  • 研究报告:从指令微调策略到模型评估范式等多方面探究提升大语言模型指令表现能力的因素
  • 数据开放:丰富、大量且持续完善的训练和评估数据
  • 开箱即用的多种模型和指令微调 / LoRA / 量化代码
  • 多终端 LLM 推理和聊天 app,无需联网,离线运行

还有其他功能,请移步 Github 项目 。


项目地址:https://github.com/LianjiaTech/BELLE

BELLE 项目的研究方向着眼于提升中文指令调优模型的指令跟随、指令泛化效果,降低模型训练和研究工作的门槛,让更多人都能感受到大语言模型带来的帮助。

为此 BELLE 进行了一系列研究,涵盖模型评估方法、影响模型指令表现效果的因素、模型调优等多方面。

最近,两篇相关论文已经公开,下面我们看看论文内容。

论文介绍

论文 1:Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation


论文地址:https://arxiv.org/pdf/2304.07854.pdf

为了推动开源大语言模型的发展,大家投入了大量精力开发能够类似于 ChatGPT 的低成本模型。首先,为了提高模型在中文领域的性能和训练 / 推理效率,我们进一步扩展了 LLaMA 的词汇表,并在 34 亿个中文词汇上进行了二次预训练。

此外,目前可以看到基于 ChatGPT 产生的指令训练数据方式有:1)参考 Alpaca 基于 GPT3.5 得到的 self-instruct 数据;2)参考 Alpaca 基于 GPT4 得到的 self-instruct 数据;3)用户使用 ChatGPT 分享的数据 ShareGPT。在这里,我们着眼于探究训练数据类别对模型性能的影响。具体而言,我们考察了训练数据的数量、质量和语言分布等因素,以及我们自己采集的中文多轮对话数据,以及一些公开可访问的高质量指导数据集。

为了更好的评估效果,我们使用了一个包含一千个样本和九个真实场景的评估集来测试各种模型,同时通过量化分析来提供有价值的见解,以便更好地促进开源聊天模型的发展。

这项研究的目标是填补开源聊天模型综合评估的空白,以便为这一领域的持续进步提供有力支持。

实验结果如下:


其中 BELLE-0.5M-CLEAN 是从 230 万指令数据中清洗得到 0.5M 数据,其中包含单轮和多轮对话数据,和之前开放的 0.5M 数据不是同一批数据。

需要强调指出的是,通过案例分析,我们发现我们的评估集在全面性方面存在局限性,这导致了模型分数的改善与实际用户体验之间的不一致。构建一个高质量的评估集是一个巨大的挑战,因为它需要在保持平衡难易程度的同时包含尽可能多样的使用场景。如果评估样本过于困难,那么所有模型的表现将会很差,更难辨别各种训练数据和策略的效果;相反,如果评估样本都相对容易,评估将失去其比较价值。同样地,评估集多样性不够的时候,容易出现评估有偏(例如当某个模型的训练和评估领域或任务类型十分一致)。二者的联合分布还可能导致部分任务上难易区分度高,部分任务上难易区分度低,进一步加大评估的难度和有效性。此外,必须确保评估数据与训练数据保持独立。

图 1 评估集的难易度与多样性分布示意图

基于这些观察,我们谨慎地提醒不要假设模型仅通过在有限数量的测试样本上获得良好结果就已经达到了与 ChatGPT 相当的性能水平。我们认为,优先发展全面评估集的持续发展具有重要意义。

这篇工作中的相关数据和模型将会于近日在 BELLE 项目中开源。

论文 2:A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model


论文地址:https://arxiv.org/pdf/2304.08109.pdf

为了实现对大语言模型的指令调优,受限于资源和成本,许多研究者开始使用参数高效的调优技术,例如 LoRA,来进行指令调优,这也取得了一些令人鼓舞的成果。相较于全参数微调,基于 LoRA 的调优在训练成本方面展现出明显的优势。在这个研究报告中,我们选用 LLaMA 作为基础模型,对全参数微调和基于 LoRA 的调优方法进行了实验性的比较。

实验结果揭示,选择合适的基础模型、训练数据集的规模、可学习参数的数量以及模型训练成本均为重要因素。

我们希望本文的实验结论能对大型语言模型的训练提供有益的启示,特别是在中文领域,协助研究者在训练成本与模型性能之间找到更佳的权衡策略。 

实验结果如下:


其中的 Average Score 是基于本项目集目前开放的 1000 条评估集合得到的(见下文评估数据部分)。LLaMA-13B + LoRA (2M) 代表使用 LLaMA-13B 作为基础模型和 LoRA 训练方法,在 2M 指令数据上进行训练的模型;而 LLaMA-7B + FT (2M) 代表了一个使用全参数微调进行训练的模型。所有这些实验都是在 8 块 NVIDIA  A100-40GB GPU 上进行的,实验细节请参考我们的论文。

根据评估,我们的模型在数学任务上表现不佳,得分大多低于 0.5。为了验证  LoRA  在特定任务上的适应能力,我们使用增量 0.25M 数学数据集(math_0.25M)来提升模型的数学能力,并与增量微调方法作为对比。从实验结果可以看出,增量微调仍然表现更好,但需要更长的训练时间。LoRA 和增量微调都提高了模型的整体性能。从论文附录中的详细数据可以看出,LoRA 和增量微调都在数学任务中显示出显著的改进,而只会导致其他任务的轻微性能下降。

总体而言:1) 选择基础模型对于 LoRA  调整的有效性具有显著影响;2)增加训练数据量可以持续提高 LoRA 模型的有效性;3)LoRA  调整受益于模型参数的数量。对于 LoRA 方案的使用,我们建议可以在已经完成了指令学习的模型的基础上针对特定任务做 loRA 的自适应训练。

同样地,该论文中的相关模型也会尽快开放在 BELLE 项目中。

持续完善的训练和评估数据

目前 BELLE 已经开放的数据分为两部分:最近开放的 10M 中文数据集与早前开放的 1.5M 中文数据集。

10M 中文数据集

包含数个由 BELLE 项目产生的不同指令类型、不同领域的子集。目前正在逐步整理中,将会逐渐发布。

  • School Math:包含约 25 万条生成的中文数学题数据,包含解题过程
  • Multiturn Chat:包含约 80 万条生成的用户与助手的多轮对话
  • Generated Chat:包含约 40 万条生成的给定角色的多轮对话
  • train_2M_CN:包含约 200 万条生成的多样化指令任务数据

评估数据

如上文所述,评估数据的质量对评估 LLM 的效果十分关键。BELLE 项目开放的中文评估集包含由 BELLE 项目产生的约 1000 条不同指令类型、不同领域的评估样例,并试图兼顾评估集的多样性与难易度。评估集的数据分布见图 2。


多样性方面,评估集涵盖 extract、open qa、closed qa、rewrite、generation、summerization、classification、brainstorming、others 9 种任务类型,并涵盖市场销售、健康饮食、语言文学、旅行、多种编程语言、环保、音乐、历史、厨艺、影视、体育赛事、医学、金融、科技等多个主题。任务类型分布见图 2 (a)。

难易度方面,评估集目前尽可能加入了一些难度偏高的样本,并且平衡评估集与标注回复的平均指令长度分布。

多终端模型推理和聊天应用 ChatBELLE

开源社区中已经诞生了如 llama.cpp、GPT4ALL、WebLLM 等 LLM 离线部署加速方案。虽然这些项目已经将动辄几十 GB 的显存需求和专业 GPU 的算力需求降低至一般的消费电子设备也可运行,但大多仍然需要一些技能才可部署及体验。

BELLE 希望进一步拓展大语言模型的使用场景,让更多用户即使没有专业设备也能感受到 LLM 带来的帮助。提供了纯离线、跨平台的 BELLE 聊天应用:结合 4bit 量化后的 ChatBELLE 模型、llama.cpp 和 Flutter 跨平台 UI,用户仅需安装 app、下载模型,即可在各类移动设备上不需联网本地体验 ChatBELLE 模型。

首先来看看效果:

macOS

在 M1 Max Macbook 上仅使用 CPU 实时运行,无论是加载还是推理都十分迅速:


相信随着 LLM 端上推理相关算法和软硬件技术的逐步发展,纯离线端上模型的效果将越来越好。BELLE 项目将持续优化 ChatBELLE 模型的性能和 App 功能,努力为更多用户带来更优质更丰富的体验。

小结

近两个月,LLM 开源社区在基础模型研究、模型指令微调、模型应用场景等多方面的进展称得上日新月异、百花齐放。BELLE 项目组对这些进展感到欣喜之余,也希望贡献自己微薄之力,促进开源 LLM,特别是中文开源 LLM 的发展。

虽然在大家不懈努力下开源模型在效果方面已经取得了长足进步,甚至一些模型在个别方面已经与 ChatGPT 甚至 GPT-4 效果比肩,我们仍然需要直面与 OpenAI 的差距。目前,ChatGPT 的能力之多样、指令跟随和泛化能力之强、安全性之高,仍然需要开源社区脚踏实地地不断提升来追赶。在全社区的共同努力下,希望大语言模型将真正属于每一个人,能够帮助到每一个人。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
什么样的人最自由?三行代码调用PandaLM大模型自动实现保护隐私、可靠、可复现的大模型评估黑龙江省2023年高质量发展重点项目集中开工终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张Stability AI:AI开源商业化试验田,Killer Model能成长为Killer App吗?求职干货 | 拼多多 2023春招已开!海归求职:数据(数据分析、数据科学、工程)夫妻团圆,又分离20年字节跳动开源ByConity:基于ClickHouse的存算分离架构云原生数仓智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了ChatGPT能解决信息抽取吗?一份关于性能、评估标准、鲁棒性和错误的分析第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型Meta开源大模型:支持4000+语言识别,1100+种语音文本转换清华大学:新城市科学:技术、数据、变革与应用Llama-X开源!呼吁每一位NLPer参与推动LLaMA成为最先进的LLM轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍集美大学2023年运动训练、武术与民族传统体育专业招生项目计划调整方案大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集“感受” 到底是个什么鬼?ELITE项目原作解读:基于扩散模型的快速定制化图像生成绝了,这节目集齐内娱“恶人”广州体育学院2023年运动训练、武术与民族传统体育专业招生分数线与分项目招生计划公布周迅高圣远官宣分手:在新欢面前,男人的深情对旧爱是一个笑话大模型时代的三道鸿沟:数据、成本与想象力四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现徐凯文:危机个案的风险评估、应对策略中欧四国自驾游: 信息和体验总汇「多模态LLM」最新介绍!数据、论文集直接打包带走中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)让天下没有难Tuning的大模型:PEFT技术简介
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。