Redian新闻
>
中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)

中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)

公众号新闻

来自:高能AI

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

中文对话大模型开源社区迎来了一名浓眉大眼的新成员!最新项目BELLE(BE Large Language model Engine)基于BLOOM和LLAMA针对中文做了优化,模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。

开源地址:https://github.com/LianjiaTech/BELLE

该项目目前已经开源了如下内容,并且在持续更新中:

  1. 150万中文指令微调数据集
  2. 以Bloomz-7b1-mt(70亿参数)为基础,分别在20万,60万,100万,200万数据上进行指令微调后得到的模型Checkpoint。
  3. 以LLAMA-7b(70亿参数)为基础,分别在60万,200万数据上进行指令微调后得到的模型Checkpoint。
  4. 对以上模型进行量化后的轻量化模型,便于部署、推理。

BELLE模型能力展示

BELLE技术方案介绍

ChatGPT、GPT-4的横空出世,让人们看到了一丝AGI(通用人工智能)的曙光。在可预见的将来,ChatGPT将对各行各业带来革命性的影响。但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话大模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。

  1. 数据:为了获得大量的指令微调数据,项目团队参考了斯坦福大学的Alpaca项目,并针对中文场景进行了优化,利用ChatGPT生了多样化、高质量的数据,这些数据涵盖了各种应用场景,包括日常对话、知识问答、文本生成等,有助于模型在各种中文场景中的表现。他们已经开源其中的150万数据。
  2. 模型:大模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。
  3. 轻量化:为了便于模型的部署和试用,BELLE团队同时开源了对话模型的量化版本。包括8bit, 4bit, 其中4bit版本模型checkpoint大小仅为6.9G,运行仅需8.4G显存。

模型效果比较

以Bloomz-7b1-mt为基础,BELLE团队评估了不同数量的instruction tuning数据,对模型效果的影响。总的来说,提升数据量能持续带来效果的提升,但是在不同类型的任务上表现有所不同。在Extract, Classification, Closed QA, 和Summarization任务上,增加数据能持续带来效果的提升,还未达到瓶颈。在Translation, Rewrite, 和Brainstorming任务上,几十万的数据量就能获得较好的效果。在Math, Code, 和COT任务上,模型效果较差,而且增加数据量已经无法带来效果的提升。

详见论文:Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases。

总结

可以说BELLE的出现,大大促进了中文开源对话模型的发展,基于他们开源的数据和模型,更多的人可以尝试这些模型,更多的研究工作可以更快捷的展开。令人更加惊喜的是,该开源项目仍在持续更新,将来会有更多的内容被开放出来,欢迎大家持续的跟踪。



进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 每日更新3-5篇最新最优质的的论文速读

2. 最新入门和进阶学习资料

4. 每日1-3个NLP、搜广推、CV等AI岗位招聘信息


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道清华AIR开源轻量版BioMedGPT!聂再清:最终目标是生物医药领域基础大模型老金的黄金梦对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话最新开源!更擅长推理的LLaMA大模型,支持中文轻量化发行版 LegacyOS 历经九年后发布 2023 版本 | Linux 中国阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlChatGPT 全球最大开源平替:回复更受欢迎,但中文对话一塌糊涂最新实测|文心一言 vs ChatGPT,百度想在中文对话击败对手【立春】妈妈的春饼· 一荤一素中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索好消息!Mille Lacs 湖今夏全面开放钓鱼Llama-X开源!呼吁每一位NLPer参与推动LLaMA成为最先进的LLMWellesley College 麻州韦尔斯利女子学院 你赞同录取跨性别男子吗?一面湖水震撼开源!首个1万多人共同标注的35种语言的高质量对话数据集来啦Best是“最好的”,seller是“销售员”,best-seller可不是“最佳销售员”!微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型又一大模型惨遭泄漏,Meta版ChatGPT被迫开源!开源版ChatGPT来了?多数任务效果超越GPT3,已开源!英国被欧盟罚款23亿英镑!新冠数据显示,Omicron亚型BA.4/5感染性最强...Firefly(流萤): 中文对话式大语言模型每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体清华系千亿基座对话模型ChatGLM开启内测,单卡版模型已全面开源NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录宾州德文(Devon)马术表演,从小培养轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍ChatGPT全球最大开源平替:回复更受欢迎,但中文对话一塌糊涂王炸升级!Google 全新大模型赶超 GPT-4,Bard 全面开放,要把搜索彻底颠覆ChatGPT国产化:ChatYuan元语对话大模型升级Stability AI:AI开源商业化试验田,Killer Model能成长为Killer App吗?清华开源图文对话大模型!表情包解读有一手,奇怪的benchmark增加了青椒炒肉丝很恐怖吗?陈天奇等人新作引爆AI界,手机也能原生跑大模型了!已开源!大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。