Redian新闻
>
终于 !中文基座模型CPM-Bee开源了

终于 !中文基座模型CPM-Bee开源了

公众号新闻

来源 | OpenBMB

自OpenBMB开源社区成立以来,我们就坚定不移地践行“让大模型飞入千家万户”的理念,开发模型全流程加速系统以高效支持大模型的预训练、微调、应用和推理,并发起 百亿大模型训练直播项目CPM-Live

终于!CPM-Live 第二阶段的进度条终于拉到了100%,我们迎来了CPM-Live第二个里程碑:CPM-Bee 开源发




 全新升级 🐝 

CPM-Ant 蝶变 CPM-Bee

CPM(Chinese Pretrained Model) 系列大模型是我们团队自研模型,其中包括国内首个中文大模型 CPM-1高效易用大模型 CPM-2、可控持续大模型 CPM-3 等。最新的百亿大模型训练直播项目 CPM-Live 的计划书在2022年5月26日发布,第一期模型 CPM-Ant 的训练在2022年5月29日正式启动,并于2022年9月16日圆满发布报告。

作为 CPM-Live 的第二期模型,CPM-Bee 在2022年10月13日开启训练,在基础能力和性能表现上都在 CPM-Ant 的基础上进行了全新升级。CPM-Bee 一网打尽多种能力,可以准确地进行语义理解,高效完成各类基础任务,包括:文字填空、文本生成、翻译、问答、评分预测、文本选择题 等等。考虑到用户使用模型的易用性,我们在预训练阶段将模型的输入输出设计成了 JSON 结构化形式,用户只需调整不同任务字段,就可以完成各类任务。

"文本生成": {"input": "今天天气很好,我和妈妈一起去公园,<mask>", "prompt": "往后写两句话", "<ans>": ""}"翻译": {"input": "北京是中国的首都", "prompt": "中翻英", "<ans>": ""}"评分预测": {"input":"之前多次聚餐都选择这里,有各种大小的包房同时能容纳很多人,环境好有特色还有表演,整体聚餐氛围一下被带动起来。现在由于炭火改成了电烤羊,口感真的不如从前,不过其他菜品都还是不错,烤羊剩下的拆骨肉最后还能再加工一下椒盐的也很好吃。","question":"评分是多少?(1-5)","<ans>":""}"选择题": {"input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人,父母首先得从自己做起,要是连自己都做不到,又怎能要求孩子做到呢?", "options": {"<option_0>": "少提要求", "<option_1>": "降低标准", "<option_2>": "自己先做好", "<option_3>": "让孩子拿主意"}, "question": "教育孩子时,父母应该:", "<ans>": ""}


CPM-Bee 是一个 完全开源、允许商用 的百亿参数中英文基座模型。它采用 Transformer 自回归架构(auto-regressive),使用万亿级高质量语料进行预训练,拥有强大的基础能力。CPM-Bee 的特点可以总结如下:

  • 开源可商用:OpenBMB 始终秉承“让大模型飞入千家万户”的开源精神,CPM-Bee 基座模型将完全开源并且可商用,以推动大模型领域的发展。如需将模型用于商业用途,只需企业实名邮件申请并获得官方授权证书,即可商用使用。

  • 中英双语性能优异:CPM-Bee 基座模型在预训练语料上进行了严格的筛选和配比,同时在中英双语上具有亮眼表现,具体可参见评测任务和结果。

  • 超大规模高质量语料:CPM-Bee基座模型在万亿级语料上进行训练,是开源社区内经过语料最多的模型之一。同时,我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。

  • OpenBMB大模型系统生态支持:OpenBMB 大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具,CPM-Bee 基座模型将配套所有的工具脚本,高效支持开发者进行进阶使用。 

  • 强大的对话和工具使用能力:结合OpenBMB 在指令微调和工具学习的探索,我们在 CPM-Bee 基座模型的基础上进行微调,训练出了具有强大对话和工具使用能力的实例模型,现已开放定向邀请内测,未来会逐步向公众开放。

 🔗 Github地址   https://github.com/OpenBMB/CPM-Bee

 🔗 Hugging Face地址   https://huggingface.co/openbmb/cpm-bee-10b
 ➤  CPM-Bee商用申请通道   发送申请邮件至 [email protected] 获取授权证书







 百炼千锤 💪 

零样本评测独占鳌头


我们对 CPM-Bee 基座模型进行了全方位的中英文能力评测。在中文的 Zero-CLUE 评测基准上,CPM-Bee 可以大幅超越其他模型,稳居中文大模型第一

ZeroCLUE 榜单(2023.05.27)

在英文评测基准上,CPM-Bee 也 展现出了和开源模型 LLaMA 相当的效果。

英文评测

使用CPM-Bee提供的API 与 OpenBMB 和 THUNLP联合自研的Decoder Tuning(ACL 2023)技术,可以在 不访问和修改模型参数的情况下大幅提高下游任务的性能




 生态支持 ✨ 

微调压缩部署一应俱全


基于 OpenBMB 的大模型生态系统,我们在训练 CPM-Bee 的过程中实现了全流程高效。同时提供了训练(基于 BMTrain)、微调(基于 OpenPrompt 和 OpenDelta)、外部工具使用(基于 BMTools)、模型压缩(基于 BMCook)低资源推理(基于 BMInf)的全套脚本,可以协助开发者快速上手和使用 CPM-Bee。

基于高效微调工具 OpenDelta,我们给出了两种微调方案:全参数微调和增量微调,可以将 CPM-Bee 适配到各类下游场景中。

基于高效压缩工具 BMCook,我们对原始的 CPM-Bee 基座模型进行压缩,提供了 10B、5B、2B、1B 四种大小的 CPM-Bee 模型来适应各种不同的场景:

模型

#Attn.层

#FFN层

Attn隐状态维度

FFN隐状态维度

CPM-Bee-10B

48

48

4096

10240

CPM-Bee-5B

19

24

4096

10240

CPM-Bee-2B

19

24

2048

5120

CPM-Bee-1B

19

24

1280

1024


对于压缩后的 CPM-Bee,普通的消费级显卡即可完成快速推理,不同大小的模型所占用的推理资源如下:

模型

推理内存占用

硬件需求

CPM-Bee-10B

20GB

RTX3090(24 GB)

CPM-Bee-5B

11 GB

RTX3090(24 GB)

CPM-Bee-2B

6.7 GB

GTX 1080(8 GB)

CPM-Bee-1B

4.1 GB

GTX 1660(6 GB)





你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
IEEE高级会员,IEEE中国联合会前任主席,IEEE北京分会前任主席冯进军当选北京“最美科技工作者”清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳面壁智能联合知乎开源 CPM-Bee 并发布智能对话助手“露卡”(Luca),联网论文查找摘要功能太炸裂了!阿里开源了一个新东西,上 GitHub 热榜了!比Diffusion更快!OpenAI新图像生成模型开源了!清华校友宋飏一作COSTCO 的购物感受160亿参数,新增多项能力,复旦MOSS开源了首个基于交互式网页搜索的中文问答开源框架,清华、人大、腾讯联合发布WebCPM阿里开源了一个新东西,上GitHub热榜了!北交大TransGPT,开源了!火了,又一款神器,开源了!一个厉害的中医GPT,AI老中医开源了!开箱即用,5个令人惊艳的AI项目,开源了!掉脑袋的事:Google Brain和DeepMind合并成Google DeepMind!!!因为懂得,所以慈悲MiniGPT4,开源了!清华ACL2023 | WebCPM:首个联网支持中文问答开源模型《是你》清华ACL 2023最新长文 | WebCPM:首个联网支持中文问答开源模型新项目爆火,GPT 开源了!刷榜GitHub!中科院学术科研专用版 ChatGPT开源了!斩获24K star。。论文润色、语法检查,一键搞定!开源了!UniControl:可控视觉生成的统一扩散模型能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型谷歌没开源的PaLM,网友给开源了!千亿参数微缩版:最大只有10亿,8k上下文复旦MOSS大模型开源了!Github和Hugging Face同时上线又一个 SQL 神器,开源了!让作者月入2万的App,免费开源了!赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl馋了,亲手在家里包羊肉胡萝卜馅儿饺子中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索中国不是发达国家 只是装B失败的贫困户号称史上最强、击败LLaMA的大模型开源了,却因为许可证被骂LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。