Redian新闻
>
真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集

真·从零复刻ChatGPT!斯坦福等开启「红睡衣」计划,先开源1.2万亿token训练集

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】从零打造ChatGPT,AI从业者大团结!


Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情,并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。


但Meta只是开源了LLaMA的权重,训练用到的数据集并没有开源出来,对于那些想从头开始训练LLaMA的从业者来说,目前还没有开源方案。


最近,由Ontocord.AI,苏黎世联邦理工学院DS3Lab,斯坦福CRFM,斯坦福Hazy Research 和蒙特利尔学习算法研究所的宣布开启「红睡衣」(RedPajama)计划,旨在生成可复现、完全开放、最先进的语言模型,即从零一直开源到ChatGPT!


下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库:https://github.com/togethercomputer/RedPajama-Data


「红睡衣」开源计划总共包括三部分:


1. 高质量、大规模、高覆盖度的预训练数据集;

2. 在预训练数据集上训练出的基础模型;

3. 指令调优数据集和模型,比基本模型更安全、可靠。



目前红睡衣计划中的第一部分,即预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。



完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB,有条件、有网速的小伙伴可以开始搞起来了!


目前开发团队正在橡树岭领导计算设施(OLCF)的支持下开始训练模型,预计几周后即可开源。


通过OpenChatKit,研究人员已经收到了数十万条高质量的自然用户指令,将用于发布 RedPajama 模型的指令优化版本。


复刻LLaMA


2023年2月27日,Meta推出LLaMa并发布了相关论文。


论文链接:https://arxiv.org/pdf/2302.13971.pdf


LLaMa实际上是一组基础语言模型的统称,其参数范围从70亿到650亿不等,其中LLaMA-13B(130亿参数)版本甚至在大多数基准测试中都优于1750亿参数的GPT-3;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下风。


和之前的大模型不同的是,LLaMa完全使用「公开数据集」就达到了SOTA,并不存在其他模型中「不可告人」的秘密,无需使用专用或只存在于虚空中的数据集。


具体使用的数据集和预处理操作如下。



English CommonCrawl-占比67%


使用CCNet pipeline对五个CommonCrawl dumps(2017-2020年)进行预处理,删除重复的行,并用fastText线性分类器进行语言分类,去除非英语页面,并用ngram语言模型过滤低质量内容。


还训练了一个线性模型来对维基百科中用作参考文献的页面与随机采样的页面进行分类,并去除未被分类为参考文献的页面。


C4-占比15%


在探索实验中,研究人员观察到使用多样化的预处理CommonCrawl数据集可以提高性能,所以将公开的C4数据集纳入我们的数据。


C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。


Github-占比4.5%


使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。


然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如<header>等)。


最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。


维基百科-占比4.5%


数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。


Gutenberg and Books3-占比4.5%


训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。

预处理操作主要是删除重复内容超过90%的书籍。


ArXiv-占比2.5%


通过处理arXiv的Latex文件将科学数据添加到训练数据集中,删除了第一节之前的所有内容,以及书目;还删除了.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。


Stack Exchange-占比2%


Stack Exchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。


分词器(Tokenizer)


根据SentencePiece的实现使用字节对编码(byte-pair-encoding,BPE)算法对数据进行分词,其中连续的数字被分割成单个数字。


最终整个训练数据集在分词后获得了大约1.4T的tokens,除了维基百科和图书数据外,其他的数据在训练期间只使用一次,总共进行了约两个epochs

参考资料:
https://www.together.xyz/blog/redpajama





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿tokenChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChatZT:中医看病的基本思路比Adam快2倍!斯坦福提出Sophia:大模型预训练新优化器,成本减半!【城事】巴黎市长将重修Châtelet 广场以方便行人碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging FaceA股年度大数据揭晓!去年营收近72万亿,净利超5.2万亿,研发投入逾1.6万亿,发放2.14万亿巨额"红包"GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门被打开高达3.6万亿token!PaLM 2训练数据翻5倍,全新Bard对比ChatGPT有8个优势300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools来自新西兰乡村高中,她被哈佛、斯坦福等四所顶尖大学录取!这个女孩太棒了!GAN重出江湖!中国团队抢先开源“复刻版”DragGAN,AI一键实现“大象转身”用ChatGPT控制NPC,行动逼真到像正常人!斯坦福谷歌新研究炸场,赋予大模型准确记忆力集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布GPT-4偷袭发布!ChatGPT能识图和逻辑推理,靠自己考上斯坦福【附发布会中英文字幕版】从BERT到ChatGPT!97页全面综述:那些年一起追过的预训练基础模型2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载巴黎市长将重修Châtelet 广场以方便行人怎么开始学佛(八)六根,六尘,六识ChatGPT升级版!GPT-4 能识图能算税,升级成考霸,华裔AI科学家点评:它可以自己考进斯坦福了真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA今年与国内家人团聚 能不能成行?轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?黑与光的对话 | 法国皮埃尔·苏拉热的黑色油画「ChatGPT之母」最新采访:GPT-4离超级智能还很远,半年内不会训练GPT-5人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型开源版ChatGPT来了?多数任务效果超越GPT3,已开源!让女人难以抗拒的爱情宣言北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。