Redian新闻
>
一大堆Chinese Llama3正在袭来

一大堆Chinese Llama3正在袭来

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | NLP工作站
作者 | 刘聪NLP

写在前面

大家好,我是刘聪NLP。

Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多Chinese-Llama3 repo,开源社区也是相当的卷。

再看到Llama3相关报告的时候,就预料到会有很多Chinese-Llama3,因为Llama3对中文十分不友好,15T Tokens的训练数据,仅有5%(750B Tokens)是其他语言,那么中文就更少了。

当时还抖激灵,说先开个repo占个坑(其实是想做但没卡)

很多网友们测试,也发现Llama3能力很强,可以理解中文问题的意思,但输出内容就会是英文,在提示词中强调用中文的情况下,会使用中文回答,但不稳定,有时会出现中英文结合的情况。

中文问题

强调中文回答

强调中文回答-但输出英文

强调中文回答-但输出英文

可想而知,开源社区会对Llama3进行中文增强(毕竟llama3基座很强),当然还是那几步:扩充中文词表、中文数据continue-pretrain、中文sft。

当然就像Llama2出来的时候一样,会带来很多机遇,借助Llama3的名头,还是可以肝出不少内容的。

下面先简单对Llama3进行介绍,再给大家分享一些已经开源的Chinese-Llama3项目。

Llama3

Llama3模型目前共开源了8B和70B两个参数规模的模型,400B参数规模的模型还在训练中。MetaAI也表示接下来的几个月里,将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口以及更强的综合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

  • 结构与Llama2基本一致,词表大小扩充到128K,8B和70B大小的模型中都采用了分组查询注意力(GQA),最大长度8K。

  • 15T Tokens进行模型预训练,整体是Llama2的7倍,代码数据是Llama2的4倍,其中5%的数据由其他30种语言组成。

  • 训练优化(数据并行、模型并行和流水线并行)实现同时在16K个GPU上训练,每个GPU的计算利用率超过400 TFLOPS。最终在24K个GPU上训练,相比于Llama2训练效率提高了约三倍。

llmsys对战

暂时投票还有点少,但匿名PK榜单效果已经很逆天了,暂时成为开源之最。

Chinese-Llama3

下面放几个已经开源权重的Chinese-Llama3,这才两天,后面会越来越多,现在还有一些repo在占坑。

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬们真实太肝了,目前涉及的版本是base和instruct模型利用中文数据直接SFT。

  • 2024-04-19 下午1点:世界上首个llama3 中文版训练完成,晚上没睡觉哈哈,使用170k+高质量多轮中文对话数据连夜训练得到。

  • 2024-04-20 早上7点:v2版训练完成。

  • 2023-04-20 晚上23点:instruct 中文版训练完成。

数据集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的数据。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中国联通AI创新中心开源,目前版本应该也是直接SFT版本,暂不清楚是基于base模型还是instruct模型。说后续会更新64K版本、增量预训练版本。

数据量未知,但表明是高质量指令数据(覆盖多个领域和行业),微调指令数据经过严格的人工筛查(如果真人工,是个大工程)。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

仅通过silk-road/Wizard-LM-Chinese-instruct-evol数据训练2个epoch进行中文测试。其中,maxlenght=2k、bs=8、steps=500。

写在最后

开源社区真的太卷了,上面两个项目都号称首个Chinese-Llama3,但暂时开源的还是Chinese-Llama3-8B为主,也可以理解,毕竟8B训练的更快。

期待后面更多的Chinese-Llama3出来,相信不久ymcui、lily、firefly、 IDEA等都会开中文Llama3吧。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉……上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉...关于《嫁接》的写作感想Property to Virtual Goods, More Young Chinese Are Drafting Wills【75k 开卡奖励】Chase Sapphire Reserve (CSR) 信用卡The Chinese Factory Tearing Love to ShredsZen of One: A Canadian’s Pursuit of Ancient Chinese AestheticHarrow、Downe House、Mill Hill…加入2024暑期夏令营!年薪$12万!精品投行Jefferies(US)已开放Equity Research Associate项目百花迎春礼赞中华美股基本面 - 2024_02_29 * 晨报 * “知日派”经济学家谈日股飙涨:日本企业的“动物精神”觉醒是关键!预计202口红一大堆,不如换成它!Diοr变色润唇膏,一抹水润嘟嘟唇,冬天必备!激进式押注AI手机的厂商一大堆,为什么登顶的是它家Chinese Scientists Discover New Kind of Dinosaur Egg中国将失去一个最大的机会?干点正事吧!虎皮,豹皮…一大堆,纽约华男非法销售野生动物制品被定罪。【更新:Chase将发更正】离谱!Chase给Marriott Boundless信用卡5FN开卡奖励发了1099税表?!旅行的尽头是日本(26)菊水楼鳗鱼御膳惊喜!澳政府开始大规模免除债务,一大批人欠钱不用还啦!每周还有$319可领,一大波福利正在路上...Not Just Toys: How Young Chinese Are ‘Parenting’ Dolls史上最强开源大模型 Llama 3正式发布。。。炸锅!加拿大华人晒牛奶金,一下子补贴8000刀,完全覆盖学费!一大堆网友酸了...OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词上海知名医生求救日记刷屏: 产科危机正在袭来…How Does Chinese Media Write About AI?Chase Sapphire Reserve (CSR) 信用卡【此卡赠送的PPS将失去餐厅福利,Ritz卡的也没了】麻州一流公立学区,富豪名流聚居地,本周豪宅精选--Weston/Newton/Wellesley/WinchesterHow a Student’s Fake Exercise Book Broke the Chinese InternetChase UR 点数“Pay Yourself Back” (PYB)【去掉Grocery类别,新增Wholesale类别】The Chinese ‘Auntie’ Who Hit the Road — and Never Looked Back&OtherStories大促6折!HB保健品买2赠1!Fresh/Essentials 6折起!【开卡奖励提高到了75k】信用卡推荐 | Chase Sapphire Reserve (CSR)Jellycat限时巨折!2折起:英国优衣库/Diesel/GoldenGoose/We11done等!今日全职|谷歌招聘Qualitative User Experience Researcher,学士/硕士均可报名!Can City Walks Fix What Ails Chinese Urbanism?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。