Redian新闻
>
一大堆Chinese Llama3正在袭来

一大堆Chinese Llama3正在袭来

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | NLP工作站
作者 | 刘聪NLP

写在前面

大家好,我是刘聪NLP。

Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多Chinese-Llama3 repo,开源社区也是相当的卷。

再看到Llama3相关报告的时候,就预料到会有很多Chinese-Llama3,因为Llama3对中文十分不友好,15T Tokens的训练数据,仅有5%(750B Tokens)是其他语言,那么中文就更少了。

当时还抖激灵,说先开个repo占个坑(其实是想做但没卡)

很多网友们测试,也发现Llama3能力很强,可以理解中文问题的意思,但输出内容就会是英文,在提示词中强调用中文的情况下,会使用中文回答,但不稳定,有时会出现中英文结合的情况。

中文问题

强调中文回答

强调中文回答-但输出英文

强调中文回答-但输出英文

可想而知,开源社区会对Llama3进行中文增强(毕竟llama3基座很强),当然还是那几步:扩充中文词表、中文数据continue-pretrain、中文sft。

当然就像Llama2出来的时候一样,会带来很多机遇,借助Llama3的名头,还是可以肝出不少内容的。

下面先简单对Llama3进行介绍,再给大家分享一些已经开源的Chinese-Llama3项目。

Llama3

Llama3模型目前共开源了8B和70B两个参数规模的模型,400B参数规模的模型还在训练中。MetaAI也表示接下来的几个月里,将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口以及更强的综合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

  • 结构与Llama2基本一致,词表大小扩充到128K,8B和70B大小的模型中都采用了分组查询注意力(GQA),最大长度8K。

  • 15T Tokens进行模型预训练,整体是Llama2的7倍,代码数据是Llama2的4倍,其中5%的数据由其他30种语言组成。

  • 训练优化(数据并行、模型并行和流水线并行)实现同时在16K个GPU上训练,每个GPU的计算利用率超过400 TFLOPS。最终在24K个GPU上训练,相比于Llama2训练效率提高了约三倍。

llmsys对战

暂时投票还有点少,但匿名PK榜单效果已经很逆天了,暂时成为开源之最。

Chinese-Llama3

下面放几个已经开源权重的Chinese-Llama3,这才两天,后面会越来越多,现在还有一些repo在占坑。

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬们真实太肝了,目前涉及的版本是base和instruct模型利用中文数据直接SFT。

  • 2024-04-19 下午1点:世界上首个llama3 中文版训练完成,晚上没睡觉哈哈,使用170k+高质量多轮中文对话数据连夜训练得到。

  • 2024-04-20 早上7点:v2版训练完成。

  • 2023-04-20 晚上23点:instruct 中文版训练完成。

数据集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的数据。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中国联通AI创新中心开源,目前版本应该也是直接SFT版本,暂不清楚是基于base模型还是instruct模型。说后续会更新64K版本、增量预训练版本。

数据量未知,但表明是高质量指令数据(覆盖多个领域和行业),微调指令数据经过严格的人工筛查(如果真人工,是个大工程)。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

仅通过silk-road/Wizard-LM-Chinese-instruct-evol数据训练2个epoch进行中文测试。其中,maxlenght=2k、bs=8、steps=500。

写在最后

开源社区真的太卷了,上面两个项目都号称首个Chinese-Llama3,但暂时开源的还是Chinese-Llama3-8B为主,也可以理解,毕竟8B训练的更快。

期待后面更多的Chinese-Llama3出来,相信不久ymcui、lily、firefly、 IDEA等都会开中文Llama3吧。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新冠病毒正在袭来!加州首当其冲,湾区目前形势最为严峻For Chinese Students, the New Tactic Against AI Checks: More AI百花迎春礼赞中华Chinese Detergent Brand in a Spin Over Sexist Ad Campaign旅行的尽头是日本(26)菊水楼鳗鱼御膳中国将失去一个最大的机会?上海知名医生求救日记刷屏: 产科危机正在袭来…规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果My Child Spent a Fortune on a Chinese Video Game. What Now?【更新:Chase将发更正】离谱!Chase给Marriott Boundless信用卡5FN开卡奖励发了1099税表?!想都不敢想!英国妈妈花100刀买到一大堆杂货,加拿大人看崩溃了...口红一大堆,不如换成它!Diοr变色润唇膏,一抹水润嘟嘟唇,冬天必备!美股基本面 - 2024_02_29 * 晨报 * “知日派”经济学家谈日股飙涨:日本企业的“动物精神”觉醒是关键!预计202激进式押注AI手机的厂商一大堆,为什么登顶的是它家麻州一流公立学区,富豪名流聚居地,本周豪宅精选--Weston/Newton/Wellesley/WinchesterFor Stressed Young Chinese, Chiikawa Toys Are Digital Ibuprofen关于《嫁接》的写作感想口红一大堆,不如换成它!Diοr变色润唇膏,一抹水润嘟嘟唇!How a Student’s Fake Exercise Book Broke the Chinese InternetOpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词Obesity Damages Brain Health, Chinese Study FindsChinese Shopping Platforms Phase Out Unpopular Presale Schemes麻州顶级学区,波士顿优质学区房,本周Open House房源精选--Weston/Newton/Wellesley干点正事吧!虎皮,豹皮…一大堆,纽约华男非法销售野生动物制品被定罪。Jellycat限时巨折!2折起:英国优衣库/Diesel/GoldenGoose/We11done等!Chinese Parents Falling Prey to Dubious Myopia ‘Miracle Cures’Zen of One: A Canadian’s Pursuit of Ancient Chinese Aesthetic常见中国签证类型,应该如何选择?Common Chinese Visa Types: How to Choose?上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉……Target 折扣周正式开抢!刨冰机户外椅,一大波夏日好物袭来!炸锅!加拿大华人晒牛奶金,一下子补贴8000刀,完全覆盖学费!一大堆网友酸了...Blending Sports With Travel, Chinese Fans Set Sights on Paris波士顿顶尖学区,周末Open House房源精选--Weston/Wellesley/Newton/Lexington史上最强开源大模型 Llama 3正式发布。。。上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。