Redian新闻
>
王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k

公众号新闻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

整个开源大模型战场,打得乱成一锅粥了!

最新加入战事的是王小川创业的AI公司百川智能,宣布推出70亿中英文预训练大模型baichuan-7B

速度不慢——此时距离百川智能在4月中旬官宣创业,开始训练大模型,只过去了2个月时间。

而且在3个中文评估基准C-Eval、AGIEval和Gaokao上,均拿下SOTA。

据官方消息,baichuan-7B代码采用更为宽松的开源协议,只需简单登记,就能免费商用

目前,baichuan-7B大模型已在抱抱脸、Github和魔搭发布,开源内容包含推理代码、INT4量化实现、微调代码,以及预训练模型的权重。

而且北大和清华已经率先成为baichuan-7B的入幕之宾,开始使用其推进相关研究工作。

万亿token中英文大模型

baichuan-7B,采用了LLaMA一样的模型设计。

作为70亿参数的底座模型,尚未经过监督微调(supervised fine-tuning)和RLHF。

可用于文本生成、文本分类、问答系统、机器翻译等多个领域。

作为中英双语模型,主要以高质量中文语料为基础,同时融合优质英文数据。

数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选。

内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建的预训练数据包含1.2万亿token,兼顾质量和多样性。

相较于其他同参数规模的开源中文预训练模型,数据量提高了50%以上。

以万亿token为基础,为了更好地提升训练效率,baichuan-7B深度整合模型算子,以加快计算流程。

还针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信,baichuan-7B成功实现了计算与通信的高效重叠,进而达到超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops。

目前开源模型窗口的普遍行情是,长度在2K以内。

这样的处理长度对长文本建模任务,如需要引入外部知识做搜索增强的场景,产生了较大的限制。

为了训练与推理阶段捕获越多的上下文信息,baichuan-7B基于attention算子优化,实现了万级别超长动态窗口的扩张能力,开放了4K上下文窗口

此外,baichuan-7B还对模型训练流程进行了深度优化,提升了模型收敛速度。

与同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。

为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评估基准进行了综合评估,均获得优异成绩。

(Gaokao是复旦大学研究团队创建的评测框架,以高考题为数据集,拿来测试大模型在中文语言理解和逻辑推理能力方面的表现。)

英文评估基准MMLU的评测中,baichuan-7B综合评分达42.5分,领先英文开源预训练模型LLaMA-7B。

500亿参数版本推进ing

从2月王小川宣布加入大模型占据已在“筹备之中”,到4月中旬官宣新公司百川智能名称,正式加入混战,到现在baichuan-7B的推出,用时大约4个月

难怪乎试用网友们除了对baichuan-7B进行人肉体验外,不少人还对研发速度进行点赞:

目前,北京大学和清华大学已率先使用baichuan-7B推进相关研究工作,并计划在未来与百川智能深入合作。

动作迅速的百川智能,背后是怎么样的团队班底?

除了牵头人王小川,前搜狗COO茹立云是已经对外公布的合伙人。

团队方面,以此前搜狗团队为基础,加上来自百度华为微软字节腾讯等公司的人才。

目前,公司还传出对外招聘大模型实习算法工程师的消息。

公司旨在打造中国版的OpenAI基础大模型及颠覆性上层应用,瞄准搜索、多模态、教育、医疗等领域。

于今年2月启动筹办后,迅速获得5000万美元(约人民币3.4亿元)启动资金,王小川自掏腰包一部分,还有来自业内好友的个人支持。

4月正式旗帜鲜明地进入大模型之战时,王小川曾对量子位透露,百川智能的大模型已经在训练,年中就会有第一版发布,希望年底追平GPT-3.5。

不过,与当初的说法略有出入,现在与大家见面的模型是70亿参数,而非当时所说的“500亿参数版本”。

Why??

王小川对此的解释是:

原定计划没有变,仍在顺利推进中。

辣么,也就是说今年夏天,百川智能还会丢出一枚大模型。

到时候已经乱成一锅粥的开源大模型赛事,会有更猛烈的纷飞炮火吧?

开源地址:
Hugging Face:
https://huggingface.co/baichuan-inc/baichuan-7B
Github:https://github.com/baichuan-inc/baichuan-7B
Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

— 联系作者 —

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《等你我等了那麼久》終於來到了墨爾本王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署爆火DragGAN正式开源,GitHub近18k星!清华校友带GAN逆袭,大象一秒P转身拳打智谱,脚踢 Meta,百川智能成了 7B 规模大模型 NO.1?MetaGPT爆火出圈!2美元就能当老板,GitHub狂揽11.2k星,AI智能体「多面手」诞生650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星王小川大模型首亮相!70亿参数霸榜,清北抢先用王小川创办的百川智能发布Baichuan-13B 参数量达130亿王小川:坐在电脑前的工作大概率会被大模型取代,且坐的时间越长,越容易被取代杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访王小川第三个大模型发布!530亿参数、服务B端、文科更强GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新神兽归笼和空巢老人王小川又发大模型,闭源或许离商业更近王小川月更大模型:530亿参数但闭源,现场拷问室温超导相关问题华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来​​李嘉诚将投资千亿在欧洲建5G网络;王小川发布开源中英文大模型;​钟薛高回应21家分公司全部注销;故宫禁止未经允许进行商业拍摄对话王小川:决定大模型的胜负,钱很重要,人更重要M3版MacBook Pro或明年发布/王小川回应大模型套壳争议/微博新增VVIP会员复旦MOSS大模型开源了!Github和Hugging Face同时上线百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」热点 ¦ 今夏列治文最火爆楼盘!付定金拎包入住!先住后买!列治文最新天车站直通社区新旧东京浅草寺王小川的大模型打造秘籍首次曝光:五步走,两个月炼成AI「复刻」现实女友爆火!国外小哥开源GirlfriendGPT,GitHub已获1.3k星学霸交卷!这座超级城市的半年“成绩单”,秀出了中国经济的底气国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE免费、可商用,阿里云开源70亿参数通义千问大模型双林奇案录第三部之长命锁: 第二节外面的世界
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。