百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年
百川智能的又一座里程碑。
作者|刘杨楠
编辑|栗子
王小川又发大模型了。
自今年4月成立以来,王小川新公司百川智能便保持着极快的发展节奏。6月开始,百川智能以每月一次的频率连发三次开源大模型——
6月15日,发布70亿参数量的中英文预训练大模型baichuan-7B;
7月11日,发布130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本;
8月8日,发布第三款大模型产品Baichuan-53B。
截至目前,百川开源大模型在开源社区总下载量已突破500万。其中,Hugging Face首周下载量达百万,近一个月的下载量337万。而且在Github上,Baichuan系列模型是星标月涨幅最快的中国大模型。
9月6日下午,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。
Baichuan2是“Baichuan”系列开源模型的全面升级。据介绍,相比第一代,Baichuan2的文科、理科能力均大幅提升。其中,Baichuan2-13B-Base数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。
此外,根据MMLU等多个权威英文评估基准评分,Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。
数据方面,Baichuan2的训练token数达2.6T,支持中、英、西、法等数十种语言;基于万亿互联网数据精选、筛选优质垂直行业数据;打造了超大规模内容聚类系统,完成小时级千亿数据清洗和滤重;并有多粒度内容质量打分体系,能分别对篇章、段落、句子进行质量打分,支持细粒度采样。在模型安全问题上,Baichuan2加入了大量安全价值观对齐工作。
此外,百川智能还在学术生态建设上花了不少力气。
百川智能首次开源了模型训练从220B到2640B全过程的Check Ponit。复旦大学计算科学技术学院教授、博士生导师,中国中文信息学会理事张奇表示:“之前很多开源模型都带着Chat,在做二次预训练时,Chat模型其实用处不大,但百川开源的模型非常干净,并且公布了训练切片,对学术非常友好。”
除公开训练过程外,百川智能在发布会上宣布,公开Baichuan2的技术报告。技术报告将详细介绍Baichuan2训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。
(报告链接:https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf )
中国科学院院士、清华大学人工智能研究院名誉院长张钹院士在开场致辞中明确肯定了百川智能用开源模型助力学术研究的价值。张钹表示,中国推出的大模型主要集中在垂直领域的应用上,很少有大模型的定位是助力学术研究。
“我认为学术研究非常重要,主要研究大模型本身。因为到现在为止,全世界对大模型的工作原理及其所产生的现象都是一头雾水,所有的结论都指向了‘涌现’。所谓‘涌现’其实是我们给自己的一条退路,解释不清楚的情况下就说它是涌现,实际上这反映了我们根本不了解大模型的工作原理。我认为有必要把大模型本身搞清楚,这样才可能真正发展出有中国特色的大模型。”张钹表示。
据了解,目前,国内不少企业和开发者正在使用开源的LLaMA。王小川也注意到了这一点。除模型基本信息外,王小川现场透露了团队在设计“Baichuan”系列模型过程中的一些巧思:“在模型参数和结构设置上,我们也尽可能靠近LLaMA系列,这样做的最大的意义在于,让社区用户能够直接从LLaMA换成百川的模型。同时,我们尽可能兼容更多的社区生态,包括推理、训练到部署工具等外部环境都能很好地兼容Baichuan,这样也会得到社区更大的支持。”
“从今天开始,当我发布Baichuan2之后,中国企业用LLaMA2的时代已经过去了。一方面LLaMA2本身没那么好;另一方面,LLaMA的开源协议中有些条款对中国企业是不太友好的。现在我们可以获得比LLaMA更友好且能力更强的开源模型,帮助扶持中国整个开源生态的发展。”王小川自豪地说。
现场,百川智能联合中国计算机学会(CCF)成立了CCF&百川大模型研究基金,基金支持“大规模型技术”及“大规模垂直领域及应用”两大核心方向,旨在推动围绕大模型不同阶段、不同维度的技术,和不同领域、场景的结合应用等相关研究。
王小川透露,按照公司计划,今年四季度将发布对标GPT-3.5的千亿级参数模型,预计于明年一季度发布超级应用。“除开源模型以外,下一次在闭源模型上会有更多的突破,希望在中国的开源闭源生态中都能给中国的经济社会发展带来我们的贡献。”王小川说。
短期内,开源和闭源长期共存已经成为业内基本共识。百川智能已经在国内开源生态中拔得头筹,接下来,焦点或许就在百川智能的闭源模型和超级应用上了。
目前,百川智能已经与腾讯云、阿里云、火山方舟、华为、联发科等企业达成合作,共创中国大语言模型开源免费商用格局。
(图片来源:百川智能)
END.
微信扫码关注该文公众号作者