Redian新闻
>
百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年

百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年

公众号新闻

百川智能的又一座里程碑。


作者|刘杨楠

编辑|栗子


王小川又发大模型了。


自今年4月成立以来,王小川新公司百川智能便保持着极快的发展节奏。6月开始,百川智能以每月一次的频率连发三次开源大模型——

6月15日,发布70亿参数量的中英文预训练大模型baichuan-7B;


7月11日,发布130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本;


8月8日,发布第三款大模型产品Baichuan-53B。


截至目前,百川开源大模型在开源社区总下载量已突破500万。其中,Hugging Face首周下载量达百万,近一个月的下载量337万。而且在Github上,Baichuan系列模型是星标月涨幅最快的中国大模型。


9月6日下午,百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,并且均为免费可商用。


Baichuan2是“Baichuan”系列开源模型的全面升级。据介绍,相比第一代,Baichuan2的文科、理科能力均大幅提升。其中,Baichuan2-13B-Base数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑推理能力提升25%,语义理解能力提升15%。


此外,根据MMLU等多个权威英文评估基准评分,Baichuan2-7B以70亿的参数在英文主流任务上与130亿参数量的LLaMA2持平。



7B参数模型的Benchmark成绩


数据方面,Baichuan2的训练token数达2.6T,支持中、英、西、法等数十种语言;基于万亿互联网数据精选、筛选优质垂直行业数据;打造了超大规模内容聚类系统,完成小时级千亿数据清洗和滤重;并有多粒度内容质量打分体系,能分别对篇章、段落、句子进行质量打分,支持细粒度采样。在模型安全问题上,Baichuan2加入了大量安全价值观对齐工作。


此外,百川智能还在学术生态建设上花了不少力气。


百川智能首次开源了模型训练从220B到2640B全过程的Check Ponit。复旦大学计算科学技术学院教授、博士生导师,中国中文信息学会理事张奇表示:“之前很多开源模型都带着Chat,在做二次预训练时,Chat模型其实用处不大,但百川开源的模型非常干净,并且公布了训练切片,对学术非常友好。”




除公开训练过程外,百川智能在发布会上宣布,公开Baichuan2的技术报告。技术报告将详细介绍Baichuan2训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等。


(报告链接:https://baichuan-paper.oss-cn-beijing.aliyuncs.com/Baichuan2-technical-report.pdf )


中国科学院院士、清华大学人工智能研究院名誉院长张钹院士在开场致辞中明确肯定了百川智能用开源模型助力学术研究的价值。张钹表示,中国推出的大模型主要集中在垂直领域的应用上,很少有大模型的定位是助力学术研究。


“我认为学术研究非常重要,主要研究大模型本身。因为到现在为止,全世界对大模型的工作原理及其所产生的现象都是一头雾水,所有的结论都指向了‘涌现’。所谓‘涌现’其实是我们给自己的一条退路,解释不清楚的情况下就说它是涌现,实际上这反映了我们根本不了解大模型的工作原理。我认为有必要把大模型本身搞清楚,这样才可能真正发展出有中国特色的大模型。”张钹表示。


据了解,目前,国内不少企业和开发者正在使用开源的LLaMA。王小川也注意到了这一点。除模型基本信息外,王小川现场透露了团队在设计“Baichuan”系列模型过程中的一些巧思:“在模型参数和结构设置上,我们也尽可能靠近LLaMA系列,这样做的最大的意义在于,让社区用户能够直接从LLaMA换成百川的模型。同时,我们尽可能兼容更多的社区生态,包括推理、训练到部署工具等外部环境都能很好地兼容Baichuan,这样也会得到社区更大的支持。”


“从今天开始,当我发布Baichuan2之后,中国企业用LLaMA2的时代已经过去了。一方面LLaMA2本身没那么好;另一方面,LLaMA的开源协议中有些条款对中国企业是不太友好的。现在我们可以获得比LLaMA更友好且能力更强的开源模型,帮助扶持中国整个开源生态的发展。”王小川自豪地说。


现场,百川智能联合中国计算机学会(CCF)成立了CCF&百川大模型研究基金,基金支持“大规模型技术”及“大规模垂直领域及应用”两大核心方向,旨在推动围绕大模型不同阶段、不同维度的技术,和不同领域、场景的结合应用等相关研究。


王小川透露,按照公司计划,今年四季度将发布对标GPT-3.5的千亿级参数模型,预计于明年一季度发布超级应用。“除开源模型以外,下一次在闭源模型上会有更多的突破,希望在中国的开源闭源生态中都能给中国的经济社会发展带来我们的贡献。”王小川说。


短期内,开源和闭源长期共存已经成为业内基本共识。百川智能已经在国内开源生态中拔得头筹,接下来,焦点或许就在百川智能的闭源模型和超级应用上了。


目前,百川智能已经与腾讯云、阿里云、火山方舟、华为、联发科等企业达成合作,共创中国大语言模型开源免费商用格局。


(图片来源:百川智能)



END.





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
性能碾压Llama 2,全球下载量超500万,百川智能开源模型凭什么?冠军企业有什么密码?中国基本盘2023制造业论坛告诉你答案|甲子光年稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图|甲子光年王小川创办的百川智能发布Baichuan-13B 参数量达130亿望繁信科技发布数字北极星3.0,为中国重新定义流程挖掘|甲子光年百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」desire for power and control is tied to a curse passed down thr上海马桥AI试验区,让一部分人先看到AGI时代|甲子光年刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTA长篇小说连载《此世,此生》第五十二章三百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT容联云发布赤兔大模型,一次由内而外的自我重塑|甲子光年2023中国智能矿山行业研究报告|甲子光年智库长跑选手加速,视源股份MAXHUB布局全球化生态|甲子光年前搜狗CMO洪涛入职百川智能 与王小川茹立云再度联手创业2023世界人工智能大会:大模型、机器人和AI芯片的试验场|甲子光年大模型时代,如何搭建数据的“智能化流水线” ?|甲子光年大模型落地,百度智能云的关键一步|甲子光年阅文发布首个网文行业大模型“阅文妙笔”,辅助网文创作、提效IP打造|甲子光年王小川:坐在电脑前的工作大概率会被大模型取代,且坐的时间越长,越容易被取代又一款能源大模型发布,为什么储能需要AI?|甲子光年百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力|甲子光年张一甲:中国正在形成一套独立于美国风投体系的投资循环,科技投资要和科技产业化的内生规律同频共振|甲子光年absolon 2003, kelly brook百度云上交大模型成绩单:接入42个大模型,月活企业近万家|甲子光年百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了声网音视频底座:一个企业音视频系统的“DIY平台”|甲子光年everyone has a destiny and not everyone follows it?王小川:中国大模型第一梯队不超过5家,我们会是其中之一大模型时代,智能驾驶赛道需要怎样的AI芯片?|甲子光年英特尔发布中国定制版大模型专用芯片Gaudi2,用性价比挑战英伟达|甲子光年搜狗三剑客齐聚「百川智能」!搜狗原CMO洪涛下周入职王小川新公司这届慕尼黑车展,“Made in China”含量过高|甲子光年周日爱美丽小三比赛,我顺便跑步
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。