Redian新闻
>
王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署

王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署

科技
衡宇 金磊 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,王小川的开源大模型又有了新动作——

百川智能,正式发布130亿参数通用大语言模型(Baichuan-13B-Base)

并且官方对此的评价是:

性能最强的中英文百亿参数量开源模型。

与此一同出道的,还有一个对话模型Baichuan-13B-Chat,以及它的INT4/INT8两个量化版本。

但更重要的一点是(划重点)完全开源!免费可商用!

就在不久前的6月15日,百川智能才刚刚发布其第一款70亿参数量的中英文语言模型Baichuan-7B。

当时的版本便已经拿下多个世界权威Benchmark榜单同量级测试榜首;同样作为开源大模型,据说清华北大都已经用上了。

仅仅时隔25天,更大、更强的版本再次袭来,不得不说,王小川在技术上的动作是有够紧锣密鼓的了。

那么这次号称的“最强开源大模型”,具体表现又是怎样呢?

多领域超越ChatGPT

老规矩,先提纲挈领地说一下Baichuan-13B的基本个“模”资料:

中英双语大模型,130亿参数,在1.4万亿token数据集上训练,完全开源、免费可商用。

1.4万亿ztoken这个训练数据量,超过LLaMA-13B训练数据量的40%,是当前开源的13B尺寸模型世界里,训练数据量最大的模型。

此外,Baichuan-13B上下文窗口长度为4096——这就不得不提到其与7B版本完全不同的编码方式。

7B版本采用RoPE编码方式,而13B使用了ALiBi位置编码技术,后者能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而更好地捕捉文本中上下文的相关性,让预测或生成更准确。

作为一款中英文双语大模型,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料,从而在中英两种语言上都有不俗表现。

主流百亿参数13B开源模型benchmark成绩

来看看Baichuan-13B在中文领域的测评成绩

在评测集C-EVAl上,Baichuan-13B在自然科学、医学、艺术、数学等领域领先LLaMA-13B、Vicuna-13B等同尺寸的大语言模型。

社会科学和人文科学领域,水平比ChatGPT还要好上一点。

英文领域的表现也算不错,能比同尺寸的其他开源模型,如LLaMA-13B、Vicuna-13B都有更好的表现。

通常而言,非专业用户和有具体需求的企业,对有对话功能的对齐模型有更重的好奇心。

鉴于这个情况,百川智能此次在发布与训练模型底座Baichuan-13B-Base的同时,还发布了其对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。

来看看对话模型的实际表现效果——

让它写个商品介绍邮件,它能写出酱婶儿的:

数据推理能力如何?

也浅测了一番:

至于互联网上远古或新近流行的各种梗,Baichuan-13B-Chat好像也没在怕的:

官方介绍,为了保证模型的纯净度,Baichuan-13B-Base和Baichuan-13B-Chat没有针对任何benchmark测试进行专项优化,具有更高的效能和可定制性。

为什么要完全开源、可商用?

正如我们刚才提到的,这次百川智能推出的Baichuan-13B-Base是对学术研究完全开放

不仅如此,所有开发者均可通过邮件向百川智能申请授权,在获得官方商用许可后即可免费商用。

而且据官方的说法,百川智能是为了降低使用的门槛,才同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本。

这样一来,在近乎无损的情况下,便可以将模型部署在如3090等消费级显卡上

想必很多小伙伴就要问了,百川智能为什么要走这么一条路?

其实如果看下Meta在大模型上的开源之路,便可窥知一二。

我们都知道大模型在训练的成本极高,因此像OpenAI和谷歌两大科技巨头最初选择的是闭源的“路数”,它们为的就是以此保证自己的优势。

而Meta后来所推出的LLaMa则与之“背道而驰”,但所迸发出来的潜力却是有目共睹——

迅速吸引大批开发者,在LLaMa基础上迭代出了各种ChatGPT的替代品,甚至在性能的表现上是可以匹敌GPT-3.5的那种。

加之业界对大模型未来发展态势已经达成了一个共识:

类似安卓和iOS,将会是开源和闭源共存的状态。

因此,开源在大模型的发展中已然成为一股不可或缺的中坚力量。

……

那么你对于王小川的新大模型,有何看法呢?

【HuggingFace】

预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

【GitHub】

https://githuB.com/Baichuan-inc/Baichuan-13B

【Model Scope】

预训练模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/

— 联系作者 —

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访微星推出泰坦 GP78HX 游戏本:i9-13980HX+RTX4090 版本 24999元、RTX4060版本 11299元开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型王小川大模型首亮相!70亿参数霸榜,清北抢先用Meta“搞大事”了:发布GPT“平替”Llama 2,开源、免费、还可商用!华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报中文版开源Llama 2同时有了语言、多模态大模型,完全可商用650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯值得交往的朋友有几个官方的Code Llama开源:免费商用,神秘版本接近GPT-4彻底开源,免费商用,上海AI实验室把大模型门槛打下来王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k王小川月更大模型:530亿参数但闭源,现场拷问室温超导相关问题免费、可商用,阿里云开源70亿参数通义千问大模型​​李嘉诚将投资千亿在欧洲建5G网络;王小川发布开源中英文大模型;​钟薛高回应21家分公司全部注销;故宫禁止未经允许进行商业拍摄百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用全球首个可商用生物医药大模型BioMedGPT-10B开源阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用Meta推出Llama2,免费可商用!国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上《春天的歌曲》&《梦想的远征》32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT王小川第三个大模型发布!530亿参数、服务B端、文科更强B型房车出行更加方便,六座横床可旅居可商用,高性价比小房车一花一世界,一树一菩提国内的食品王小川创办的百川智能发布Baichuan-13B 参数量达130亿首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯充满细菌的温泉浴室曝大基金三期将投3000亿!马斯克起诉中国公司侵害特斯拉技术秘密;王小川发布全新开源大模型! | AIoT情报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。