Redian新闻
>
王小川创办的百川智能发布Baichuan-13B 参数量达130亿

王小川创办的百川智能发布Baichuan-13B 参数量达130亿

公众号新闻

雷递网 乐天 7月11日

搜狗创始人王小川创办的百川智能今日正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。

百川智能认为,未来大模型生态开源闭源并存已经是不争的事实,如同iOS与安卓。目前,以GPT-4为代表的超大参数量闭源模型和100亿-200亿参数量开源模型是大模型生态链中两个最佳实践。GPT-4固然能力强大,但闭源会要求企业访问公网以及难以定制化适配,使用场景受限。而开源能够使企业轻松地借助专有数据进行微调和私有化部署,进而促进百行千业的良性发展生态。

“Baichuan-13B中英文大模型集高性能、完全开源、免费可商用等诸多特点于一身,是目前所有33B以下尺寸开源模型中效果最好的可商用大语言模型。在国外已建立起闭源及开源大模型完整生态的背景下,弥补了国内高品质开源商业模型的不足,对助力中国大模型产业发展和技术进步都具有重要意义。”

这是百川智能发布的第二款通用大语言模型,前不久的6月15日,百川智能已推出首款70亿参数量的中英文语言模型Baichuan-7B。

预训练模型“底座”因其灵活的可定制性,适合具有一定开发能力的开发者和企业,而普通用户则更关注具有对话功能的对齐模型。因此百川智能在发布预训练模型Baichuan-13B-Base的同时还发布了其对话模型Baichuan-13B-Chat,Baichuan-13B-Chat部署简单、开箱即用,可降低了开发者的体验成本。

在语言模型中,上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096,不同于Baichuan-7B的RoPE编码方式,Baichuan-13B使用了ALiBi位置编码技术,能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而能够更好的捕捉文本中上下文的相关性,做出更准确的预测或生成。

作为一款中英文双语大模型,Baichuan-13B采用相对平衡的中英文语料配比和多语言对齐语料。百川智能称,在同等参数量的开源模型中堪称实力担当,能更好满足商业化场景需求。

百川智能给出的材料显示,中文领域,在权威评测C-EVAL中,Baichuan-13B在自然科学、医学、艺术、数学等领域大幅领先LLaMA-13B、Vicuna-13B等同尺寸的大语言模型,在社会科学、人文科学等领域甚至超越了ChatGPT。

英文领域,在英文最权威的榜单MMLU上,Baichuan-13B超过了所有同尺寸开源模型,并且在各个维度都具有优势。

中国亟待建立自己的开源大模型生态

大模型的训练成本极高,在海量算力的成本压力下OpenAI和谷歌都选择闭源来保证自家大模型的优势地位。但是从计算机科学与人工智能的发展历程来看,开源始终对软件技术乃至IT技术发展有着巨大的推动作用。

大模型时代,Meta走上了开源的道路,LLaMA基座开源之后因其出色的性能,迅速吸引大量开发者。在其基础上开发了各种ChatGPT开源替代品,并且以极低的训练成本屡次达到匹敌GPT-3.5的性能,激发了开源模型的创新活力。

未来大模型生态闭源与开源并存已是行业共识。凭借闭源路线的GPT、Palm2及开源路线的LLaMA,美国在大模型领域已经构建起完整的生态。

尽管中文世界不乏优秀的开发者、出色的创新能力和广泛的应用场景,但由于缺少高性能和高定制性的开源基座模型,在大语言模型领域的相关研究和应用上仍存在较大的挑战。中国急需优质开源可商用大模型补齐相关领域空白,与开发者和企业共同推动中国人工智能应用的创新生态发展。

百川智能创始人王小川表示,“我们期待国内大模型行业以及垂直领域能够在此基础上开发出更多优秀产品及行业应用,让技术在真实、丰富的应用场景中快速迭代创新,我们愿与众多企业、开发者一道为国内开源社区的生态繁荣贡献自己的力量。”

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了拳打智谱,脚踢 Meta,百川智能成了 7B 规模大模型 NO.1?百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上鞭牛晚报:东方甄选抖音直播间被关;搜狗原CMO洪涛将入职百川智能;薇娅夫妇公司被诉侵权王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k对话|王小川:人工智能的奇点2033年就会到来GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报Biden will ask Congress for $13B to support Ukraine百川智能发布 70 亿参数量开源中英文大模型杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯新冠疫情留给我们什么?扎克伯格公开怒斥马斯克炒作;被停职的王军传重回华为车BU;王小川称用电脑工作时间越长越会被ChatGPT取代丨雷峰早报百川智能发布开源中英文大模型,多个榜单评测成绩最佳每日烧钱500万,OpenAI或已在破产边缘;B站回应莫言账号被封;王小川谈ChatGPT:程序员是自己的“掘墓人”丨邦早报Llama也中招,混合精度下位置编码竟有大坑,百川智能给出修复方案估值80亿!李兰娟院士夫妇创办的「树兰医疗」冲刺IPO国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUE​​李嘉诚将投资千亿在欧洲建5G网络;王小川发布开源中英文大模型;​钟薛高回应21家分公司全部注销;故宫禁止未经允许进行商业拍摄王小川月更大模型:530亿参数但闭源,现场拷问室温超导相关问题阳光下暴晒王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署一百二十五 支前第二十章一百二十六 向全国进军王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访搜狗三剑客齐聚「百川智能」!搜狗原CMO洪涛下周入职王小川新公司在法国犯人都圈(juān)不进去了还不同意多建点监狱?为啥呀?王小川第三个大模型发布!530亿参数、服务B端、文科更强曝大基金三期将投3000亿!马斯克起诉中国公司侵害特斯拉技术秘密;王小川发布全新开源大模型! | AIoT情报前搜狗CMO洪涛入职百川智能 与王小川茹立云再度联手创业混合精度下位置编码竟有大坑,llama 等主流开源模型纷纷中招!百川智能给出修复方案王小川大模型首亮相!70亿参数霸榜,清北抢先用OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。