Redian新闻
>
国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上

国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上

公众号新闻
杨净 发自 凹非寺
量子位 | 公众号 QbitAI

国产大模型,再次迎来新玩家!

XVERSE-13B,开源即免费商用

来自前腾讯副总裁、腾讯AI lab创始人姚星创立的明星独角兽元象,公司成立一年即完成1.2亿美元融资。

此次开源的大模型,它支持40多种语言、8192上下文长度。在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。

目前,哈尔滨工业大学已经率先用上。

国产百亿大模型免费商用

据介绍,XVERSE-13B大模型主要有这几个方面的特点。

模型架构方面,它是基于标准Transformer架构(Decoder-only),支持8K上下文长度,据称这也是目前同尺寸标准模型中最长。这样一来,可满足更多轮对话,减少遗忘现象,以及输入更多内容完成复杂任务。

训练数据上,构建了1.4万亿tokens的数据集,包含中、英、俄、西等40多种语言。

而为了充分利用训练数据,他们在分词策略上,基于BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器。

这样一来,能够同时支持多语言,而无需额外扩展词表。

此外,还在训练框架上进行了算子、通信、并行策略及调度等方面的优化,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等自研技术,使得千卡集群上的峰值算力利用率达到 58.5%,据介绍位居业界前列。

作为通用大模型,它支持文本生成、自动化写作、数据分析、知识问答、多语言翻译、个性化交互、人物角色扮演、专业小助手等功能。

具体到各项能力测评上,他们选取了 MMLU(英文)、 C-Eval(中文)、AGIEval(中英) 、GAOKAO-Bench(中英)、GAOKAO-English(英文)等在内的评测集。

比如在MMLU测评中,其综合评分达到55.1分,在多个维度超过了同参数规模的主流模型。

(MMLU 由加州大学伯克利分校等高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的 57 个科目,主要目标是对模型的英文跨学科专业能力进行深入测评。其内容涵盖从初级水平到高级专业水平)

还有在C-Eval、AGIEval和GAOKAO-Bench等中文测评中,分别以54.7、41.4以及53.9分超越了其他模型。

目前,XVERSE-13B代码采用 Apache-2.0 协议,向学术研究完全开源,企业只需简单登记,即可免费商用。

哈工大已经率先使用大模型推进相关研究工作。哈工大计算机科学与技术学院张伟男教授表示:

开源是互联网时代主流模式,不仅能贡献社区,推动技术持续创新,还能利用协同解决算法透明性、稳定性、公众信任度等共性问题。

来自元象XVERSE团队

随着XVERSE-13B的发布,国产大模型迎来了新玩家:

元象XVERSE,2021年3月成立,专注于AI与元宇宙技术服务。

创始团队来自腾讯游戏、Adobe、微软、IBM、麦肯锡等公司。创始人是前腾讯副总裁姚星,他曾亲手创立了腾讯AI lab以及机器人实验室Robotics X,并兼管腾讯技术工程事业群(TEG)多个技术部门。

他也是腾讯在受AlphaGo震动决定战略布局AI时的一号位负责人,代表腾讯全球挖人组队,也代表腾讯喊出了口号:AI in All。在此期间曾主导推出了绝艺、绝悟、云深智药等行业代表性产品和应用,张潼张正友都曾向他汇报。

2022年3月,元象完成A与A+轮融资1.2亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。

在3D和AI技术领域,已自主研发出行业领先的“端云协同” 3D互动技术,主打零门槛、一站式、高品质的元宇宙体验。

目前客户包括澳门大三巴、腾讯音乐、央视、一汽大众、阿迪达斯、邮储银行等企业。

GitHub链接:
https://github.com/xverse-ai/XVERSE-13B

参考链接:
https://huggingface.co/xverse/XVERSE-13B

报名开启!8月9日

欢迎参加「AIGC时代的算力基石」

8月9日15:00量子位行业沙龙「AIGC时代的算力基石」将为你全景解读AIGC算力的发展机遇,邀请到来自昆仑芯、天数智芯、联想集团、首都在线、潞晨科技等代表性企业的嘉宾,聊聊行业的最新趋势!

点击“阅读原文”,报名线下参与AIGC算力沙龙吧 


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯免费、可商用,阿里云开源70亿参数通义千问大模型将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型安卓手机上跑15亿参数大模型,12秒不到就推理完了Meta发布免费商用大模型 / 微信团队取消秋招/ iPhone 16 Pro Max拍照性能或大幅提升移民生活(13)王老师的人生路无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用買了一顆皇冠树莓派上运行 Stable Diffusion,260MB 的 RAM「hold」住 10 亿参数大模型1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-41800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布“牵手门”的董小姐和暧昧的成都【公告】ChatGLM2-6B,免费商用32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”复旦新作:单机微调650亿参数大模型;蚂蚁、百度参投AI大模型创企;杭州检方对AI换脸案提起公诉丨AIGC大事日报《梦中的白云》&《深深的怀念》AMD放大!苏妈甩出最强AI芯片叫板老黄,可跑800亿参数大模型智源:70万预算从头开发千亿参数大模型,挑战成功1天训完45亿参数大模型!高校计算能力首次比肩科技巨头650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!下载量超300w的ChatGLM-6B再升级:8-32k上下文,推理提速42%羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品54百亿参数大模型进化树重磅更新!85页盘点LLM发展史,附最详细prompt技巧Biden will ask Congress for $13B to support Ukraine首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型Meta被曝明年发布「开源版GPT-4级」全新大模型!参数量比Llama 2大数倍,可免费商用旷视恢复IPO注册程序;清华ChatGLM2-6B模型免费商用;传马斯克的xAI估值200亿美元丨AIGC大事日报GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报今日的中央公园百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元改写游戏规则!Meta开源大语言模型Llama 2,可免费商用;微软Copilot定价每月每用户30美元 | 环球科学要闻
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。