Redian新闻
>
两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了

两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

从Meta的LLaMA发展出的羊驼家族一系列大模型,已成为开源AI重要力量。

但LLamA开源了又没全开,只能用于研究用途,还得填申请表格等,也一直被业界诟病。

好消息是,两大对标LLaMA的完全开源项目同时有了新进展。

可商用开源大模型来了,还一下来了俩:

MosaicML推出MPT系列模型,其中70亿参数版在性能测试中与LLaMA打个平手。

Together的RedPajama(红睡衣)系列模型,30亿参数版在RTX2070游戏显卡上就能跑。

对于这些进展,特斯拉前AI主管Andrej Karpathy认为,开源大模型生态有了寒武纪大爆发的早期迹象。

MPT,与LLaMA五五开

MPT系列模型,全称MosaicML Pretrained Transformer,基础版本为70亿参数。

MPT在大量数据(1T tokens)上训练,与LLaMA相当,高于StableLM,Pythia等其他开源模型。

支持84k tokens超长输入,并用FlashAttention和FasterTransformer方法针对训练和推理速度做过优化。

在各类性能评估中,与原版LLaMA不相上下。

除了MPT-7B Base基础模型外还有三个变体。

MPT-7B-Instruct,用于遵循简短指令。

MPT-7B-Chat,用于多轮聊天对话。

MPT-7B-StoryWriter-65k+,用于阅读和编写故事,支持65k tokens的超长上下文,用小说数据集微调。

MosaicML由前英特尔AI芯片项目Nervana负责人Naveen Rao创办。

该公司致力于降低训练神经网络的成本,推出的文本和图像生成推理服务成本只有OpenAI的1/15。

RedPajama,2070就能跑

RedPajama系列模型,在5TB的同名开源数据上训练而来(前面提到的MPT也是用此数据集训练)。

除70亿参数基础模型外,还有一个30亿参数版本,可以在5年前发售的RTX2070游戏显卡上运行。

目前70亿版本完成了80%的训练,效果已经超过了同规模的Pythia等开源模型,略逊于LLamA。

预计在完成1T tokens的训练后还能继续改进。

背后公司Together,由苹果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,苏黎世联邦理工大学助理教授张策等人联合创办。

开源模型发布后,他们的近期目标是继续扩展开源RedPajama数据集到两倍规模。

One More Thing

来自南美洲的无峰驼类动物一共4种,已被各家大模型用完了。

Meta发布LLaMA之后,斯坦福用了Alpaca,伯克利等单位用了Alpaca,Joseph Cheung等开发者团队用了Guanaco。

以至于后来者已经卷到了其他相近动物,比如IBM的单峰骆驼Dromedary,Databricks的Dolly来自克隆羊多莉。

国人研究团队也热衷于用古代传说中的神兽,如UCSD联合中山大学等推出的白泽。

港中文等推出的凤凰……

最绝的是哈工大基于中文医学知识的LLaMA微调模型,命名为华驼

参考链接:
[1] 
https://www.mosaicml.com/blog/mpt-7b
[2]https://www.together.xyz/blog/redpajama-models-v1
[3]https://twitter.com/karpathy/status/1654892810590650376?s=20

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
去全球化往哪去35+7OpenAI被曝将发布全新开源大模型,网友:GPT平替?开源大模型新SOTA!支持免费商用,比LLaMA65B小但更强,基于1万亿token重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做Dolly 2.0发布,首个真正开放、可商用的指令调优LLM大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型Meta生成式AI竞赛下一站:让开发者靠开源大模型挣钱!中国的韭菜,真的不够用了!杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍灵活就业已经不够用了,现在的年轻人开始流行“散装就业”……免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3微信、QQ 出现功能异常,腾讯处罚多位高管;三个国产大模型同日官宣;日本政府将考虑采用 ChatGPT | 极客早知道孙火旺:315太小气了,每年给的名额都不够用!Meta开源大模型:支持4000+语言识别,1100+种语音文本转换我今早把我今年订了还没收到的花整理整理 加深印象碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来开源大模型到底开源什么?2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载源于墨尔多神山的时髦单品!不输LV、爱*仕,太美太惊艳大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品超越 GPT-4 的国产开源大模型来了!被疯狂转发的几件事。。。可商用多语言聊天LLM开源,性能直逼GPT-4澳洲墓地要不够用了!未来城市内恐无处下葬,专家:不应只看短期,更应着眼百年后!第三届 冇(Mǎo)国际青年影像周 开始征片啦!B型房车出行更加方便,六座横床可旅居可商用,高性价比小房车lāo dao?láo dao!怎么开始学佛(十三)路是要自己走的咀外文嚼汉字(213)“少子”、“无子”、“子名人”更难了!加拿大有望打破去年的移民记录:房子更不够用了!千亿参数开源大模型 BLOOM 背后的技术世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用伦敦沉浸式感受七大洲!当BBC这部纪大片做成360度沉浸展!眼睛都不够用了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。