Redian新闻
>
免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

真·开源GPT模型,终于来了。

参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源

最关键的是,可商用

没错,虽然就GPT-3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩。

尤其最接近GPT-3的Meta OPT模型,不仅权重只开放给研究者,而且不可商用:

这意味着之前企业就算能抄作业,抄来的也没办法直接用。

现在,一家名叫Cerebras的公司开源了这一系列GPT模型,业界终于有机会追赶了。

模型性能如何?

Cerebras一共开源了7个GPT模型,参数量分别达到1.11亿、2.56亿、5.9亿、13亿、27亿、67亿和130亿。

据Cerebras公司表示,他们开放出来的模型不仅包含数据集,可用于研究也可商用,而且关键是预训练模型权重开放(从下图来看文件大小近50G)

基于他们公开的预训练模型,大伙儿只需要用少量的数据对对模型进行微调,就能构建出效果不错的模型来。

除此之外,这次GPT模型的训练还额外考虑到了计算优化训练 (Compute-Optimal Training)

这个方法最早由DeepMind在2022年提出,名叫Chinchilla,它认为大语言模型的语料数量和模型效果之间符合一个凸曲线,因此模型参数量和训练程度成一定比例。

依据这个方法,DeepMind认为,包括GPT-3在内的超大参数LLM模型,有很多都是训练不足的。

基于此,Cerebras搞出了这一系列GPT模型,并将背后的流程进行了开源。

所以,Cerebras-GPT系列模型性能如何呢?

团队将Cerebras-GPT系列和LLaMA、GPT-3等模型的性能进行了对比。

这是包括GPT-3、Gopher、Chinchilla和LLaMA在内的其他GPT模型,在完成句子、问答等特定任务上表现的效果。

这是不同大小的Cerebras-GPT模型零次学习(0-shot)的效果:

数据对比不是特别直观,团队还将结果进行了可视化。

可以看出,在最终性能相差不大的情况下,Cerebras-GPT的训练效率要更高一些。

曾开发最大AI芯片

其实,Cerebras的“本职”是一家AI芯片公司。

Cerebras公司由Sean Lie和Andrew Feldman等人于2016年创立。

其中,Andrew Feldman曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

与其他AI芯片公司不同,Cerebras开发的芯片超大,像晶圆一样(但确实是芯片)

他们当年做出来过一个名叫“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)的AI芯片,将逻辑运算、通讯和存储器集成到单个硅片上,一口气创下了4项世界纪录

  • 晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。

  • 芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。

  • 片上缓存最大:包含18GB的片上SRAM存储器。

  • 运算核心最多:包含40万个处理核心。

后来这个超大WSE又升级了二代,然后团队基于WSE-2打造出了一个名叫Cerebras CS-2的AI超算。

这次的Cerebras-GPT系列模型,就是在这个Cerebras CS-2的AI超算中训练出来的。对此这家公司表示:

虽然训练这么大体量的模型通常需要几个月时间,但我们几周就能搞定。

Cerebras还表示,虽然很多硬件公司都声称训练效果能接近英伟达GPU的水平,但他们还没看到任何一家亲自推动开源LLM的硬件公司,这势必不利于开源LLM的发展。

这波啊,这波Cerebras格局大了(手动狗头)

模型地址:
https://huggingface.co/cerebras/Cerebras-GPT-13B

参考链接:
https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纯命令行+美观UI,10款实用开源下载工具抱抱脸开源GPT不用注册直接玩!后续可选各种大模型,网友:“安卓时代”来了中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU国内首个类ChatGPT模型将开源/iPhone 15 Pro系列渲染图曝光/Meta加入硅谷AI竞赛成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍相对论动量和能量的一笔乱账两大可商用开源大模型同时发布!性能不输LLaMA,羊驼家族名字都不够用了英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型开源版ChatGPT,30分钟训完,性能堪比GPT3.5!叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能随笔一则生活琐记:好友聚餐,风雪无阻威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4可商用多语言聊天LLM开源,性能直逼GPT-4晨游,看文献dietary supplement没有降低LDL有了这100套PPT模板,我再也不为PPT发愁啦!(文末可下载)ChatGPT模型参数≠1750亿,有人用反证法进行了证明国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家AMD Radeon RX 7600M XT 移动显卡曝光,性能不输英伟达 RTX 4060打工人做梦都想拥有!270页PPT模板,速来下载,手慢无!在水一方科技感字体(可商用).ttf [ 第344期 ]50种学术图表绘制方法,59个绘图源文件下载,GraphPad Prism学术图表安排上!ChatGPT App正式上线,iPhone用户可下载,安卓版也要来了川普回来了!脸书、IG权限重获开启世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用Dolly 2.0发布,首个真正开放、可商用的指令调优LLM零基础深度学习教程爆火!专为手机阅读打造,月超23万人下载,155页内容免费开放2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载AI「复刻」现实女友爆火!国外小哥开源GirlfriendGPT,GitHub已获1.3k星国内首个类ChatGPT模型发布/苹果阻止免费安装iOS 17开测版/小米汽车再曝光注意!你发布的图片可能侵权了!这5个免费可商用图库网站值得收藏!部署国产ChatGPT仅需6G显存!ChatYuan模型开放下载:业内首个功能型对话开源中文大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。