Redian新闻
>
新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

公众号新闻
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

“最强”开源大模型之争,又有新王入局:

大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:

它在基准测试中击败了此前所有开源模型。

包括同为混合专家模型的Grok-1和Mixtral。

新王搅局,迅速引发了开源社区的热议。

毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿

就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍

DBRX vs Llama2-70B

另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,也就是Chinchilla定律推荐量的18倍。

网友们的第一反应be like:

首席科学家:打赌输了就把头发染蓝

来看DBRX的具体细节。

DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。

为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。

一个细节是,团队向Wired透露,经过两个月的训练之后,DBRX已经在基准测试中取得了不错的分数。而在那个时候,他们买的云资源还能再跑一个星期。

团队因此产生了小小的分歧:是用这些资源来训练一个小杯版本,还是再投喂给模型一些高质量数据,用课程学习(curriculum learning)的方法来提高DBRX在一些特定任务上的能力?

经过一番热烈的内部讨论,Databricks团队最终决定走课程学习路线。

正是这一决策使他们收获颇丰:

Databricks首席科学家Jonathan Frankle(就叫他老弗吧)认为,课程学习使得DBRX“产生了有意义的变化”

具象化一点来说,就是老弗本来觉得DBRX可能搞不太定代码生成,还打赌说如果他判断错了,就去把头发染成蓝色。

而这是他的最新照片:

回到正题,DBRX的测试结果显示,它在语言理解、编程、数学和逻辑方面都达到了SOTA,击败包括Llama2-70B、Mixtral和Grok-1在内的一众开源大模型。

还在大多数基准测试中都击败了GPT-3.5。

Databricks这次开源了DBRX的两个版本:DBRX Base和DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。

老弗还对Wired透露,他们团队接下来计划对模型训练的那个“最后一周”展开研究,看看DBRX这样强大的模型是如何在其中收获额外技能的。

值得一提的是,去年6月,Databricks以13亿美元(约93亿人民币)的价格,买下了仅62名员工的AI初创公司MosaicML——

就是发布了MPT系列开源模型的那家。

老弗当时就是MosaicML的首席科学家。此后,他和他的团队一起留在了Databricks。

开源社区嗨翻

DBRX发布不到4小时,已经有人把它成功部署到苹果M2芯片笔记本电脑上了。

而大模型竞技场也第一时间开放了DBRX-instruct的投票。

不过,也有人对DBRX的“开源”提出了质疑:

根据Databricks公布的协议,基于DBRX打造的产品,如果月活超过7亿,就必须另行向Databricks提交申请。

参考连接:
[1]
https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llms
[2]https://github.com/databricks/dbrx
[3]https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

评选报名即将截止!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选评选报名 截至2024年3月31日 

中国AIGC产业峰会「你好,新应用!」已开启报名!点击报名参会 同时,峰会将进行线上直播 ⬇️


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上说到做到,马斯克开源Grok,3140亿参数免费可商用全球最强开源模型一夜易主,1320亿参数推理飙升2倍!P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……冬雨周末最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍《希望》&《遇见》(陕西话版)马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐马斯克称每年要投资数十亿美元在AI硬件上;Meta发布开源大模型Code Llama 70B丨AIGC日报全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了换季的百搭之王来了!深V领设计,优雅又时髦,两位数入~开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源讯飞医疗递交IPO申请;Meta发开源大模型Code Llama 70B;马化腾称两年内不会有纯原生AI大应用丨AIGC大事日报中囯传统友情的两种范式全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?全球最强开源模型一夜易主,1320亿参数推理飙升2倍碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小马斯克如约开源 Grok,10 小时狂揽10000颗Star西西蝴蝶兰碾压前辈!Meta发布“最大、性能最好”的开源Code Llama 70B,但开发者纷纷喊穷:玩不起!开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4Llama 3拿下“赛点”?大模型角力场,开源与闭源之争仍在继续 |大模界天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻出版一本书刚刚!马斯克开源 Grok:参数量近 Llama 四倍,成全球最大开源模型AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有[日签] ​​​​​​鸡蛋从外面打破是食物,从里面打破是生命。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。