Redian新闻
>
性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!

性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!

科技

夕小瑶科技说 原创
作者 | 蛋糕
大数据人工智能公司 Databricks放大招了!3月27日,该公司开源了通用大模型 DBRX,并声称该模型是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。

Databricks CEO&创始人 Ali Ghodsi表示,DBRX不仅在测试中超过了所有先前的开源模型,而且该模型本身是一个专家混合模型(MoE),大致上拥有两倍的计算能力(132B),但成本只有Llama2-70B的一半(36B),这使得它既聪明又廉价。并且DBRX的运行速度接近于Llama2-70B的两倍。

DBRX 是在 12 万亿 Token 的文本和代码上预训练的 16×12B MoE LLM,它支持的最大上下文长度为 32k Tokens,并使用了DBRX 使用旋转位置编码 (RoPE)、门控线性单元 (GLU) 和分组查询注意力 (GQA) 等技术来提高模型质量,Hugging Face 工程师 Vaibhav Srivastav 用狂野表示他对DBRX性能的震撼!

知名的机器学习专家、著名书籍《The Hundred-Page Machine Learning Book》的作者Andriy Burkov表示DBRX性能十分强大,如果你有足够多的大型GPU来进行微调,那么结果将是开放式语言模型中最好的。

综合来看,DBRX主要有三个优势,第一性能强,第二成本低,第三运行快

目前,DBRX的基础版本(DBRX Base)和微调版本(DBRX Instruct)都可以在GitHub和AI开发平台Hugging Face上免费获取,供研究和商业使用。用户可以在公共、自定义或其他专有数据上运行和调整。

DBRX Base Hugging Face地址:
https://huggingface.co/databricks/dbrx-base
DBRX Instruct Hugging Face地址:
https://huggingface.co/databricks/dbrx-instruct
Github链接:
https://github.com/databricks/dbrx

让我们来看看DBRX的具体表现吧~

性能测试

DBRX 与开源模型比较

DBRX在语言理解、编程以及数学推理等任务上轻松超越了Meta公司的Llama2-70B、法国Mixtral AI公司的Mixtral以及马斯克刚刚开源的 Grok-1等主流开源大模型。

在两个综合基准测试上评估了DBRX Instruct和其他模型:Hugging Face开放LLM排行榜(包括ARC-Challenge、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8k的平均分)和Databricks模型Gauntlet(包含超过30个任务,涵盖世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程等六个类别)。DBRX Instruct在综合基准测试、编程和数学基准测试以及MMLU方面是领先的。它在标准基准测试中超过了所有聊天或指导微调模型。

DBRX 与闭源模型比较

DBRX Instruct 超越了 GPT-3.5(如 GPT-4 论文中所述),并且与 Gemini 1.0 Pro 和 Mistral Medium 具有相当的竞争力。

其中,最让人惊喜的是,在各个评测任务中,DBRX Instruct要么与GPT-3.5持平要么明显超越GPT-3.5,虽然和GPT-4相比仍有一定差距,但是DBRX Instruct毕竟是个开源模型,这样的结果可以让科研工作者一定程度上减少对闭源模型的依赖。看来越来越多的公司可以和OpenAI抗衡了!

长下文任务和 RAG

DBRX Instruct 训练上下文窗口大小为 32K token。DBRX Instruct 表现比 GPT-3.5 Turbo 好;DBRX Instruct 和 Mixtral Instruct 的整体性能相似。

训练效率

在Databricks的研究中,DBRX Instruct模型在计算效率和质量方面取得了显著进展,通过混合专家模型、改进数据质量和优化策略等手段,有效提高了训练和使用模型的效率。

推理效率

DBRX和类似模型在推理效率方面表现出色,MoE架构使得在模型质量和推理效率之间取得更好的平衡,DBRX的推理吞吐量比非MoE模型高2-3倍。

通过测试可以看出,对于同样的输入数据和同样的任务,DBRX Instruct的生成速度要明显快于Llama 2 70B Chat。(图源网络)

结论

本文介绍了DBRX新的开源大模型,该模型在各个任务上都达到了开源大模型的SOTA,并且成功超越或持平了GPT-3.5等常用的闭源大模型,更为重要的是,MoE架构使得DBRX Instruct在模型性能和推理效率之间取得更好的平衡,推理速度也明显快于当前常用的开源大模型,也许,开源的大模型就此崛起!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
性能直逼 GPT-4!最强大的免费开源模型出世 | 极客时间微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试美国拟限制“开源 AI 大模型出口”;百度副总裁“狼性职场言论”惹争议,李彦宏情绪激动点评;谷歌一半员工没干活?| Q资讯周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报网友缝合Llama3 120B竟意外能打,轻松击败GPT2-chatbot和GPT-4扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切意外之喜,与最佳留学生异地相聚Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了《藏品故事》 华荣堂制微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder李彦宏内部评璩静风波;美国拟限制“开源 AI 大模型出口”;OpenAI 人工智能搜索产品有望于下周一推出 | AI 周报开源大模型火了!(附99个大模型微调模型/数据/工具)!讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力张核子回应张姗姗身份;雷军直播回应造车亏损;Meta发布最强开源大模型Llama 3;阿里拍卖回应前员工指控高管职场霸凌|邦早报Google发布最强开源大模型Gemma/苹果OLED产品路线图曝光/小米汽车价格定了?高管辟谣武汉杨泗大桥马斯克正式开源 Grok-1,成为全球最大的开源大模型最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4史上最强开源大模型 Llama 3正式发布。。。许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...通义千问 2.5 发布,成为中国最强开源大模型面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B7034 血壮山河之枣宜会战 “扑朔迷离”南瓜店 11华为 Pura 70 系列上架即售罄/Meta 发布全球最强开源大模型/理想汽车 L6 发布比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类芭芭拉跟安姬拉最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍谷歌最强开源大模型亮相!Gemini技术下放,笔记本就能跑,可商用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。