Redian新闻
>
首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

开源MoE模型,终于迎来首位国产选手!

它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。

这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。

它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoE。

除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。

在这张表现-激活参数量图中,它“一枝独秀”地占据了左上角的大片空白区。

发布仅一天,DeepSeek团队在X上的推文就有大量转发关注。

JP摩根的机器学习工程师Maxime Labonne测试后也表示,DeepSeek MoE的chat版本表现要略胜于微软的“小模型”Phi-2。

同时,DeepSeek MoE还在GitHub上获得了300+星标,并登上了Hugging Face文本生成类模型排行榜的首页。

那么,DeepSeek MoE的具体表现究竟怎么样呢?

计算量减少60%

DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。

与自家的7B密集模型相比,二者在19个数据集上的表现各有胜负,但整体比较接近。

而与同为密集模型的Llama 2-7B相比,DeepSeek MoE在数学、代码等方面还体现出来明显的优势。

但两种密集模型的计算量都超过了180TFLOPs每4k token,DeepSeek MoE却只有74.4TFLOPs,只有两者的40%。

在20亿参数量时进行的性能测试显示,DeepSeek MoE同样能以更少的计算量,达到与1.5倍参数量、同为MoE模型的GShard 2.8B相当甚至更好的效果。

此外深度求索团队还基于SFT微调除了DeepSeek MoE的Chat版本,表现同样接近自家密集版本和Llama 2-7B。

此外,深度求索团队还透露,DeepSeek MoE模型还有145B版本正在研发。

阶段性的初步试验显示,145B的DeepSeek MoE对GShard 137B具有极大的领先优势,同时能够以28.5%的计算量达到与密集版DeepSeek 67B模型相当的性能。

研发完毕后,团队也将对145B版本进行开源。

而在这些模型表现的背后,是DeepSeek全新的自研MoE架构。

自研MoE新架构

首先是相比于传统的MoE架构,DeepSeek拥有更细粒度专家划分。

在总参数量一定的情况下,传统模型分出N个专家,而DeepSeek可能分出2N个。

同时,每次执行任务时选择的专家数量也是传统模型的2倍,所以总体使用的参数量也不变,但选择的自由度增加了。

这种分割策略允许更灵活和适应性的激活专家组合,从而提高了模型在不同任务上的准确性和知识获取的针对性。

除了专家划分上的差异,DeepSeek还创新性地引入了“共享专家”的设置。

这些共享专家对所有输入的token激活,不受路由模块影响,目的是捕获和整合在不同上下文中都需要的共同知识。

通过将这些共享知识压缩到共享专家中,可以减少其他专家之间的参数冗余,从而提高模型的参数效率。

共享专家的设置有助于其他专家更加专注于其独特的知识领域,从而提高整体的专家专业化水平。

消融实验结果表明,这两个方案都为DeepSeek MoE的“降本增效”起到了重要作用。

论文地址:
https://arxiv.org/abs/2401.06066
参考链接:
https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源碾压前辈!Meta发布“最大、性能最好”的开源Code Llama 70B,但开发者纷纷喊穷:玩不起!清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航普林斯顿开源34B数学大模型:性能媲美谷歌Minerva,参数少一半!550亿token专业数据训练大模型时代,计算创新如何为应用性能提升开启新路径无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍雷军称小米汽车性能媲美百万级豪车/苹果 Vision Pro 被炒到 9 万,仍面临挑战/《王者荣耀》抖音直播已全面开放GLM-4国产大模型上线 称整体性能逼近GPT-4 降低推理成本“断崖式衰老”数列: 34岁 60岁 78岁 87岁 92岁 95岁 96岁 97岁 98岁瑶池仙境通义千问登顶 Hugging Face 榜首,国产开源大模型赶超 Llama2国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元性能逼近GPT-4,开源Mistral-Medium意外泄露?CEO最新回应来了最佳披萨何处寻?众望所归纽黑文。苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了长篇小说《谷雨立夏间》31 至忠堂天工2.0 MoE大模型发布;苹果开源自动修图神器MGIE;香港公司被AI换脸骗走2亿港元丨AIGC大事日报从零手搓MoE大模型,大神级教程来了中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用第113章 红袖招幻方量化开源国内首个MoE大模型,全新架构、免费商用工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B混合专家系统里根本没专家?开源MoE模型论文引网友热议打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。