Redian新闻
>
首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

开源MoE模型,终于迎来首位国产选手!

它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。

这个模型堪称19边形战士,特别是在数学和代码能力上对Llama形成了碾压。

它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoE。

除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。

在这张表现-激活参数量图中,它“一枝独秀”地占据了左上角的大片空白区。

发布仅一天,DeepSeek团队在X上的推文就有大量转发关注。

JP摩根的机器学习工程师Maxime Labonne测试后也表示,DeepSeek MoE的chat版本表现要略胜于微软的“小模型”Phi-2。

同时,DeepSeek MoE还在GitHub上获得了300+星标,并登上了Hugging Face文本生成类模型排行榜的首页。

那么,DeepSeek MoE的具体表现究竟怎么样呢?

计算量减少60%

DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。

与自家的7B密集模型相比,二者在19个数据集上的表现各有胜负,但整体比较接近。

而与同为密集模型的Llama 2-7B相比,DeepSeek MoE在数学、代码等方面还体现出来明显的优势。

但两种密集模型的计算量都超过了180TFLOPs每4k token,DeepSeek MoE却只有74.4TFLOPs,只有两者的40%。

在20亿参数量时进行的性能测试显示,DeepSeek MoE同样能以更少的计算量,达到与1.5倍参数量、同为MoE模型的GShard 2.8B相当甚至更好的效果。

此外深度求索团队还基于SFT微调除了DeepSeek MoE的Chat版本,表现同样接近自家密集版本和Llama 2-7B。

此外,深度求索团队还透露,DeepSeek MoE模型还有145B版本正在研发。

阶段性的初步试验显示,145B的DeepSeek MoE对GShard 137B具有极大的领先优势,同时能够以28.5%的计算量达到与密集版DeepSeek 67B模型相当的性能。

研发完毕后,团队也将对145B版本进行开源。

而在这些模型表现的背后,是DeepSeek全新的自研MoE架构。

自研MoE新架构

首先是相比于传统的MoE架构,DeepSeek拥有更细粒度专家划分。

在总参数量一定的情况下,传统模型分出N个专家,而DeepSeek可能分出2N个。

同时,每次执行任务时选择的专家数量也是传统模型的2倍,所以总体使用的参数量也不变,但选择的自由度增加了。

这种分割策略允许更灵活和适应性的激活专家组合,从而提高了模型在不同任务上的准确性和知识获取的针对性。

除了专家划分上的差异,DeepSeek还创新性地引入了“共享专家”的设置。

这些共享专家对所有输入的token激活,不受路由模块影响,目的是捕获和整合在不同上下文中都需要的共同知识。

通过将这些共享知识压缩到共享专家中,可以减少其他专家之间的参数冗余,从而提高模型的参数效率。

共享专家的设置有助于其他专家更加专注于其独特的知识领域,从而提高整体的专家专业化水平。

消融实验结果表明,这两个方案都为DeepSeek MoE的“降本增效”起到了重要作用。

论文地址:
https://arxiv.org/abs/2401.06066
参考链接:
https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源性能逼近GPT-4,开源Mistral-Medium意外泄露?CEO最新回应来了为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布通义千问登顶 Hugging Face 榜首,国产开源大模型赶超 Llama2普林斯顿开源34B数学大模型:性能媲美谷歌Minerva,参数少一半!550亿token专业数据训练瑶池仙境“断崖式衰老”数列: 34岁 60岁 78岁 87岁 92岁 95岁 96岁 97岁 98岁将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B碾压前辈!Meta发布“最大、性能最好”的开源Code Llama 70B,但开发者纷纷喊穷:玩不起!苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型天工2.0 MoE大模型发布;苹果开源自动修图神器MGIE;香港公司被AI换脸骗走2亿港元丨AIGC大事日报长篇小说《谷雨立夏间》31 至忠堂大模型时代,计算创新如何为应用性能提升开启新路径最佳披萨何处寻?众望所归纽黑文。首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了雷军称小米汽车性能媲美百万级豪车/苹果 Vision Pro 被炒到 9 万,仍面临挑战/《王者荣耀》抖音直播已全面开放幻方量化开源国内首个MoE大模型,全新架构、免费商用第113章 红袖招清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航从零手搓MoE大模型,大神级教程来了混合专家系统里根本没专家?开源MoE模型论文引网友热议打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。