Redian新闻
>
幻方量化开源国内首个MoE大模型,全新架构、免费商用

幻方量化开源国内首个MoE大模型,全新架构、免费商用

公众号新闻
幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE,全新架构,免费商用。

今年 4 月,幻方量化发布公告称,公司将集中资源和力量,全力投身到服务于全人类共同利益的人工智能技术之中,成立新的独立研究组织,探索 AGI 的本质。幻方将这个新组织命名为 “深度求索 (DeepSeek)”。

DeepSeekMoE 的模型、代码、论文均已同步发布。
  • 模型下载:https://huggingface.co/deepseek-ai

  • 微调代码:https://github.com/deepseek-ai/DeepSeek-MoE

  • 技术报告:https://github.com/deepseek-ai/DeepSeek-MoE/blob/main/DeepSeekMoE.pdf

据介绍,DeepSeekMoE 的多尺度(2B->16B->145B)模型效果均领先:
  • DeepSeekMoE-2B 可接近 MoE 模型的理论上限 2B Dense 模型性能(即相同 Attention/FFN 参数配比的 2B Dense 模型),仅用了 17.5% 计算量

  • DeepSeekMoE-16B 性能比肩 LLaMA2 7B 的同时,仅用了 40% 计算量,也是本次主力开源模型,40G 显存可单卡部署

  • DeepSeekMoE-145B 上的早期实验进一步证明该 MoE 架构明显领先于 Google 的 MoE 架构 GShard,仅用 28.5%(甚至 18.2%)计算量即可匹配 67B Dense 模型的性能

混合专家模型 (Mixed Expert Models,简称 MoEs) 是用于提高大语言模型效率和准确度的技术。这种方法的核心是将复杂任务划分为更小、更易管理的子任务,每个子任务由专门的小型模型或 “专家” 负责,然后根据输入数据的特性选择性地激活这些 “专家”。
MoE 核心组成:
  1. 专家 (Experts)训练有素的小型神经网络,擅长特定领域。每个专家通常专注于处理一种特定类型的数据或任务。专家的设计可以是多种形式,如完全连接的网络、卷积网络等。

  2. 门控机制 (Gating Mechanism)MoE 架构决策者,这是一个智能路由系统,负责决定哪些专家应该被激活来处理当前的输入数据。门控机制基于输入数据的特性,动态地将数据分配给不同的专家。

官方称 DeepSeekMoE 是自研的全新 MoE 框架,主要包含两大创新:
  • 细粒度专家划分:不同于传统 MoE 直接从与标准 FFN 大小相同的 N 个专家里选择激活 K 个专家(如 Mistral 7B8 采取 8 个专家选 2 专家),DeepSeekMoE 把 N 个专家粒度划分更细,在保证激活参数量不变的情况下,从 mN 个专家中选择激活 mK 个专家(如 DeepSeekMoE 16B 采取 64 个专家选 8 个专家),如此可以更加灵活地组合多个专家

  • 共享专家分离:DeepSeekMoE 把激活专家区分为共享专家(Shared Expert)和独立路由专家(Routed Expert),此举有利于将共享和通用的知识压缩进公共参数,减少独立路由专家参数之间的知识冗余

点此查看详情:https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg


往期推荐



罗永浩:荣耀抄袭锤子手机One Step,比苹果都“牛逼”

因作者遭受恶意攻击,知名安卓框架宣布停更

R语言社区知名开发者 “谢益辉” 被RStudio/Posit公司解雇




这里最新源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能【动脉严选新品鉴第37期】百度灵医大模型:国内首个产业级医疗大模型从零手搓MoE大模型,大神级教程来了中关村科金发布国内首个企业知识大模型,助力企业业务创新增长纯爱小说﹕ 风云赋 (53) 门当户对机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万最香不过贴骨肉!月销1w+的爆款牛仔骨,免洗、免切、免调味ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线民國50年駐台美軍拍攝高雄街景的彩照免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!MoE架构,全量上线,MiniMax的abab6跨过玫瑰三段论了吗?将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训国内首个网络安全大模型评测平台 SecBench 发布打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布谎言一路走来(四十)天工2.0 MoE大模型发布;苹果开源自动修图神器MGIE;香港公司被AI换脸骗走2亿港元丨AIGC大事日报AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug爆款私募业绩低迷,量化开年也回撤!私募:把握底部机遇上海AI实验室开源科学大模型,理科能力全线提升,免费商用中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练Meta 宣布改组旗下 AI 部门,正训练自家下一代大语言模型 Llama 3;国内首个网络安全大模型评测平台发布丨AIGC日报颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头《幺妹和市场街》(3)手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。