Redian新闻
>
一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

公众号新闻
机器之心报道
编辑:陈萍、小舟


开源大模型领域,又迎来一位强有力的竞争者。


近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。



  • 项目地址:https://github.com/deepseek-ai/DeepSeek-V2

  • 论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model


DeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。



与 DeepSeek 67B (该模型去年上线)相比,DeepSeek-V2 实现了更强的性能,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升 5.76 倍。



DeepSeek-V2 的模型表现非常亮眼:在 AlignBench 基准上超过 GPT-4,接近 GPT-4- turbo;在 MT-Bench 中与 LLaMA3-70B 相媲美,并优于 Mixtral 8x22B;擅长数学、代码和推理。



下面是 DeepSeek-V2 与 LLaMA 3 70B、Mixtral 8x22B、DeepSeek V1 (Dense-67B) 对比结果:



在大海捞针(NEEDLE IN A HAYSTACK)任务中,DeepSeek-V2 在上下文窗口达 128K 时表现良好。



在 LiveCodeBench (0901-0401「一个专为实时编码挑战而设计的基准」) 上,DeepSeek-V2 获得了较高的 Pass@1 分数。



DeepSeek-V2 与不同模型在中文推理、中文语言上的表现:



在价格方面,DeepSeek-V2 API 的定价如下:每百万 token 输入 0.14 美元(约 1 元人民币)、输出 0.28 美元(约 2 元人民币,32K 上下文),与 GPT-4-Turbo 定价相比,价格仅为后者的近百分之一。



模型介绍


DeepSeek-V2 采用 Transformer 架构,其中每个 Transformer 块由一个注意力模块和一个前馈网络(FFN)组成。然而,对于注意力模块和 FFN,研究团队设计并采用了创新的架构。


一方面,该研究设计了 MLA,利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效推理。


另一方面,对于 FFN,该研究采用高性能 MoE 架构 —— DeepSeekMoE,以经济的成本训练强大的模型。 


在一些细节上,DeepSeek-V2 遵循 DeepSeek 67B 的设置,DeepSeek-V2 的架构如下图所示:



研究团队构建了由 8.1T token 组成的高质量、多源预训练语料库。与 DeepSeek 67B 使用的语料库相比,该语料库的数据量特别是中文数据量更大,数据质量更高。


该研究首先在完整的预训练语料库上预训练 DeepSeek-V2,然后再收集 150 万个对话,涵盖数学、代码、写作、推理、安全等各个领域,以便为 DeepSeek-V2 Chat 执行监督微调(SFT)。最后,该研究遵循 DeepSeekMath 采用群组相对策略优化 (GRPO) 进一步使模型与人类偏好保持一致。


DeepSeek-V2 基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。鉴于 DeepSeek-V2 的激活参数相对较少,并且重新计算部分算子以节省激活内存,无需张量并行即可训练,因此 DeepSeek-V2 减少了通信开销。


此外,为了进一步提高训练效率,该研究将计算和通信重叠,并为专家之间的通信、路由算法和线性融合计算定制了更快的 CUDA 内核。


实验结果


该研究在多种英文和中文基准上对 DeepSeek-V2 进行了评估,并将其与代表性的开源模型进行了比较。评估结果显示,即使只有 21B 个激活参数,DeepSeek-V2 仍然达到了开源模型中顶级的性能,成为最强的开源 MoE 语言模型。


值得注意的是,与基础版本相比,DeepSeek-V2 Chat (SFT) 在 GSM8K、MATH 和 HumanEval 评估方面表现出显著改进。此外,DeepSeek-V2 Chat (RL) 进一步提升了数学和代码基准测试的性能。



开放式生成的评估。研究团队继续在开放式对话基准上对模型进行额外评估。其中对于英文开放式对话生成,他们使用 MT-Bench 和 AlpacaEval 2.0 作为基准。表 4 中的评估结果表明, DeepSeek-V2 Chat (RL) 相对于 DeepSeek-V2 Chat (SFT) 具有显著的性能优势。这一结果展示了强化学习训练在改进一致性方面的有效性。


与其他开源模型相比,DeepSeek-V2 Chat (RL) 在两个基准的测试中均优于 Mistral 8x22B Instruct 和 Qwen1.5 72B Chat。与 LLaMA3 70B Instruct 相比,DeepSeek-V2 Chat (RL) 在 MT-Bench 上展现出具有竞争力的性能,并在 AlpacaEval 2.0 上的表现明显胜出。


这些结果凸显出了 DeepSeek-V2 Chat (RL) 在生成高质量且上下文相关的响应方面具有强大性能,尤其是在基于指令的对话任务中。



研究团队基于 AlignBench 评估了中文大模型社区的开放式生成能力。如表 5 所示,DeepSeek-V2 Chat (RL) 比 DeepSeek-V2 Chat (SFT) 稍有优势。尤其值得关注的是,DeepSeek-V2 Chat(SFT)大幅超越了所有开源中文模型,它在中文推理和语言方面都显著优于第二好的开源模型 Qwen1.5 72B Chat。


此外,DeepSeek-V2 Chat (SFT) 和 DeepSeek-V2 Chat (RL) 的性能均优于 GPT-4-0613 和 ERNIEBot 4.0,巩固了自家的模型在支持中文方面的顶级 LLM 地位。具体来说,DeepSeek-V2 Chat(RL)在中文理解方面表现出色,优于包括 GPT-4-Turbo-1106-Preview 在内的所有模型。不过 DeepSeek-V2 Chat(RL)的推理能力仍然落后于 Erniebot-4.0 和 GPT-4 等巨型模型。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
那些花儿编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型性能超越 GPT-4 Turbo!「商汤日日新」大升级,国产大模型超市开张了70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3GPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4iPhone就能跑!微软推出轻量级模型Phi-3,性能堪比GPT-3.5 Turbo,AI的未来在手机端?阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香10万奖金池!CCF开源创新大赛-大模型开源任务挑战赛,等你来战!希腊三哲:苏格拉底柏拉图亚里士多德32专家MoE大模型免费商用!性能全面对标Llama3,单token推理消耗仅5.28%美国档案--手写字母T和Ynext-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+参战万亿MoE模型!上海大模型独角兽出手,腾讯阿里米哈游参投仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型文心一言用户达3亿!文心大模型4.0 Turbo发布,支持API,真GPT-4 Turbo国产来了!性能直逼 GPT-4!最强大的免费开源模型出世 | 极客时间AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet国产大模型:今天起,我们100万tokens只需1元!击穿全网底价,通义千问GPT-4级大模型直降97%!1块钱能买200万tokens天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑个人感慨之113 富裕的中国人苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万天际阿里通义千问GPT-4级主力模型降价97%,1 块钱200万 tokens!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。