Redian新闻
>
对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

公众号新闻

作者|冬梅

1 月 16 日,InfoQ 获悉,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,该模型为国内首个 MoE(Mixture-of-Experts)大语言模型。

早在上个月举办的数字中国论坛成立大会暨数字化发展论坛的一场分论坛上,MiniMax 副总裁魏伟就曾透露将于近期发布国内首个基于 MoE 架构的大模型,对标 OpenAI GPT-4。

在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。
为什么选择 MoE 架构?

那么,MoE 到底是什么?MiniMax 的大模型为何要使用使用 MoE 架构?

MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。

图片来源:https ://arxiv.org/pdf/1701.06538.pdf

有传闻称,GPT-4 也采用了相同的架构方案。

2023 年 4 月,MiniMax 发布了开放平台。过去半年多,MiniMax 陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到了数百亿。

MiniMax 在官微中发文称:“这半年多来,客户给我们提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab5.5 的表现不错,达到了 GPT-3.5 的水平。”

但是和最先进的模型 GPT-4 相比,仍有明显差距。这主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。

为了解决这个问题,进一步提升模型在复杂任务下的效果,MiniMax 技术团队从去年 6 月份起开始研发 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已应用于其 C 端产品中)。

虽然 MiniMax 并未透露 Abab6 的具体参数,但据 MiniMax 透露,Abab6 比上一个版本大了一个量级。更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律,完成更复杂的任务。

但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,MiniMax 技术团队使用了 MoE  (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。

目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,MiniMax 还自研了高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型。

测评结果

为了对比各模型在复杂场景下的表现,MiniMax 对 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab5.5 已经做得比较好,因此 MiniMax 选择了三种涵盖了较复杂的问题的评测方法:

IFEval:这个评测主要测试模型遵守用户指令的能力。在测试时,提问者会问模型一些带有约束条件的问题,例如“以 XX 为标题,列出三个具体对方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。

MT-Bench:这个评测衡量模型的英文综合能力。提问者会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。MiniMax 技术团队会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。

AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。

测评及对比结果如下:

注:对比模型均选择各自最新、效果最好的版本,分别为 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106 。abab6 是 1 月 15 号的版本。

可以看出,abab6 在三个测试集中均明显好于前一代模型 abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6 大幅超过了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵从、中文综合能力和英文综合能力上略胜一筹。相较于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。

如果想体验 MiniMax MoE 大模型,可访问 MiniMax 开放平台官网:api.minimax.chat

ps:MiniMax 方面称,模型还在持续训练中,远没有收敛,欢迎大家反馈。


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
钉钉个人版全量上线,联合《甄嬛传》推出的 AI 写真神器有点妙今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4《歌德堡变奏曲1461》GPT全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent谷歌发布视频生成大语言模型 VideoPoetMoE架构,全量上线,MiniMax的abab6跨过玫瑰三段论了吗?GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评国内各大语言模型生成的“关于公众号华尔街俱乐部”的内容OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线【动脉严选新品鉴第37期】百度灵医大模型:国内首个产业级医疗大模型传微软OpenAI领投人形机器人;OpenAI一键调用GPTs功能上线;年度大模型评测榜单公布丨AIGC大事日报AI早知道|钉钉个人版全量上线;有道推出AI家庭教师;科技部发文规范AI使用AI早知道|Claude计划增加图像识别;Yi-VL多模态语言模型全球开源挤暖和Meta 宣布改组旗下 AI 部门,正训练自家下一代大语言模型 Llama 3;国内首个网络安全大模型评测平台发布丨AIGC日报幻方量化开源国内首个MoE大模型,全新架构、免费商用那个曾经爱唱歌的女孩视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉OpenAI科学家Andrej Karpathy力荐,23年必读的大语言模型论文清单AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 DebugAI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布说一个有关Open AI的Chat GPT 创投人和我家的小故事打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训chat gpt 怎么上不去了? 彻底罢工了刘亚东:大语言模型引领内容生产方式变革41、长篇民国小说《永泰里》第九章 欢迎“友”军(3)手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能美团闪购与乐高®品牌达成合作 乐高®品牌全国120余城近500家门店全量上线北京获准的大模型占全国近半;OpenAI CEO筹建AI芯片公司;零一万物多模态语言模型上线丨AIGC大事日报奥斯丁芯片代工老厂-赢了日本输给了房东 (1)OpenAI 正式上线 GPT 商店;美 SEC 批准比特币现货 ETF;网易丁磊养猪,Meta 扎克伯格养牛|极客早知道东北大学发布TechGPT2.0大语言模型这个全面对标 OpenAI 的国产大模型,性能已达 90% GPT-4
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。