Redian新闻
>
MoE架构,全量上线,MiniMax的abab6跨过玫瑰三段论了吗?

MoE架构,全量上线,MiniMax的abab6跨过玫瑰三段论了吗?

公众号新闻

好像这年份从2023跨到2024之后,大模型的追随标杆也纷纷从GPT-3.5变成了GPT-4。GLM-4拿出了到目前为止最接近GPT-4的表现,然后又冒出了个新的竞争者。
——MiniMax新的大语言模型abab6。
“沉默寡言”的MiniMax前段时间难得发声。副总裁魏伟在12月末透露MiniMax将会发布一个对标GPT-4的大模型。而在经过了半个月的部分客户的内测和反馈后,全新的大语言模型abab6终于全量发布。性能上弱于GPT-4,但有些能力已经大幅超过 GPT-3.5。
MiniMax展示了abab6在三个复杂任务测试基准上的表现。
IFEval:这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题,例如“以XX为标题,列出三个具体对方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。
MT-Bench:这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。
AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。
结果如下。看上去离GPT-4还有距离,但有些能力已经超过 GPT-3.5和Claude 2.1不少:

图源:MiniMax
这个成绩单里最陌生的就是Mistral,但abab6有趣的地方也在这里——它用上了最近很火的MoE架构,而MoE正是Mistral不久前带火的。
简单来说,MoE (Mixture of Experts 混合专家模型)架构会把模型参数划分为多组“专家”,每次推理时只有一部分专家参与计算。这种架构可以让模型在小参数的情况下把计算变得更精细,然后拥有大参数才有的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。
一个月前,法国 AI 初创公司Mistral AI发布了首个开源MoE大模型Mixtral 8x7B——一个只有87GB的,8个7B模型的组合——清理下内存就能下载到自己电脑上,性能上直接击倒了700亿参数的Llama 2。之前Dylan Patel爆料的GPT-4模型架构里,16个1110亿参数组成的MoE是最重大的信息之一。
现在abab6也采用了MoE架构。并且为了训练 abab6,MiniMax自研了高效的MoE训练和推理框架,并且发明了一些 MoE 模型的训练技巧。到目前为止,abab6是国内第一个千亿参数量以上的基于MoE架构的大语言模型。
既然是概念如此新鲜的大模型,那我们不如自己上手浅测一下,当然,都2024年了,简单的问题就不问了。
咱看看给外国人做的中文八级考试 ,abab6行不行:
中国有俩体育项目根本不用看:一个是乒乓球,一个是足球。
前者是谁也赢不了。
后者是谁也赢不了。
提问:分别解释两句话的意思。
中文语义理解上,abab6的能力无懈可击,甚至能读懂幽默:

图源:硅星人
英文能力上,MiniMax自己展示了一个例子——用“ABAB6”作为句首写一首英文藏头诗,主旨是MiniMax的ABAB6文本大模型。那我们取个巧,看看同样的问题,MiniMax换一个提问对象会给出什么答案:

图源:硅星人
写的没问题,问题在于,这跟MiniMax自己展示的答案也太像了。

图源:硅星人
然后我刻意离开了这个问题一会儿,聊了些别的话题之后,再一次回到这个问题。结果让人失望,abab6给出了一首几乎一样的藏头诗。这个问题在我把题目里的“ABAB6”换成“LLAMA”,“MiniMax”换成“Meta”之后仍然没有变化。
它好像有一个固定答案,并且从“LLAMA”的案例来看,这个答案也没有写“ABAB6”时候那么好。而在GPT-3.5和GPT-4里,没有这种情况。

图源:硅星人
同样的问题出现在MiniMax自己展示的另一道题上:
为我创造一款虚构的桌游,这款游戏的主题围绕着上海展开,游戏中需包括上海市的主要旅游景点、历史文化以及独特美食。请将回答格式化为一个清晰的游戏规则说明书,其中每个游戏组件的描述必须用有序列表来组织。
对于这个问题,abab6无法像演示的那样顺畅的做出完整回答:

图源:硅星人

图源:硅星人
前面说abab6的语义理解能力没问题,那最后我们试试它逻辑推理的能力。
有一个经典的逻辑题叫“玫瑰三段论”:
所有玫瑰都是花。
有些花很快就凋谢。
所以有些玫瑰很快就凋谢。
看着每一句话都对,但仔细想想这个推理逻辑是错的。但对于大模型来说这足够有迷惑性了。不过“玫瑰三段论”太有名,为了防止这道原题已经进入钻进大模型语料的可能性,我们把题包装一下:
所有的苹果都是水果。
有的水果是红色的。
所以有些苹果是红色的。
这个三段论对吗?这次比较对象是abab6,和它的对标对象GPT-4。GPT-4一开始被迷惑住了,但它在一次提醒之后理清了思路:

图源:硅星人

图源:硅星人
abab6的答案让人惊喜,它一次就给出了正确的答案:

图源:硅星人
但随着对话继续,abab6在逻辑上出现了点问题:

图源:硅星人
但这样的理解和推理能力已经非常不错。
现在abab6已经上线MiniMax的开放平台,开放平台上线半年多的时间里,MiniMax 陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量也已经达到了数百亿。
目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。MoE路线下的MiniMax大模型会在2024年取得什么样的进展,abab6只是开始。

*参考资料:

https://mp.weixin.qq.com/s/2aFhRUu_cg4QFdqgX1A7Jg


欢迎加入这个星球,见证硅基时代发展↓

点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【周末综艺会10期】— 汤汤水水这瓶成分只有玫瑰花水的大马士革玫瑰纯露,湿敷或当爽肤水都好用!反击德国,普京亲自下令建立新管理架构,迫使德企为朔尔茨买单​ICML 2023 | 港大提出创新时空图预训练架构,助力智慧城市多维任务学习AI早知道|钉钉个人版全量上线;有道推出AI家庭教师;科技部发文规范AI使用6052 血壮山河 卢沟桥之变 21美团闪购与乐高®品牌达成合作 乐高®品牌全国120余城近500家门店全量上线幻方量化开源国内首个MoE大模型,全新架构、免费商用美团调整架构,科技与境外业务优先级提升 / 中国成韩国最大跨境电商进口来源地丨36氪出海·要闻回顾女人不坏,男人不爱三段实习,GPA3.8!只因这样写简历,我被HR拉黑了…对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线单日下跌25%,Mobileye撑不起自动驾驶了吗?对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线冷却的不止季节(124)— 任是无情也动人(完结篇)中美言和,美一众跟班尴尬了AMD最新GPU架构,深入解读倒计时3天!iShoes返校季学生鞋特卖,欧美女鞋海量上新!颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍别再坚持「1万小时天才」理论了,你从小给孩子树立的目标,可能从一开始就错了抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署Trader Joe's第15届年度最受顾客欢迎的产品出炉啦!下次逛Trader Joe’s就去试试看吧hé bàng?hé bèng?深圳教师热已经彻底翻篇了吗?清北教师跑光了吗?累死了吗?车企扎堆发布全新电子架构,供应链“新星”的机会来了?面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了一文看懂卫星物联网系统体系架构,发展态势及主要障碍|智联先知 一期一会OPPO Find X7 系列渲染图曝光,或新增三段式按键一滴酒也致命!超50万中国人大样本显示,饮酒没有“安全量”!每周多喝100g,死亡风险高18%打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长极兔调整组织架构,中国区将迎来首位CEO;TikTok又多一名干将;东南亚诞生 2024年首家独角兽丨Going Global钉钉个人版全量上线,联合《甄嬛传》推出的 AI 写真神器有点妙
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。