Redian新闻
>
混合专家系统里根本没专家?开源MoE模型论文引网友热议

混合专家系统里根本没专家?开源MoE模型论文引网友热议

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

红极一时的开源MoE模型Mixtral,论文终于新鲜出炉!

除了披露了更多技术细节,论文中还有一个结论引发了热烈讨论——

研究人员本想研究Mixtral是怎么根据话题分配专家的,结果发现专家的分配……和话题好像没什么关系。

而在大多数人的印象中,Mixtral里的8个专家,是分别负责处理不同领域的话题的……

论文的结论曝光后,不少网友开始认为“专家混合”这个说法,可能不那么贴切了:

于是,针对Mixtral真实的工作机制,有网友给出了这样的比喻:

所以,比起“专家的组合”,这样的工作方式更像是一种硬盘阵列或者负载均衡?

但也有网友表示了不同意见:

这个问题并不根属于MoE,因为自己之前见过的MoE模型中,是发现了真·专家分工的现象的。

那么,这究竟是怎么一回事呢?

实验未发现专家按领域分布

在训练过程中,作者观察了Mixtral中是否有一些专家会针对某些特定领域进行专门化。

具体来说,作者计算了第0、15、31层在The Pile验证集的不同子集(包含不同领域的文档)上被选中的专家分布。

这些子集包括LaTeX格式的arXiv论文、生物学论文(PubMed摘要)、哲学论文(PhilPapers)和GitHub代码等。

结果发现,对这几个层而言,除了数学领域(DM Mathematics)数据集的专家选择略有不同外,其余数据集的专家分布都非常类似,并没有体现出领域间有什么差别。

而在数学问题上出现不同表现的原因,可能是由于其具有相对特殊的语法结构,进一步的探究也证实了这一想法。

他们发现,专家选择会被句子的语法结构所影响,一些语法关键词,比如英语中的“Question”或者代码中的“self”,被分配到相同的专家的概率非常大。

此外,定量的分析结果还发现了另一个专家分配规律——相邻的token有很大概率被分配给同一专家。

作者比较了模型针对相邻token选择相同专家的概率,包括第一选择一致率和第一二选择一致率。

第一二选择一致是指,模型针对两个token分别做出的第一和第二选择,只要存在交集即视为一致。

(比如第一个token的第一、二专家为分别为甲、乙,第二个token的第一、二专家分别为乙、丙,因为都包含了乙,就是一种第一二选择一致的情况)

因Mixtral中有8个专家,因此在全随机的选择方式下,第一选择一致率应为12.5%(1/8),第一二选择一致率应为1 - (6/8) × (5/7),约为46%。

但实际测试发现,Mixtral第一和第一二选择一致率高于随机情况,特别是中间的第15层,说明了模型在专家选择上是具有倾向性的。

论文地址:
https://arxiv.org/abs/2401.04088

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《歌德堡变奏曲1452》今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??AI在操作系统里复制自己,这一天还是来了今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损华人旅行博主来澳旅游,称澳洲海滩平平无奇,对悉尼“失望”,引网友热议幻方量化开源国内首个MoE大模型,全新架构、免费商用苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型忐忑回国行 (一)周末随笔今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent随笔手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜今日Arxiv最热NLP大模型论文:AllenAI最新研究:让AI从简单学起,竟然能解决难题?为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用街景被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!性能逼近GPT-4,开源Mistral-Medium意外泄露?CEO最新回应来了新年特辑②丨黄二丹研究员谈“整合专病联盟”今日Arxiv最热NLP大模型论文:LLM化身符号逻辑大师,智能体文本游戏新纪元首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%DeepGrade模型:深度学习的新型方法改进乳腺癌组织学分级谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文OpenAI科学家Andrej Karpathy力荐,23年必读的大语言模型论文清单天工2.0 MoE大模型发布;苹果开源自动修图神器MGIE;香港公司被AI换脸骗走2亿港元丨AIGC大事日报澳女购买商品后不想要了,“全新未开封”退款却遭拒!引网友热议:我也经历过今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B混合专家模型 (MoE) 详解打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。