Redian新闻
>
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

公众号新闻

机器之心专栏

机器之心编辑部


2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用,使得在计算成本相对不变的条件下,模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。


MoE 设计的初衷,是使模型的学习更加 “术业有专攻”,其有效性已得到业界肯定。然而现有 MoE 架构训练中的弊端也逐渐凸显,主要包括:专家负载失衡、专家内样本混杂而专家间同质化现象严重、额外的通信开销等等。


为了缓解现有 MoE 普遍存在的训练效率与性能瓶颈,专精于高性能计算、LLM 训练加速的华为 GTS AI 计算 Lab的研究团队提出了名为 LocMoE 的全新 MoE 架构,从路由机制角度出发,以期降低稀疏 LLM 训练成本的同时,提升其性能。


论文链接:https://arxiv.org/abs/2401.13920


论文简介


在这项工作中,作者发现之前的 MoE 路由机制往往会导致路由至同一专家网络的 token 差异较大,干扰专家网络的收敛;而路由至不同专家的 token 相似性较高,造成专家间同质化现象严重,最终影响模型语义理解与生成的能力。作者通过理论阐明了专家路由与输入数据特征之间的关联,并在 NLP 领域首次证明专家网络存在容量下限。在此理论基础上,专家路由的门控权重经正交化处理后,明显增强了专家网络间的区分度,处理远小于原先规模的 token,能够在领域评测中达到相近的效果。同时该研究针对 MoE 架构中固有的 All-To-All 通信瓶颈,结合负载 / 通信优化,提出高效高能的 MoE 架构。


具体来说,作者提出了一种名为 LocMoE 的新颖 MoE 架构,将其嵌入到盘古大模型的骨干中以增强其能力。LocMoE 旨在增强路由机制的可解释性,同时降低额外通信与计算开销。首先,作者发现 token 总倾向于路由至与该 token 夹角最小的专家,当专家间门控权重向量满足正交时,专家网络间处理的 token 能尽可能避免同质化。


因此,本文采用 GAP 层提取 token 特征,将其作为路由的依据。GAP 层特性上满足门控权重正交的条件,计算量相比 Dense 层也得到大幅下降。基于上述结构,作者通过理论求解出在不影响模型 loss 前提下,专家处理的 token 规模的下限,以降低专家网络的负载。此外,作者结合 auxiliary loss,提出了 locality loss 对路由进行软约束,降低跨机 All-To-All 通信开销。最后,采用通信遮掩等工程优化,进一步提升稀疏大模型整体的训练性能。


作者将 LocMoE 架构嵌入到盘古-Σ 38B 模型中,采用语义相似度较高的 ICT 领域数据进行训练,检验其领域知识的学习能力。在十项下游任务中,LocMoE 的准确性普遍高于原生盘古-Σ,训练性能每步提升 10%~20%。该 MoE 架构还具有较强的通用性和易于移植性,能够低成本嵌入到其他硬件规格和其他 MoE 架构的 LLM 骨干中。


当前,LocMoE 已部署至华为 ICT 服务领域专业知识问答应用 AskO3 上,AskO3 已上线华为 O3 知识社区,获得数万工程师用户群体广泛好评。


创新点剖析


路由与数据特征的关系


针对现有 MoE 路由机制普遍缺乏可解释性的问题,作者分析了 token 路由的本质,并设计了能够将 token 有效区分的结构。对于某个 token,学习性的路由策略普遍选择门控权重与该 token 乘积更大的专家进行分配:


那么,如果专家的门控权重满足正交,能够使得专家具备更高的判别性。同时,能够得出 token 倾向于被路由至与其夹角更小的专家:



作者最终选取 GAP 作为提取 token 特征的结构,其门控权重能够满足正交的条件:



上述路由机制的实质描述了路由判别能力与专家 token 间最小夹角之间的关联,如图所示。


图:LocMoE 路由机制示意图


专家容量下界


在上述理论的基础上,作者发现,专家容量存在下界,即,在输入数据确定的情况下,专家处理远小于经验值规模的 token,也能达到相当的性能。该问题可以转化为,求解使得至少一个具有类别判别性 token 被路由至某个专家的最小 token 规模,作为所有专家容量拉齐时的下界。同时能够得出,合理的专家容量与 token 和门控权重间的最小夹角呈负相关,并随着夹角的减小呈指数级增长。经实验证实,专家容量设为该下界时,未对模型收敛性和 loss 曲线产生影响。



本地性约束


LocMoE 在 MoE 层的 loss 包含两部分:auxiliary loss 和 locality loss。auxiliary loss 首次在 sparsely-gated MoE 中提出,同时应用于 SwitchTransformer,用以提升专家负载均衡性:


然而,跨机 All-To-All 带来的额外通信开销仍无法避免。因此,作者添加了本地性约束,使得在专家负载均衡的前提下,token 更倾向于被分派给本地设备的专家,最终达到约束平衡。locality loss 采用当前 token 分布与完全本地化分布之间的差异即 KL 散度来量化,从而将部分机间通信转为机内通信,充分利用机内互联高带宽。



实验结果


作者分别在包含 64 张、128 张和 256 张昇腾 910A NPU 的集群上进行了实验,主要与两款经典的 MoE 结构:Hash (来自 Facebook) 和 Switch (来自 Google) 进行比较。


训练效率


作者记录了各实验组训练过程中计算、通信、遮掩以及闲置的耗时。其中,在 64N 和 128N 的情况下,LocMoE 的计算开销和通信开销都是最低的。尽管 256N 时 LocMoE 的计算开销仍然最低,但部分设备不包含专家使得本地性通信转换失效,说明了 LocMoE 在计算及通信方面同时存在显著增益的适用条件是专家数至少大于等于节点数。


图:多种 MoE 结构在不同集群配置下的训练效率


专家负载


为了验证约束项对于专家负载的影响,作者分析了路由至每个专家的 token 分布情况。为了达到负载均衡,通过 RRE 模块实现的 Hash 路由采用静态路由表的硬约束确保分配的均衡性,LocMoE 和 Switch 则考虑到 token 的具体特征而进行路由。作为学习型路由,在 auxiliary 和本地性约束项的作用下,LocMoE 专家的均衡性明显优于 Switch,表现出稳定且较高的资源利用率。


图:多种 MoE 结构下专家负载情况


分配给专家的样本相似性


对于支撑 LocMoE 提出的关键理论,作者采用实验对其进行了验证。左图表明路由到同一专家的 token 相似性更高,接近于 1。右图则表明 token 与其路由至的专家对应的门控权重相似度分布相较其他专家更靠右,从而证实了 token 倾向于路由至与其夹角最小的专家的理论前提,并标记出专家容量下限求解的关键参数 δ。


图:路由至同一 / 不同专家 token 相似性(左);token 与其路由至的专家的相似性(右)


NLP 领域下游任务


盘古-Σ 已经使用了来自金融、健康等超过 40 个领域的语料进行预训练,证明其从多领域文本数据中学习知识的能力。在本项工作中,作者使用 ICT 服务的领域数据,包含无线网络、光、运营商 IT 等产品线的技术报告和工具手册等,评估 LocMoE 在专业领域知识的学习表现。根据概念间逻辑复杂程度分为 L1 至 L3,梳理出十类 NLP 领域任务的评测数据集。与原生盘古-Σ 相比,LocMoE 使得模型语义理解和表达能力都有一定程度的提高。


图:与原生盘古-Σ 相比,NLP 领域下游任务表现




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北大等提出MoE-LLaVA:将多模态大模型稀疏化个人感慨之七十一 极权政体快乐的虚拟币追随者---亚述哥​ICML 2023 | 港大提出创新时空图预训练架构,助力智慧城市多维任务学习五位清华教授团建!从复杂推理到算力瓶颈,他们眼中“通用人工智能” 该如何降临?刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解英伟达新架构以他名字致敬,天才数学家David Blackwell 是谁?对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线AI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布6064 血壮山河之随枣会战 第三章 18集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder技术、设施、资金等仍存在瓶颈,农村生活污水治理如何破局?开源大模型火了!(附99个大模型微调模型/数据/工具)!手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%太稀有!古稀情侣享用海鲜大餐,竟吃到罕见大珍珠!定制成婚戒完美求婚...将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVidGPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评幻方量化开源国内首个MoE大模型,全新架构、免费商用目前效率最高!成功突破这一器件性能瓶颈AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug张郎郎:\'血统\'鬼魅始终笼罩中国苹果新专利可为iPhone提供可更换电池/小米汽车今日发布,雷军曝光续航/百度智能云推出大模型全家桶黄仁勋甩出最强AI核弹!GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR颠覆Transformer!新架构Mamba引爆AI圈!LLaVA-MoLE:稀疏混合LoRA专家缓解指令微调MLLM中的数据冲突英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍AI早知道|Claude计划增加图像识别;Yi-VL多模态语言模型全球开源大模型时代,架构师如何玩转“AI+架构”?| ArchSummit对标OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线80、长篇民国小说《永泰里》第十六章 生死一线(4)全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。