Redian新闻
>
陈丹琦团队提出最新MoE架构Lory

陈丹琦团队提出最新MoE架构Lory

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 新智元

陈丹琦团队提出了一种名为 Lory 的新型混合专家(Mixture-of-Experts,简称 MoE)模型,专门用于自回归语言模型的预训练。以下是对文章内容的详细解读。

论文:Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training
链接:https://arxiv.org/pdf/2405.03133

摘要 (Abstract)

  • 背景: 传统的 MoE 模型通过稀疏激活来扩大模型规模,但训练过程中路由网络的优化是一个挑战,因为它涉及到不可微分的离散目标。

  • SMEAR: 之前的研究提出了一种完全可微分的 MoE 架构 SMEAR,它在参数空间中软合并专家,但只在分类任务的微调中展示了有效性。

  • Lory: 本文提出的 Lory 是首个将此类完全可微分的 MoE 架构扩展到自回归语言模型预训练的方法。Lory 引入了两个关键技术:

    1. 因果分段路由策略:在保持语言模型自回归特性的同时,实现了高效的专家合并操作。

    2. 基于相似性的数据批处理方法:通过在训练实例中分组相似文档,鼓励专家专门化。

引言 (Introduction)

  • MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用,同时指出了训练路由网络的挑战。

  • 现有解决方案: 讨论了现有的一些解决方案,如开关路由、top-k 专家选择路由和线性规划等。

预备知识 (Preliminaries)

  • 稀疏激活 MoE: 解释了 Transformer 基础的 MoE 语言模型是如何工作的,以及如何通过路由网络计算路由权重。

  • 通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”,从而实现 MoE 架构的完全可微分性。

Lory 方法

  • 核心技术: Lory 的核心是专家合并,提出了因果分段路由方法和数据批处理策略,以实现高效计算和专家专门化。

  • 符号表示: 文章定义了符号,如输入序列、路由网络、专家 FFN 参数等。

  • 高效专家合并: 通过因果分段路由策略,减少了合并操作的数量,并通过停止梯度操作防止信息泄露。

  • 数据批处理: 通过相似性基础的数据批处理技术,鼓励了专家对不同领域或主题的专门化。

实验 (Experiments)

  • 模型设置: 描述了实验中使用的模型配置,包括不同数量的活跃参数和专家。

  • 训练细节: 包括优化器选择、学习率调度、训练数据集和评估数据集。

  • 主要结果: 展示了 Lory 模型在训练效率、语言建模和下游任务中的性能,并与密集模型进行了比较。

分析和消融研究 (Analysis and Ablation Studies)

  • 因果分段路由的重要性: 通过比较因果分段路由和前缀路由,强调了每个分段提供强训练信号的重要性。

  • 相似性基础数据批处理的重要性: 展示了使用相似性基础批处理方法对 MoE 模型性能提升的影响。

  • 与现有 MoE 模型的比较: 将 Lory 与现有的 Expert Choice (EC) MoE 方法进行了比较。

  • 专家利用和专门化: 分析了专家的利用情况和专门化程度,展示了在不同领域专家的路由权重。

相关工作 (Related Work)

  • MoE: 讨论了 MoE 模型的发展历程和挑战。

  • 基于相似性的数据批处理: 提到了其他研究中使用类似数据批处理方法的工作。

结论 (Conclusion)

  • Lory 的贡献: 强调了 Lory 在自回归语言模型预训练中的潜力和优势。

  • 未来工作: 提出了进一步扩展 Lory、结合不同级别的路由策略和开发高效解码方法的未来研究方向。

伦理声明 (Ethics Statement)

  • 社会影响: 讨论了使用 Lory 方法训练的语言模型可能带来的潜在社会影响,包括错误信息的传播风险和隐私问题。

附录 (Appendix)

  • 伪代码: 提供了因果分段路由策略的伪代码。

  • 计算开销: 分析了 MoE 层与密集层相比的计算开销。

  • 数据批处理细节: 描述了相似性基础数据批处理的具体实现方法。

  • 模型配置: 列出了实验中使用的模型架构和大小。

  • 7B 模型实验: 提供了 7B 模型的实验设置和结果。

  • 专家专门化: 展示了 0.3B/8E 模型在不同领域上的专家路由权重。

文章通过实验验证了 Lory 模型在自回归语言模型预训练中的有效性,并展示了其在多个下游任务中的性能提升。此外,文章还探讨了专家的利用和专门化,以及如何通过不同的训练和推理策略进一步提高模型性能。最后,作者提出了未来工作的方向,并就使用 Lory 方法可能带来的伦理问题进行了讨论。

本文主要来自kimi解读,具体了解请阅读原论文。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法探究人生有何意義迪士尼笑了!陈丹琦团队最新研究,打造AI"版权护盾",AI创新不侵权用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea狗引儿【长篇】(四十)同日四家赴美上市企业获证监会备案通过:两家秘交&两家VIE架构陈丹琦团队新作:教你避免成为任天堂的被告【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!EE架构升级加速,高端车规MCU迎来新格局玻璃缸里的孙凤 (54)比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA永远的张蔷150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory长篇奇幻浪漫小说《双灵星》第七章:夏日惊雷新M7夜间高速行车时,大灯突然熄灭?问界最新回应:驾驶员操作远光灯时误触大灯斯坦福团队提出新型抗衰老疗法,单次注射可恢复小鼠免疫系统「年轻状态」,效果持久明显最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩问界新M5开启全国大规模交付,华为余承东亲自向首批车主交车;特斯拉自动驾驶团队再遭重创,顶尖AI工程师离职另起炉灶......陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现二岩藻糖基乳糖滴度超33g/L,中国农大团队提出高效从头合成HMO新策略,无副产物3-FL产生6.8 | NASU 2024征服群山系列活动④- Mount Monroe打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?​NUS团队提出X-Ray:一种看透物体的3D表示和生成模型!Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识黄仁勋甩出最强AI核弹!GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构设计方法全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型看透物体的3D表示和生成模型:NUS团队提出X-Ray65个即插即用涨点模块! 5个最新Mamba模块模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替全球首个自主进化多模态MoE震撼登场!写真视频击败Sora,人大系团队自研底座VDT给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。