Redian新闻
>
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群

GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群

公众号新闻

机器之心报道

编辑:小舟、陈萍

谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。


自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。

上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。

这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。


论文地址:https://arxiv.org/pdf/2305.14705.pdf

稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。

该研究在三种实验设置下进行了实证研究,包括

  • 在没有指令调优的情况下在单个下游任务进行直接微调;
  • 指令调优后对下游任务进行 in-context 少样本或零样本泛化;
  • 指令调优后对单个下游任务进行进一步微调。

在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。

如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):


看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:


方法概述

研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。

每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。

尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。

对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。

由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。

实验与分析

平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。


专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。


图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。

值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。


当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。


此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。


相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。


最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:


感兴趣的读者可以阅读论文原文,了解更多研究内容。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了对话|三个月诞生79个基础大模型,中国到底需要什么大模型?清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练奇葩!富豪靠儿子换血抗衰失败,不如移植粪便菌群,研究证明可延缓衰老!火星乐园第三部《灰界》第十五章 中东风云ChatGPT企业版来了:历史最强版本,2倍速GPT-4使用无限制、32k上下文赞!中学为高考生准备40天免费夜宵、高校研究证明火星北部曾有一片海……听,教育早新闻来啦!性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻研究证明:孩子 2 岁就会撒谎!早撒谎的娃可能更聪明十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上说说VO2 maxRLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态目前只To B,腾讯云为什么优先发布行业大模型,而非大模型?年轻人迷信有错吗?研究证实:迷信可能真的有用!十亿参数,一键瘦身!「模型减重」神器增强型 SmoothQuant,让大模型狂掉 3/4最强API调用模型来了!基于LLaMA微调,性能超过GPT-4AI学语言与人脑极为相似!新研究证明:语言并非人类与生特有的能力,机器也能学丨Nature子刊GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%华为MatePad 2023发布,Mate60系列要上灵动岛;iPhone 15系列将采用混合镜头280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型清华唐杰新作WebGLM:参数100亿、主打联网搜索,性能超OpenAI WebGPT《人生如戏—寻找另一半自己》四鸡娃不如鸡自己?研究证实名校更爱富家子弟1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下今天的试验,神出鬼没,试验plate孔内的1 N NaOH 100ul凭空消失,匪夷所思,百思不得其解训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态研究证明:当妈后的胖不是胖,是被孩子折磨到肿胀......基模型12项性能超越GPT-4,商汤语言大模型就等你来用为啥瓜纳华托是“青蛙居住之地”?四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现MarketUP:ChatGPT prompt指令模型大全
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。