Redian新闻
>
Meta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理

Meta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理

公众号新闻

©作者 | Xuezhe Ma

单位 | 南加州大学

研究方向 | NLP, ML

论文标题:

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

论文地址:

https://arxiv.org/pdf/2404.08801

论文源码:

https://github.com/XuezheMax/megalodon




摘要

本文介绍了 Megalodon 架构。Megalodon 是针对我们两年前提出的 Mega 架构 [1] 的改进版本,旨在提高大规模长上下文的预训练和推理效率。针对于 Mega 架构的几个局限性,Megalodon 进一步提出了多个新的技术来提高它的学习能力和训练稳定性,包括 Complex Exponential Moving Average(CEMA), Timestep Normalization, Normalized Attention mechanism 以及 Pre-Norm with two-hop residual configuration.

在与 Llama2 模型完全相同的 2T 的预训练数据上,我们训练了一个 7B 大小的 Megalodon 模型,使得我们可以和 Llama2-7B 进行完全公平的比较。最终,Megalodon 取得了比 Llama2 更好的 training loss。同时,在多个 benchmark 上 Megalodon 的表现也明显好于同样大小的 Llama2(详见下面的图和表格)


Megalodon架构

Mega 架构虽然在一些小规模的 benchmark 上取得了很好的结果,但它依然存在一些问题:

  1. Mega w. chunk-attention 的结果落后于 Mega w. full-attention. Mega 使用了 chunk attetnion 来将计算复杂度从平方降低到线性级别。但是从 Mega 论文中的结果可以看到,chunk-attention 版本的 Mega 的效果还是明显落后于 full-attention 的版本。我们认为这主要是因为 Mega 中的 EMA 这个模块不够强大,无法很好的弥补 chunk attention 带来的上下文信息损失。
  2. 模型架构对于不同数据和任务的差异. 首先,这不是 Mega 独有的问题,而是几乎所有模型框架都存在的一个问题,即对于不同的数据类型和任务,虽然模型架构整体上差不多(比如都是 Transformer),但实际还是存在很多架构的差异的。比如在 LRA 的不同任务上,大家会使用不同的 normalization 方法(BatchNorm, LayerNorm, RMSNorm, ScaleNorm)以及不同的 normalization 配置(Pre-Norm, Post-Norm, QK-Norm)。
  3. Mega 在大规模预训练上缺少证据. Mega 之前都是在小规模的数据和任务上进行的测试,并没有应用到大规模预训练上。
本文提出的 Megalodon 架构就是针对 Mega 以上的问题做改进。

2.1 Complex Exponential Moving Average

为了提高 Mega 中 EMA 模块的能力,直接的想法是将 EMA 扩展到复数域。这一想法是受到 SSM 中方法的启发。简单来说,我们通过添加一个极坐标的参数,可以直接将实数域的 EMA 扩展到复数域:
其中,为了让每个维度的 argument 能一致的分散在整个频域中,我们用如下的方法:

2.2 Timestep Normalization

在 Megalodon 中我们将 Group Normalization 扩展到 auto-regressive 的模式下,提出了 Timestep Normalization。
如图所示,在 Timestep Normalization 中,每一步的 mean 和 variance 是根据前面所有位置而累积计算的。为了能在 GPU 上面快速计算,我们提供了高效的 cuda 实现。

2.3 Normalized Attention in Megalodon

为了提高架构在大规模训练下的稳定性,我们针对 Mega 里面的 gated attention 模块提出了 normalized attention:
我们发现对Z做了 normalization 操作可以明显提高稳定性,同时传统 attention 中的 scale 项(一般为 sqrt(d))也可以省去。

2.4 Pre-Norm with Two-hop Residual

为了进一步提高稳定性,我们提出了一种改进 Pre-Norm 中 residual connection 配置的新方案。通过简单的修改 residual connection,我们可以明显提高训练稳定性:



实验结果

为了公平的与 Llama2 进行比较,我们用了和它完全一样的 2T 的训练数据(得益于和 Meta AI 的合作)。我们分别比较了数据学习效率(data efficiency)和计算效率(computation efficiency)。

数据学习效率(data efficiency)简单来说就是不同的模型在相同的大小(model size)和相同的数据上进行训练,最终比较学习的效果。通过文章开始的 training loss 的图以及多个 benchmark 上面的结果可以看出,Megalodon 比 Transformer 在 7B 这个规模下有更好的数据学习效率。

计算效率(computation efficiency)是在相同的计算资源下比较相同大小的模型在训练中的速度。这里我们比较了 Megalodon 和 Transformer 在不同的上下文长度(4K vs. 32K)下的训练时每秒处理 token 的个数(token per second)。对于 Transformer,我们使用了 FlashAttention V2 来加速计算。
可以看到,当上下文长度比较短时 Transformer 比 Megalodon 快大约 5%。这是由于 Megalodon 要额外计算 CEMA 等模块。但是当上下文增加到 32k 的时候,Megalodon 比 Transformer 快 32%,这是得益于 chunk attention 将复杂度降低到了线性级别。


长上下文测试结果

为了测试 Megalodon 在长上下文上的泛化能力,我们首先测试了它在不同长度下的 PPL
可以看到,在我们将上下文长度从 4K 增加到 2M 的过程中,Megalodon 的 PPL 一直稳定下降。

我们还测试了 Megalodon 在 Scrolls 上的结果,同时也测试了一些中小规模的任务,比如 LRA,WikiText-103, PG19, ImageNet-1K 以及 Speech Commands。具体结果请阅读论文。


结语

这个工作从有想法到最终完成,经历了近两年的时间。期间经历数次失败,也学习到了很多大规模预训练时代正确做科研的方法。得益于和 Meta AI 的合作,我们有相对充足的计算资源,以及可以和 Llama2 在完全相同数据上比较的机会。但也难免要受限于 Meta 内部的一些审核。比如因为审核我们错过了 COLM 的投稿,而且部分代码没办法放出来。

训练好的 7B 模型也还在审核当中,什么时候能放出也不得而知。但是我们尽量放出了我们的代码,包括全部模块高效的cuda实现,以及并行训练所需要的全部技术。我们在 github 上提供一段预训练的伪代码。大家可以通过我们提供的代码来搭建一个预训练的脚本。

通过这个项目,我们也体会到了在大模型时代做新的模型架构时要注意的问题。总结来说:

  1. 对于两个不同模型架构的比较必须要在数据完全相同的条件下才有说服力。当数据不同的时候,哪怕不同的比例很小(<10%),最后的结果也可能有明显的差别。包括 training loss 和下游任务的结果,都受到训练数据的很大影响。
  2. 对于不同的架构,一定要在模型得到充分训练的条件下的比较才有意义。例如对于 7B 大小的模型,2T 的训练数据几乎是基本要求。有的模型可能在数据少的时候表现的很好,但是数据规模增大后反而落后其他模型。因此,对于大模型架构的比较,结果有说服力的前提是充分的训练。
  3. 对于架构差别很大的模型,传统的基于 flops 的 scaling law 的比较意义在降低。原因是两个不同架构的模型,即使有相同的 flops,他们的实际速度可能差几倍。这个和架构算法本身是不是适合在最先进的 GPU 上计算有很大的关系。因此,真正贴合实际的比较方法是像本文中那样分成数据学习效率和计算效率两个方面。但是这样在实际中对于研究员的工程能力有很高的要求。在大模型时代,新算法的开发已经和系统等方面高度结合在一起。



参考文献

[1] Xuezhe Ma and Chunting Zhou and Xiang Kong and Junxian He and Liangke Gui and Graham Neubig and Jonathan May and Luke Zettlemoyer. Mega: Moving Average Equipped Gated Attention. ICLR-2023.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文如何加速大模型推理?万字综述全面解析大语言模型高效推理技术杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍一个让骗子愚蠢和无耻的重要原因强强联合!当RAG遇到长上下文,滑铁卢大学发布LongRAG,效果领先GPT-4 Turbo 50%一个有孩子有家庭的女人选择工作的范围有多大?AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略Meta革命新架构掀翻Transformer!无限上下文处理!马斯克突然访华或加速自动驾驶落地,今年将投资100亿美元用于AI训练和推理;苹果CEO库克据悉下周将预告新的AI功能丨AI周报万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类国家标准《生成式人工智能预训练和优化训练数据安全规范》征求意见七绝 无题CVPR 2024 | CLIP当成RNN!无需训练即可分割无数概念|牛津&谷歌新作CaR极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行吃点好的压压惊马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!牛皮吹破?大模型长输入能力不能拿来做上下文学习红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B美股基本面 - 2024_03_21 * 晚报 * 收盘:美股再创新高 市场关注联储降息前景。周四纽约黄金期货收高1.1%。诺LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens无位置编码 (NoPE) 也有长度泛化问题?首个针对NoPE的长度外推方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。