Redian新闻
>
将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法

将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法

公众号新闻
机器之心报道
机器之心编辑部
无需过多计算资源即可扩展大模型上下文长度。

一般来说,大模型预训练时文本长度是固定的,如果想要支持更长文本,就需要对模型进行微调。但是训练具有长上下文的 LLM 计算成本很高,需要大量的训练时间和 GPU 资源。


比如,训练一个具有 8192 长度上下文的模型,相比于 2048 长度上下文,需要 16 倍的计算资源。就算如此,上下文长度对模型性能至关重要,因为它代表了 LLM 回应时对整个上下文清晰理解的能力。


近日,MIT 与香港中文大学联合研究,提出了 LongLoRA。它是一种有效的微调方法,以有限的计算成本扩展了预训练大型语言模型上下文大小。



论文地址:https://arxiv.org/pdf/2309.12307.pdf

项目地址:https://github.com/dvlab-research/LongLoRA


本文从两个方面加快了 LLM 的上下文扩展。


一方面,尽管在推理过程中需要密集的全局注意力,但通过稀疏的局部注意力可以有效且高效地对模型进行微调。本文提出的 shift short attention 有效地实现了上下文扩展,节省了大量的计算,与使用 vanilla attention 进行微调的性能相似。


另一方面,用于上下文扩展的 LoRA 在可训练嵌入和归一化的前提下工作得很好。LongLoRA 在 LLaMA2 模型从 7B/13B 到 70B 的各种任务上都展现了很好的结果。在单台 8x A100 设备上,LongLoRA 将 LLaMA2 7B 从 4k 上下文扩展到 100k, LLaMA2 70B 扩展到 32k。LongLoRA 扩展了模型的上下文,同时保留了其原始架构,并与大多数现有技术兼容,如 FlashAttention-2。为使 LongLoRA 实用,研究者收集了一个数据集 LongQA,用于监督微调。该数据集包含超过 3k 个长上下文问题 - 答案对。


LongLoRA 的能够在注意力水平和权重水平上加速预训练大型语言模型的上下文扩展。亮点如下:


  • Shift short attention 易于实现,与 Flash-Attention 兼容,且在推理过程中不需要使用。

  • 发布了所有模型,包括从 7B 到 70B 的模型,上下文长度从 8k 到 100k,包括 LLaMA2-LongLoRA-7B-100k、LLaMA2-LongLoRA-13B-64k 和 LLaMA2-LongLoRA-70B-32k。

  • 建立了一个长上下文 QA 数据集 LongQA,用于监督微调。研究者已经发布了 13B 和 70B 32k 型号的 SFT、Llama-2-13b-chat-longlora-32k-sft 和 Llama-2-70b-chat-longlora-32k-sft,并将在下个月发布数据集。


LongLoRA 技术细节 


Shift short attention


标准自注意力模式的计算开销为 O (n^2 ),使得长序列上的 LLM 内存开销高且速度慢。为了在训练中避免这个问题,本文提出了 shift short attention(S^2 -Attn),如下图 2 所示。



研究者验证了微调的重要性,如下表 1 所示。如果没有微调,随着上下文长度的增长,即使配备了适当的位置嵌入,模型的表现也会变差。



现有的 efficient  attention 设计也可以提高长上下文语言模型的效率。在下表 2 中,研究者将 S^2 -Attn 与几种典型的 efficient  attention 进行了比较,可以发现,前者不仅能够实现高效的微调,还支持 full attention 测试。



此外,S^2 -Attn 容易实现,它只涉及两个步骤:(1) 转换半注意力头中的 token (2) 将 token 维度的特征移至批次维度。这个过程使用几行代码就够了。


改进长上下文 LoRA


LoRA 是一种有效且流行的方法,可使 LLM 适应其他数据集。与完全微调相比,它节省了很多可训练参数和内存成本。然而,将 LLM 从短上下文长度调整为长上下文长度并不容易。研究者观察到 LoRA 和完全微调之间存在明显的差距。如下表 3 所示,随着目标上下文长度的增大,LoRA 和完全微调之间的差距也会增大。



为了弥补这一差距,研究者打开嵌入层和归一化层进行训练。如表 3 所示,它们占用的参数有限,但对长上下文适应有影响。特别是归一化层,在整个 LLaMA2 7B 的参数占比仅为 0.004%。在实验中,研究者将这种改进的 LoRA 表示为 LoRA+。


实验及结果


研究者扩展了预训练的 7B、13B 和 70B LLaMA2 模型。7B 模型的最大扩展上下文窗口大小为 100k,13B 模型的最大扩展上下文窗口大小为 65536,70B 模型的最大扩展上下文窗口大小为 32768。 


研究者沿用了 Position Interpolation 中的大部分训练超参数,不过批大小更小,因为只是在某些情况下使用单台 8×A100 GPU 设备。所有模型都通过下一个 token 预测目标进行微调。研究者使用 AdamW,其中 β_1 = 0.9,β_2 = 0.95。7B 和 13B 模型的学习率设定为 2 × 10^−5,70B 模型的学习率设定为 10^−5。


他们还使用了线性学习率预热。权重衰减为零。每台设备的批大小设为 1,梯度累积步骤设为 8,这意味着使用 8 个 GPU,全局批大小等于 64。模型进行了 1000 步的训练。


研究者使用 Redpajama 数据集进行训练,并构建了一个长上下文 QA 数据集 LongQA,用于监督微调。Redpajama 微调的模型呈现了良好的困惑度,但它们的聊天能力是有限的。研究者收集了超过 3k 个问题 - 答案对,它们都是与技术论文、科幻小说和其他书籍等材料有关的。设计的问题包括总结、关系、人物等。


从下表 4 中可以发现,在相同的训练和评估上下文长度的情况下,困惑度随着上下文大小的增加而降低。



在下表 5 中,研究者进一步考察了在单台 8×A100 设备上可微调的最大上下文长度。他们分别将 LLaMA2 7B、13B 和 70B 扩展到 100k、65536 和 32768 上下文长度。LongLoRA 在这些超大设置上取得了令人满意的结果。此外,实验还发现扩展模型在较小的上下文长度上会出现一些困惑度下降。



在下表 6 中,研究者将模型与其他开放式 LLM 在 LongChat 中引入的主题检索任务上进行比较。这个任务是从很长的对话中检索目标话题,对话长度从 3k、6k、10k、13k 到 16k 不等。



消融实验


在下表 7 中,研究者将 LLaMA2 7B 细分为各种类型的层。他们分析了 FLOPs:对于 full attention,随着上下文长度的增加,Attn 的比例也急剧增加。例如,在上下文长度为 8192 时,Attn 占总 FLOP 的 24.5%,而在上下文长度为 65536 时,则增至 72.2%。当使用 S^2 -Attn 时,则下降到 39.4%。



下表 8 展示了在 PG19 验证集上扩展到 8192 上下文长度时, LLaMA2 7B 模型的复杂度与微调步骤之间的关系。可以发现,如果不进行微调,在第 0 步时,模型的长上下文能力有限。完全微调比低阶训练收敛得更快。两者在 200 步后逐渐接近,最后没有出现大的差距。



下表 2 显示了微调过程中不同注意力模式的效果。



效果展示


模型在阅读《哈利・波特》的内容后,能够告诉你斯内普为什么看起来不喜欢哈利,甚至还能总结人物之间的关系。



不仅如此,给它一篇论文,还能帮助你立刻了解相关信息。



更多详细内容,请参阅原文。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
TTC地铁网络现已扩展至所有电讯商用户!刚刚!英国人才签目标校全面更新:UIUC、港中文等取消资格...无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用Erklärung zur Zusammenarbeit有一种浪费叫美国式浪费11月必看!“新世界三大男高音”Juan Diego Flórez首次亮相澳洲!喜报!港中文、港科技营业了!开始发商科面邀!什么背景能收到offer?巴斯招生官来了!大隐隐于市!越南一家人在San Jose开的小店全是越南客人——Phở Cường 2ED 宾大 / EA MIT 同时录取,入读MIT,Milton Academy 真实案例蒙受重大财务损失,墨尔本豪宅建筑商最终破产!1个月前业务刚扩展至新州脑内障的症状是发出动物的叫声百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术喜报!悉尼大学、港大、纽大、港中文、诺丁汉offer来了!|背景提升学员YaRN:一种高效RoPE扩展方法,可推理更长上下文并达到SOTAnǚ hóng?nǚ gōngMeta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树蒙受重大财务损失,澳洲豪宅建筑商最终破产!1个月前业务刚扩展至新州突发!耶鲁、哥大、MIT…17所大学被告上法庭国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上多模态版Llama2上线,Meta发布AnyMALGitHub Copilot三连更:能在代码行里直接提问,上下文范围扩展到终端把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star我国72/144小时过境免签政策扩展至54国!最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2喜报!UCL、爱丁堡、纽大、布里斯托、港中文…|背景提升学员最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星《谢谢你,上海!》「犹太难民与上海」展览来纽约啦心若兰兮终不移大规模视觉基础模型应用在线研讨会上线!南开、港中文、南京理工和微软亚洲研究院的四位青年学者将直播讲解LLaMA2上下文长度暴涨至100万tokens,只需调整1个超参数|复旦邱锡鹏团队出品KDD 2023奖项出炉:港中文、港科大等获最佳论文奖,GNN大牛Leskovec获创新奖扩展至54国!两行代码解决大模型对话局限,港中文贾佳亚团队联合 MIT 发布超长文本扩展技术芝加哥马拉松训练及房屋修复CS课程要求, Georgia tech vs MIT, CMU, PrincetonMeta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。