Redian新闻
>
贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜

贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。

规模上,最长可以扩展到10万token,一口气就能读完一本小说。

贾佳亚韩松联合团队提出的这个基于LoRA的全新大模型微调方法,登上了GitHub热榜。

这种方式叫做LongLoRA,由来自香港中文大学和MIT的全华人团队联合出品。

在一台8个A100组成的单机上,增大窗口长度的速度比全量微调快十到二十倍

网友看了之后不禁表示,这个效率实在是令人印象深刻:

那么,用LongLoRA微调之后,模型会有什么样的变化呢?

一口气读完一部小说

研究团队的实验当中使用的模型是Llama 2。

经过LongLoRA方法微调之后,Llama 2-7B的窗口长度最高可提升到10万token。

实测发现,微调后的模型可以一口气读完一部小说,然后回答各种问题。

比如总结一下大刘在《三体》第三部中体现的中心思想,比总结内容还高出了一个层次。

模型给出的答案是与外星文明首次接触的危险性、星际旅行之困难与人类文明之脆弱,以及团结协作的重要性等内容。

的确每条在原著中都有所体现,而且也比较全面了。

除了对整部作品进行概括提炼,局部内容当然也可以询问。

小说中的角色也能对答如流,比如《西游记》中孙悟空是怎么开花成长的。

模型告诉我们,孙悟空很有智慧,但又有一颗顽皮的心,在伴随唐僧取经的过程中走向了成熟。

这次的总结依旧是很到位。

而且不仅是单个角色,不同人物之间复杂的关系也能了如指掌。

提问的方式可以简单粗暴些,直接要求描述这本书(《哈利波特》)中的人物关系。

模型以哈利·波特为中心,介绍了他的朋友韦斯莱、赫敏,敌人马尔福,以及邓布利多教授等人物。

除了看小说,LongLoRA微调后的Llama还可以读论文,生产力一下子就提高了(喜)。

无论是整体概括还是局部询问,微调后的模型都能准确地给出答案:

中文部分为谷歌机翻

为了从宏观上把握模型的表现,研究团队用了如下数据集进行了测试:

  • PG19:来自书籍的长篇文档数据集,用来测试语言建模效果。

  • Proof-pile:来自arXiv的数学论文数据集,用来测试语言建模效果。

  • LongQA:作者自行构建的长序列问答数据集,用于有监督的微调。

  • LongChat:第三方构建的长对话理解数据集,用来测试长序列叙述理解效果。

结果显示,LongLoRA在PG19和Proof-pile上的困惑度与全量微调接近。

在问答数据集上,LongLoRA微调出的模型表现也很优异,长文本理解方面更是达到了SOTA水平。

当然,LongLoRA的意义不仅在于提高了窗口长度,关键在于用更少的消耗提高了窗口长度。

以7B参数量的Llama-2为例,如果使用全量微调,从4k提升到32k,在一台8个A100的单机上需要五天。

而改用LongLoRA方式,则只用11.3小时就能完成,连半天都不到,效率提升近十倍。

如果提升到65k,全量微调所需时间将超过1000小时,LongLoRA却只用52.4小时。

那么LongLoRA又是怎么做到的呢?

“大而化小”降低计算量

LongLoRA建立在LoRA的基础之上,引入了一种称为“移位短注意力”(shift short attention)的机制。

这种机制只需要两行代码就能实现:

Transformer架构的核心是自注意力(Self-attention)计算。

短注意力就是将训练文本划分为多个组,使自注意力计算在每个组内分别进行,从而达到降低运算量的目的。

而在这一过程中注意力头也被进行了分组,通过注意力头的位移,就实现了组间的信息交互。

划分出的每个组之间有重叠部分,确保了数据可以在全文中流通。

这样一来,每次计算都只需要对组内的token进行操作,运算量大大降低。

除了对输入进行分割之外,LongLoRA相比于Lora还可以微调embedding层和normalization层。

这两项内容占的参数量很小,以Llama 2-7B为例,embedding层只占1.94%,normalization层更是不到十万分之四。

消融实验结果表明,除了核心的Attention层,这两个占比很小的部分也起到了重要作用。

除了核心的短注意力机制,研究团队引入了DeepSpeed和FlashAttention方式,进一步降低了训练消耗。

目前,LongLoRA微调过后不同参数量和窗口长度的Llama 2已经开源,感兴趣的话可以到GitHub页面中查看。

论文地址:
https://arxiv.org/abs/2309.12307
GitHub项目页:
https://github.com/dvlab-research/LongLoRA

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重塑 GitHub、颠覆程序开发:GitHub Universe 2023 发布重大更新Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树李飞飞团队新作:脑控机器人做家务,让脑机接口具备少样本学习能力十行代码让日志存储降低80%指针没用好,一行代码让公司损失6000万美元贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术马毅团队新作:白盒ViT成功实现"分割涌现"!具有高性能和数学可解释的特性中年男人的生活,一地鸡毛。老金的故事最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星陈丹琦团队新作:LLM-Shearing马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍工农兵学微积分贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源GitHub Copilot三连更:能在代码行里直接提问,上下文范围扩展到终端模型越大越爱拍马屁!谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒4G显存低配畅玩AIGC!ControlNet作者新作登顶GitHub热榜,小白点3次就出图刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTA两行代码解决大模型对话局限,港中文贾佳亚团队联合 MIT 发布超长文本扩展技术马毅团队新作!微调多模态大模型会「灾难性遗忘」红色日记 11.1-10开源论文神器DocsGPT登顶GitHub热榜!多类型文档查询,支持中文可本地部署 | 狂揽8000+星陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了!上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了狂揽13k star,开源版代码解释器登顶GitHub热榜,可本地运行、可访问互联网5127 血壮山河之武汉会战 富金山战役 15百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一GitHub热榜登顶:开源版GPT-4代码解释器,可安装任意Python库,本地终端运行《吉祥欢歌》&《关一扇门开一扇窗》重塑GitHub、颠覆程序开发:GitHub Universe 2023发布重大更新
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。