Redian新闻
>
58行代码把Llama 3扩展到100万上下文,任何微调版都适用

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

科技
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

堂堂开源之王Llama 3,原版上下文窗口居然只有……8k让到嘴边的一句“真香”又咽回去了。

在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗?

开源社区当然不会放过这个机会:

现在只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。

背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mb

接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。

所使用的1048k上下文微调版本,刚刚在流行的大海捞针测试中达到全绿(100%准确率)的成绩。

不得不说,开源的进步速度是指数级的。

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。

而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。

他先制作了524k上下文版,随后又更新了1048k版本。

首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。

具体方法如下:

  • 调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息

  • 渐进式训练:使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。

最终使模型的训练速度提高了33倍。

长文本检索性能评估中,只在最难的版本中,当“针”藏在文本中间部分时容易出错。

有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA。

同样使用Mergekit,就可以把提取好的LoRA合并到其他同架构模型中了。

合并代码也由Eric Hartford开源在GitHub上,只有58行。

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。

不过可以看到,中文开发者社区已经关注到了这一进展。

524k版本LoRA:
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k版本LoRA:
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

合并代码:
https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

参考链接:
[1]https://twitter.com/erhartford/status/1786887884211138784

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型RAG还是微调?万字长文总结大模型微调技能图谱LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍百万token上下文窗口也杀不死向量数据库?CPU笑了护肤;锻炼;英语说车;何赛飞谈原生家庭时落泪微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行解锁新方式!年轻人爱的支付方式,大家都适用!首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持微软发布!提示工程进化为位置工程,有效提升RAG与上下文学习24GB单卡全量微调Llama 3-8B,仅需添加一行代码CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!牛皮吹破?大模型长输入能力不能拿来做上下文学习马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4多忽悠几次AI全招了!Anthropic警告:长上下文成越狱突破口,GPT羊驼Claude无一幸免【解字】善,善哉革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2用 ChatGPT 写 “Hello, world!”,首席资深工程师要写 40+ 行代码?Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文一次性支持 200 万字无损上下文!Kimi智能助手玩了个大的——月之暗面「登月」最新进展!燃油运送车作弊事件Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文32K上下文,Mistral 7B v0.2 基模型突然开源了你认识“滇”字吗?Meta革命新架构掀翻Transformer!无限上下文处理!清晨的城市中国唯一被封禁1000年的地方,任何人都不许进入,却美到息,却低调的让人心疼谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens40年发展到底富了谁 老百姓从曾经的一无所有 发展到现在的负债累累……一口气读完甄嬛传剧本、大部头医书:月之暗面200万字上下文Kimi开启内测
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。