Redian新闻
>
最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2

公众号新闻
明敏 丰色 发自 凹非寺
量子位 | 公众号 QbitAI

悄无声息,羊驼家族“最强版”来了!

与GPT-4持平,上下文长度达3.2万token的LLaMA 2 Long,正式登场。

在性能上全面超越LLaMA 2。

和竞争对手相比,在指令微调MMLU (5-shot)等测试集上,表现超过ChatGPT。

在人类评估(human evaluation)上甚至优于10万token的Claude 2,这个话题还在Reddit上引发了讨论。

要知道,这些对比版本中,LLaMA 2 Long使用的最大版本也只有70B,远小于其他大模型。

这让人不禁感慨:Meta确实还是有两下子的。

也有人觉得,这才是最近Meta发布会的最大新闻啊,比Meta版ChatGPT要更令人兴奋。

论文介绍,LLaMA 2 Long使用了4000亿token语料加持下,并进行位置编码修改。

所以LLaMA 2 Long究竟是如何诞生的?

只对位置编码进行了一个非常小的改动

与LLaMA 2相比,LLaMA 2 Long的变化并不多。

一是训练参数上,采用了高达4000亿token的数据源。

——相反,原始LLaMA 2包含多个变体,但最多的版本也只有700亿。

二是架构上,与LLaMA 2保持不变,但对位置编码进行了一个非常小的必要修改,以此完成高达3.2亿token的上下文窗口支持。

在LLaMA 2中,它的位置编码采用的是旋转编码RoPE方法。

它是目前大模型中应用最广的一种相对位置编码,通过旋转矩阵来实现位置编码的外推。

本质上来说,RoPE就是将表示单词、数字等信息的token embeddings映射到3D图表上,给出它们相对于其他token的位置——即使在旋转时也如此。

这就能够使模型产生准确且有效的响应,并且比其他方法需要的信息更少,因此占用的计算存储也更小。

在此,Meta的研究人员通过对70亿规模的LLaMA 2进行实验,确定了LLaMA 2中的RoPE方法的一个关键限制

即,阻止注意力模块聚集远处token的信息。

为此,Meta想出了一个非常简单的破解办法:

减少每个维度的旋转角度

具体而言就是将超参数“基频(base frequency) b”从10000增加到500000。

这一改动立刻奏效,缩小了RoPE对远端token的衰减效应,并且在扩展LLAMA的上下文长度上优于一项类似的名为“位置插值”的方法(如下图所示,RoPE PI,衰减效果较为“隐含”)

Ps. 图中RoPE表示基线方法,RoPE ABF为Meta此次发明的新方法,xPos是另一种应用了该方法的旋转编码变体。

一个问题是,通过上面这个可视化结果,Meta观察到RoPE在长程区域出现了较大的“振荡”,这对于语言建模来说可能不是个好消息。

不过,通过报告几种方法在长序列困惑度和FIRST-SENTENCE-RETRIEVAL两个任务上的表现来看,问题不大。

而且,尤其在后者任务上,他们提出的RoPE ABF是唯一一个可以始终保持性能的变体。

在附录中,Meta还通过可视化为螺旋图这一非常有趣的方式,将RoPE ABF与RoPE PI的差异进行了理论分析。

结果是,与RoPE PI相比,RoPE ABF的优势主要体现在它能以更大的粒度分配嵌入向量(the embedded vectors),从而使模型更容易区分位置。

此外,他们还观察到,嵌入向量之间的相对距离既对RoPE PI的关键参数有线性依赖性,也对RoPE ABF的关键参数也有对数依赖性。

这也就是为什么我们可以很容易地对基频这一超参数“下手”。

最终,LLaMA 2 Long凭借着这一改动,达成了3.2万的上下文token,并通过长下文连续预训练的共同作用,获得了开头所示的好成绩:

除了全面超越LLaMA 2、在特定任务上超越Claude 2和ChatGPT,Meta也给出了它和一些开源长下文模型的对比。

结果也相当不赖。

One More Thing

值得一提的是,这个最新的版本,是用LLaMA2生成的文本内容来进行训练的。

官方会不会正式发布这一版本,现在还没有更明确的消息,模型的网址也还没有找到。

不过已经有人提前兴奋起来了:

这对可商用微调大模型来说太有用了!

而在此之前,已经有非官方版本实现了3.2万token上下文,也是开源可商用。

“长颈鹿(Giraffe)”基于13B版本的LLaMA2打造。

研究团队提出了一种称为“截断(truncation)”的方法,对原始RoPE编码进行变换。

llama-2-7b-32k-instruct也可以支持3.2万上下文,模型规模是7B。

论文:
https://arxiv.org/pdf/2309.16039.pdf

参考链接:
[1]
https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/
[2]https://twitter.com/_akhaliq/status/1707569241191285207
[3]https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/
[4]https://news.ycombinator.com/item?id=37698604

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开学买1个可视化计时器的钱,够买这台计时器/任务打卡/便签三合一的了(明10点开团)《有缘人》&《长相思》ChatGPT企业版炸裂上线!无限制访问、两倍速、3.2万token……OpenAI开始“抢钱”了|GGViewChatGPT企业版来了:历史最强版本,2倍速GPT-4使用无限制、32k上下文港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲5126 血壮山河之武汉会战 富金山战役 14第八章第一节 分权制衡的政治制度的诞生「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练开学买1个可视化计时器的钱,够买这台计时器/任务打卡/便签三合一的了|开团芒格生前最后一次参加股东大会:155分钟,关于比亚迪、ChatGPT、阿里巴巴国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude21300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4LLaMA2上下文长度暴涨至100万tokens,只需调整1个超参数|复旦邱锡鹏团队出品GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞ACL2023 | 一个任务通用的的指令微调Embedder!无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用无限访问GPT-4!史上最强企业版ChatGPT上线,3.2万token,OpenAI颠覆打工人红色日记 10.1-10王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源燃情岁月1989(18)400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一不用4个H100!340亿参数Code Llama在Mac可跑,每秒20个token,代码生成最拿手|Karpathy转赞将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法3.2万token、无限访问GPT-4,史上最强企业版ChatGPT上线马斯克版ChatGPT爆火来袭!不用Python,11人爆肝两个月OpenAI史诗级更新!最强大模型炸场,128K上下文、价格暴降2/3,还能定制专属GPT最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPTChatGPT最强竞对更新!上下文长度翻倍,API降价近30%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。