Redian新闻
>
无位置编码 (NoPE) 也有长度泛化问题?首个针对NoPE的长度外推方法

无位置编码 (NoPE) 也有长度泛化问题?首个针对NoPE的长度外推方法

公众号新闻

©作者 | FudanNLP

单位 | 复旦大学NLP实验室


基于 Transformer 的大型语言模型(LLM)展示了强大的文本理解能力,颠覆了整个 NLP 领域的应用范式。然而,在长度有限文本上预训练的语言模型却无法像人类一样泛化到任意长度文本,如何解决长度泛化问题成为了 LLM 的一项主要挑战。 

目前主流的长度泛化工作认为:Transformer 模型中显式的位置编码(例如旋转位置编码 RoPE)带来了长度泛化问题,并试图 1)提出新型可泛化的位置编码(e.g., Alibi[1], XPOS[2]); 2)二次微调 LLM 到更长的文本上(e.g., LLaMA2Long [3]); 3)以内插、外推等方式修改 RoPE 位置编码(e.g., PI[4], YaRN[5])。

这三类工作现阶段都取得了不错的进展,其中一些方法已经成功将 LLM 的长度扩展到 100K 以上 [6]。 然而,位置编码是否是导致长度泛化问题的唯一因素?或者说,如果没有位置编码问题,长度泛化问题会消失吗?

无位置编码(NoPE)的 Transformer 已经被证明在自回归语言模型任务上和 Transformer+RoPE 效果相当 [7,8,9],但是 NoPE 的长度泛化问题并没有改善,和 RoPE 一样严重。华师、复旦、上海 AI Lab 联合团队基于 NoPE,在排除位置编码影响下,研究长度泛化失败的表现和原因,并首次提出适用于 NoPE 的长度泛化方法。


论文标题:
Length Generalization of Causal Transformers without Position Encoding

论文链接:

https://arxiv.org/pdf/2404.12224.pdf

代码链接:

https://github.com/AntNLP/nope_head_scale


论文速看

本文在 NoPE 场景中探究 LLM 的长度泛化问题,发现即使没有位置编码,LLM 仍然无法直接外推。经过注意力熵的可视化,我们观察到无论 RoPE 还是 NoPE,泛化失败的长度上都表现出注意力严重分散的问题。通过简单的注意力缩放(引入 SoftMax 温度超参让注意力强制集中)就能显著提升 NoPE 的长度泛化能力,但是对 RoPE 没有显著效果。 

此外,本文发现不同的注意力头表现出不一致的注意力分散模式,例如 20% 的头完全不需要强制集中,剩余的头所需的集中力度也不尽相同。因此本文提出了一种基于梯度下降的高效超参数搜索,为每个注意力头搜索一个最佳温度超参数。对于 1B 模型,仅需在 30M Token(预训练的 0.03%)的长文上搜索 704 个超参,就能从 2k 扩展到 16k。 

本文的核心贡献是“抛砖引玉”提出在 NoPE 场景下研究长度泛化问题的原因和解决方案。因为即使传入显式 PE(如 RoPE),Transformer 也不可避免的会以某种形式自行学习位置信息。未来的外推方法可能是“PE 自身的外推”+“NoPE 的外推”,甚至是只有“NoPE 的外推”。



现象:注意力分散

NoPE 模型中还有什么因素会制约外推能力?在 Transformer-NoPE 架构中,Embedding 层和 FFN 层均与位置无关,只有注意力模块与位置相关。那么,注意力模块是否会在不同位置上表现出不同的行为?本文发现,Transformer 模型外推失败的时候,总是伴随着注意力分散。

为了定量描述注意力模块的聚焦程度,作者可视化并分析了注意力分布的熵。点积注意力可以表示为:

其中,温度系数默认取:

对注意力矩阵的每一行分别计算熵,就得到了每个位置的注意力分布情况。熵越小,注意力越集中;反之熵越大,注意力越分散。

图中实线表示每个位置上的熵(所有注意力头的平均),虚线表示每个位置上的对数困惑度。可以发现,模型困惑度的崩溃总是伴随着熵的上升,即注意力分散。
因此作者修改了 SoftMax 的最佳温度超参数,使注意力重新聚焦,从而显著地增强了 NoPE 模型的上下文长度(左图)。然而,这一方法却无法直接应用于 RoPE 模型(右图)。

按注意力头分别控制

实验表明,简单地修改模型整体的最佳温度超参数,得到的上下文扩展的范围有限。作者进一步细化了熵的可视化,发现不同的注意力头表现出不一致的注意力模式,有些熵较小,有些则比较大。这暗示了每个注意力头的最佳温度超参数或许不同。


于是,作者为每个头分配不同的最佳温度超参数,对于 1B 大小的模型,共计 22 层*32 头=704 个参数。通过基于梯度下降的高效超参数搜索,找到每个头的最佳温度超参数 λ^(h),使其外推效果达到最佳。


最佳温度超参数与熵的大小是否有关呢?作者可视化了两者的相关关系,发现注意力越聚焦(熵更小),则对应的 λ^(h) 越大。另外,这种相关性与层数有关,模型的不同层呈现出不同的行为模式。



实验结果

本文提出的方法能够显著提高 NoPE 模型在长序列语言建模、合成任务(passkey 检索)和真实世界的长上下文任务(LongBench)上的性能。

由于只有 704 个可调整的参数,本文的 NoPE 长度外推方法只需要极少的训练 token 即可收敛。在相同的训练量下,NoPE 与 RoPE 上的基线性能持平。然而,当增加训练量时,RoPE 基线的性能仍有提升空间,而 NoPE 上的超参数搜索已经达到上界。

另一方面,随着 NoPE 的外推长度不断变大,其在短上下文上的性能逐渐下降,这意味着限制 NoPE 模型专注于更少的 token 可能会对其性能产生不利影响。如何恢复短上下文的性能还需要进一步研究。

此外,NoPE 模型还呈现出远超 RoPE 的外推潜力。NoPE 模型不做任何操作,就能在 2 倍预训练长度上很好地完成 passkey 检索任务(图中黑色虚线为预训练长度或微调长度)。


总结与展望

本文讨论了无位置编码(NoPE)模型的长度泛化性问题。作者提出了基于梯度下降的高效超参数搜索方法,针对每个注意力头搜索最佳的温度系数。实验证明 NoPE 的长度泛化能力具有竞争力,为长上下文语言模型提供了一个新的选项。

本文为理解模型的位置信息提供了一个新的视角。NoPE 去除了显式位置编码的干扰,直击模型内部的位置信息表示。现有的长度外推工作大多聚焦在操作位置编码的表示上,本文揭示了长度泛化失败与注意力分散之间的相关性,为该领域的研究提供的新的方向。


参考文献

[1] Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. ICLR 2022

[2] Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon Benhaim, Vishrav Chaudhary, Xia Song, Furu Wei. A Length-Extrapolatable Transformer. ACL 2023

[3] Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma. Effective Long-Context Scaling of Foundation Models.

[4] Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation.

[5] Bowen Peng, Jeffrey Quesnelle, Honglu Fan, and Enrico Shippole. YaRN: Efficient context window extension of large language models. ICLR 2024

[6] Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong. Training-Free Long-Context Scaling of Large Language Models.

[7] Adi Haviv, Ori Ram, Ofir Press, Peter Izsak, Omer Levy. Transformer Language Models without Positional Encodings Still Learn Positional Information. Findings of EMNLP 2022

[8] Ta-Chung Chi, Ting-Han Fan, Li-Wei Chen, Alexander I. Rudnicky, Peter J. Ramadge. Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings. ACL 2023

[9] Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. NeurIPS 2023


更多阅读


#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅|印度外长公开指责:加拿大欢迎罪犯!印加关系爆雷,特鲁多敢不敢再“硬”一点OpenAI隐藏“王炸”,这一次要革Google的命?只会写代码的程序员要不存在了?大模型浪潮下开发者概念泛化 | InfoQ 研究中心ICML 2024 | 过犹不及:揭示Graph Transformers中的过全局化问题超越OpenAI,谷歌重磅发布从大模型蒸馏的编码器Gecko健康,决定人生的长度。心态,决定人生的广度。阅读,决定人生的深度。格局,决定人生的高度赌你不知道 | non-refundable的酒店也是可以免费取消的!ICML 2024 | 北大、字节提出新型双层位置编码方案,有效改善长度外推效果“分手容易,相爱难!” | 我们如何才能拥有长久的爱情?Keychron 海外推出 M7 无线鼠标:63g 右手人体工学、3395 传感器、Type-C 接收器用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域作品集如何选题?如何开题?一篇全知道!陈丹青:你们没有好的长辈,因为你们的长辈就是我们重要!伈慌乱跳是怎么补救?到底有没有长新冠损伈问题,这件事值得关注~晚讯|百济神州PD-1在美获批,能否成长为下一个“重磅炸弹”级新药?首个国产花瓣状PFA系统获NMPA批准上市燃气员工有问题,燃气表没问题?1汤森路透:2024年10个针对亚太地区的合规考虑因素报告清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律Transformer升级之路:多模态编码位置的简单思考伽马射线暴Anthropic找到了打败OpenAI的方法:自己也成为OpenAI准备好“重启人生”了吗?首个沉浸式HPV科普小剧场亮相上海,邀你免费“打卡”印度外长的中国观网恋自杀的胖猫悲剧,是感情问题还是法律问题?周末逛逛晚晴园,吃点南洋美食,明天又要搬砖了不用再等 OpenAI ,全球首个 Open-Sora 全面开源!伽马射线暴的研究难点Nature Communications | 北京大学苗成林课题组发现海马CA1细胞编码社交对象位置的新机制2别扎心了!朋友圈这条线有长有短,官方正式回应男生喜欢的长相和女生喜欢的长相,有啥区别?艺术留学作品集,如何选题?如何开题?所有长久的关系,都是讲条件的港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。