无位置编码 (NoPE) 也有长度泛化问题?首个针对NoPE的长度外推方法
©作者 | FudanNLP
单位 | 复旦大学NLP实验室
论文链接:
代码链接:
论文速看
现象:注意力分散
其中,温度系数默认取:
按注意力头分别控制
于是,作者为每个头分配不同的最佳温度超参数,对于 1B 大小的模型,共计 22 层*32 头=704 个参数。通过基于梯度下降的高效超参数搜索,找到每个头的最佳温度超参数 λ^(h),使其外推效果达到最佳。
最佳温度超参数与熵的大小是否有关呢?作者可视化了两者的相关关系,发现注意力越聚焦(熵更小),则对应的 λ^(h) 越大。另外,这种相关性与层数有关,模型的不同层呈现出不同的行为模式。
实验结果
本文提出的方法能够显著提高 NoPE 模型在长序列语言建模、合成任务(passkey 检索)和真实世界的长上下文任务(LongBench)上的性能。
另一方面,随着 NoPE 的外推长度不断变大,其在短上下文上的性能逐渐下降,这意味着限制 NoPE 模型专注于更少的 token 可能会对其性能产生不利影响。如何恢复短上下文的性能还需要进一步研究。
此外,NoPE 模型还呈现出远超 RoPE 的外推潜力。NoPE 模型不做任何操作,就能在 2 倍预训练长度上很好地完成 passkey 检索任务(图中黑色虚线为预训练长度或微调长度)。
总结与展望
本文讨论了无位置编码(NoPE)模型的长度泛化性问题。作者提出了基于梯度下降的高效超参数搜索方法,针对每个注意力头搜索最佳的温度系数。实验证明 NoPE 的长度泛化能力具有竞争力,为长上下文语言模型提供了一个新的选项。
本文为理解模型的位置信息提供了一个新的视角。NoPE 去除了显式位置编码的干扰,直击模型内部的位置信息表示。现有的长度外推工作大多聚焦在操作位置编码的表示上,本文揭示了长度泛化失败与注意力分散之间的相关性,为该领域的研究提供的新的方向。
参考文献
[1] Ofir Press, Noah A. Smith, Mike Lewis. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. ICLR 2022
[2] Yutao Sun, Li Dong, Barun Patra, Shuming Ma, Shaohan Huang, Alon Benhaim, Vishrav Chaudhary, Xia Song, Furu Wei. A Length-Extrapolatable Transformer. ACL 2023
[3] Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma. Effective Long-Context Scaling of Foundation Models.
[4] Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian. Extending Context Window of Large Language Models via Positional Interpolation.
[5] Bowen Peng, Jeffrey Quesnelle, Honglu Fan, and Enrico Shippole. YaRN: Efficient context window extension of large language models. ICLR 2024
[6] Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong. Training-Free Long-Context Scaling of Large Language Models.
[7] Adi Haviv, Ori Ram, Ofir Press, Peter Izsak, Omer Levy. Transformer Language Models without Positional Encodings Still Learn Positional Information. Findings of EMNLP 2022
[8] Ta-Chung Chi, Ting-Han Fan, Li-Wei Chen, Alexander I. Rudnicky, Peter J. Ramadge. Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings. ACL 2023
[9] Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy. The Impact of Positional Encoding on Length Generalization in Transformers. NeurIPS 2023
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者