Redian新闻
>
北大发现了一种特殊类型的注意力头!

北大发现了一种特殊类型的注意力头!

科技

夕小瑶科技说 原创
作者 | 任同学
检索头的发现或许将有力地帮助大模型领域在提高长上下文推理能力减少幻觉压缩KV缓存方面的研究。

从 Claude100K 到 Gemini10M,我们正处于长上下文语言模型的时代。如何在长上下文中利用任何输入位置的信息?北大联合另外四所高校发现了一种特殊类型的、负责从长上下文中进行检索的注意力头

研究人员对4个模型族、6个模型尺度和3种微调类型的系统调查表明,存在一种特殊类型的注意力头(称之为检索头),它主要负责从长上下文中检索相关信息。

研究人员发现了检索头具有一些重要和有趣的性质:

  1. 通用性:所有具有长上下文能力的探索模型都有一组检索头;
  2. 稀疏性:只有一小部分(小于5%)的注意头是检索头;
  3. 内在性:检索头在短上下文预训练的模型中已经存在。当将上下文长度扩展到32-128K时,仍然是同一组注意力头执行信息检索;
  4. 动态激活:以 Llama-27B 为例,无论上下文如何变化,12个检索头始终关注所需信息。其余的检索头在不同的环境中被激活;
  5. 因果关系:完全修剪检索头导致检索相关信息失败,产生幻觉,而修剪随机的非检索头不影响模型的检索能力。

由于检索头用于从长上下文中检索信息,因此不难推测,检索头强烈影响思维链(CoT)推理,因为模型需要经常引用问题和先前生成的上下文。

相反,模型使用其固有知识直接生成答案的任务受屏蔽检索头的影响较小。这些观察结果共同解释了模型的哪个内部成分会在输入 token 中寻找信息。

通用且稀疏的检索头

研究人员表示,在研究的所有语言模型中,无论是Base还是Chat版本,上下文长度如何,小模型还是大模型,密集或是MoE——只要它们在大海捞针基准中通过,它们就有一小组检索头。

▲图1.检索头在模型族和尺度上是通用的和稀疏的。当需要检索时,只有不到5%的注意头在超过50%的时间内被激活(检索分数高于0.5)。

上下文长度的拓展不影响检索头的位置

研究人员提出,检索头是一种已经位于基础模型中的、固有的特性,是预训练的结果,并且最关键的是,如将上下文从 4K 扩展到 100K,或将其微调为聊天,或升级到 MoE 专家模型,它仍然是激活的同一组检索头。

▲图2.检索头是固有的并且已经在基本模型内。无论是通过继续预训练(LLaMA 2 7B 80K)或指令微调(Qwen 1.5 14B Chat)或升级稀疏模型(Mixtral 8×7B),都使用同一组检索头作为基础模型,如热图模式之间的高度相似性。

这个性质在同一个模型家族中也能体现出来,同一族模型的检索头是强相关的,即聊天模型和基础模型通常使用同一组检索头,而不同家族模型的检索头明显不同!

▲图3.

如何用检索头来解释模型幻觉?

研究人员使用检索头的理论解释了模型产生幻觉的原因,即当模型错过了部分信息时,检索头不会被激活;当模型找不到针并完全产生幻觉时,检索头会处理虚拟的token。

通过逐渐掩盖检索/随机头的数量,可以观察模型的行为如何变化。如图 4 所示,屏蔽检索头会严重损害模型的大海捞针性能,而屏蔽随机头对性能的影响要小得多。

▲图4.屏蔽前 K 个检索头与 K 个随机头。对于考虑的所有模型,移除检索头明显降低了大海捞针的性能,而移除非检索头的影响则要弱得多。

值得注意的是,当将屏蔽头的数量 K 增加到 50(约占全部头数的 5%)时,所有模型的针测试性能均降至 50 以下,这表明顶部检索头负责大部分针检索行为。

▲图5.当模型无法完整地检索到全部“针”时,通常会出现两种典型错误:(1) 不完整的检索,即检索头错过了信息的一部分“吃一个三明治”;(2) 幻觉,即检索头关注最初的标记。

随着屏蔽头的数量增加,最初会屏蔽一小部分最强大的检索头,不完整检索开始出现。在没有最强检索头的情况下,余下较弱的头只能检索到目标信息的一部分。

形象地说,每个检索头持有“针”的一小部分,但这些碎片无法形成完整的“针”,导致最终输出不完整。这种现象通常在屏蔽得分大于0.4的检索头时开始出现。随着屏蔽头的数量进一步增加,幻觉变得更加普遍,标志着检索能力的完全失败。

除了大海捞针类的实验,研究人员还使用 Extract QA 作为测试方法,为了确保所询问的知识不存在于模型的内部知识中,研究人员通过选择一组最新的新闻文章、从中提取一个段落并要求 GPT-4 产生答案对,类似于 Anthropic  中进行的评估。

如图 6 所示,随机屏蔽非检索头对性能没有显着影响。屏蔽检索头导致 F1 分数大幅下降,分别下降了 9.2% 和 23.1%。这些观察结果表明,现实世界的文档 QA 任务在很大程度上依赖于检索头的功能。

▲图6.屏蔽检索头会严重损害 ExtractQA 性能。而屏蔽其他的注意力头则对性能的影响很小。

对CoT的性能有显著影响!

研究人员测试了Mistrial-7B-Instruct-v0.2在MMLU、MuSiQue和GSM8K上的表现,结果显示,在仅使用答案提示(不包括CoT)的情况下,屏蔽检索头或随机头并不会真正影响性能,这可能是因为模型的生成主要基于存储在FFN层中的内部知识。对于链式思维推理,屏蔽检索头则会显著影响模型的性能。

▲图7.检索头显着影响需要链式推理的任务。这是因为通常在推理链中,下一步推理需要模型参考先前的信息。

通过检查典型的错误案例,研究人员发现当掩盖了检索头,模型会变得对先前的重要信息“视而不见”,并产生虚假的 CoT 幻觉。

▲图8.CoT的示例。

检索头与模型语言能力无关

神奇的是,作者提到检索头只会影响事实性,而不影响语言能力。当检索头被掩蔽时,模型说出“在多洛雷斯公园”的开头后可能产生“do other things”的幻觉,但这仍然是一个流利的句子,只是并不是“吃三明治”事实。

▲图9.检索头是将信息从输入重定向到输出的头。左:掩盖了 LLaMA 2 7B 80K 的顶级检索头,其大海捞针性能下降显着,并且模型在解码过程中产生幻觉。右图:屏蔽随机不可检索头部不会影响模型的大海捞针行为。

有网友也注意到作者提到“如果模型通过了“大海捞针”测试,那么模式总是可以观察到的”,这是否意味着,不能通过测试的模型就没有检索头!? 而作者也出了回复:

我倾向于相信(到目前为止)状态空间模型/线性和局部注意力模型不能做捞针实验的原因是因为它们没有检索头。

这倒是有些费解,不过这项工作才刚开始,期待后面会有新的发现吧!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌前招聘官:不要在简历中使用这三种类型的短语用 Vision Pro 逛了一下午淘宝,我发现了一种很新的网购方式低调女老板;32岁母胎单身女6年相亲百人以上,从未恋爱过仅靠一个“特殊”病例!这名三甲小主治发了一篇SCI!他是怎么做到的?《人生这壶酒》&《新化蝶》WestJet航空大罢工!要出行的注意了!机械师全体停工、没人修飞机了!请注意谨慎出行惊!加拿大超市上架一种"特殊牛肉"!网友炸锅:绝对不会买!重大发现!我国再获亿吨级油田CVPR 2024 | 知识感知注意力!用于组织病理学全幻灯片图像分析高频面试题:Transformer为什么使用多头注意力机制?“汤元”,“白玉”,各有所喜,不同寓意最新研究:每天4杯咖啡,癌症复发和死亡风险降低32%!但有一种类型的咖啡不行......中国考古界“奥斯卡”:2023最震撼的十大发现是什么?入侵200名孩子的手机后,美国研究发现了一个心碎的共性......入侵200名孩子的手机后,美国研究发现了一个心碎的共性携手全球儿童专注力权威专家“哈洛韦尔”创立,思欣跃打造闭环式数字化注意力解决方案北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应从北大附小到清华附中,虽然清华附中不能承诺我们可以一路直升到高中,但也比在北大附中温水煮青蛙要强|清华附中Ava妈妈这地孩子们饿着肚子上学 由于营养不良而无法集中注意力 甚至太虚弱根本无法参加新疆,有一个重大发现!重庆燃气,带了一个很坏的头!“蔡元培”进北大研究生复试,北大:确实巧合,一切会按流程办事“怪果唱片巡游日”回顾视频:感谢你对新音乐的好奇,对老唱片的怜爱,对每位朋友投去的注视目光斯里兰卡|有一种特殊符号,专门负责传递死讯一个夺回注意力的小技巧,三个字一部手机就能玩出这种特效,难怪3D建模大神都点赞越南旧政权的鈔票。 音樂:Romance De Lamour家里凌乱的注意啦!公开招200人学整理收纳!让家干净又宽敞,顺便get一门副业!肚子赘肉多?最新研究显示 这种类型的身材更易罹患大肠癌7种特调咖啡的创意喝法,在家就能做 | 喝一口就上瘾北大发布两份讣告2024神奇魔幻哥伦比亚(二)波哥大:Monserrate Mountain警惕!住纽约唐人街这个老人公寓大厦的注意了!疑旁边施工导致墙体开裂!楼宇局紧急叫停....ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限发现了一个超好用的免费报税软件
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。