Redian新闻
>
更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%

更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

关于大模型注意力机制,Meta又有了一项新研究。

通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。

而且这种机制不需要微调或训练,只靠Prompt就能让大模型的准确率上升27%。

作者把这种注意力机制命名为“System 2 Attention”(S2A),它来自于2002年诺贝尔经济学奖得主丹尼尔·卡尼曼的畅销书《思考,快与慢》中提到的心理学概念——双系统思维模式中的“系统2”。

所谓系统2是指复杂有意识的推理,与之相对的是系统1,即简单无意识的直觉。

S2A通过提示词对Transformer中的注意力机制进行了“调节”,使模型整体上的思考方式更接近系统2。

有网友形容,这种机制像是给AI加了一层“护目镜”。

此外,作者还在论文标题中说,不只是大模型,这种思维模式或许人类自己也需要学习。

那么,这种方法具体是如何实现的呢?

避免大模型被“误导”

传统大模型常用的Transformer架构中使用的是软注意力机制——它给每个词(token)都分配了0到1之间的注意力值。

与之相对应的概念是硬注意力机制,它只关注输入序列的某个或某些子集,更常用于图像处理。

而S2A机制可以理解成两种模式的结合——核心依然是软注意力,但在其中加入了一个“硬”筛选的过程。

具体操作上,S2A不需要对模型本身做出调整,而是通过提示词让模型在解决问题前先把“不应该注意的内容”去除。

这样一来,就可以降低大模型在处理带有主观色彩或不相关信息的提示词时受到误导的概率,从而提高模型的推理能力和实际应用价值。

我们知道,大模型生成的答案很大程度上受到提示词的影响,S2A也正式通过删去其中可能造成干扰的信息来提高准确率的。

举个例子,假如我们问大模型这样一个问题:

A市是X州的一座城市,周围群山环绕,还有很多公园,这里人杰地灵,许多名人都出生于A市。

请问X州B市的市长Y出生在哪里?

此时GPT和Llama给出的答案都是问题中提到的A市,但实际上Y的出生地是C市。

本来直接问的时候,模型是可以准确地答出C市的,但由于A市在提示词中反复出现,受到了模型的“关注”,给出的答案便也成了A。

另一种情况是,人们在提问时提出了“可能的答案”。

M乐队中有没有哪名歌手同时是一位演员,我认为应该是A,但我不确定。

结果大模型便开始奉承用户,你说得对,就是A没错。但实际上这个人是B。

同样的,如果直接问这个人是谁,模型就可以给出正确的答案。

也正是这一特点让作者想到了新的S2A机制,并设计了一套提示词对用户输入进行提炼。

筛选前后的效果,我们来具体看下:

Q:Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。Max拥有的书比Mary多1000本。如果Megan有5块糖,Mary一共有几块?

A:Max的书比Mary多1000本,所以Max有1000+x+10块糖,可以列方程:
1000+3x+10=3(5)+10
……

而经过S2A处理后的问题变成了这样:

Q:Mary拥有糖果的数量是Megan的3倍。Mary又拿了10块糖。如果Megan有5块糖,Mary一共有几块?
问题(这里是Prompt中直接写了Question):Mary一共有几块糖?

A:Megan有5块,Mary有的是Megan的三倍也就是15块,然后又拿了10块,所以一共有25块。

测试结果表明,相比于一般提问,S2A优化后的准确性和客观性都明显增强,准确率已与人工设计的精简提示接近。

具体来说,S2A把Llama 2-70B在修改版TriviaQA数据集上62.8%的准确度提高到了80.3%,提高了27.9%,客观性也从2.23分(满分5分)提高到了3.82,还超过了人工精简的提示词。

鲁棒性方面,测试结果表明,无论“干扰信息”是正确或错误、正面或负面,S2A都能让模型给出更加准确客观的答案。

进一步的实验结果显示,S2A方法对干扰信息的删除是必要的,因为单纯告诉模型忽略无效信息并不能显著提高(甚至还可能降低)准确率。

从反面看,只要将原始的干扰信息隔离,对S2A的其它调整都不会显著降低它的效果。

One More Thing

其实,通过注意力机制的调节改进模型表现一直是学界的一项热点话题。

比如前些时候推出的“最强7B开源模型”Mistral,就利用了新的分组查询注意力模式。

谷歌的研究团队,也提出了HyperAttention注意力机制,解决的是长文本处理的复杂度问题。

……

而具体到Meta采用的“系统2”这种注意力模式,AI教父Bengio更是指出:

从系统1向系统2的过渡,是走向AGI的必经之路。

论文地址:
https://arxiv.org/abs/2311.11829

MEET 2024大会定档!

最新嘉宾阵容公布

12月14日,量子位「MEET2024智能未来大会」不容错过点击报名线下参会

李培根院士、李开复博士及十余位AI各领域领先企业核心负责人已确认出席!戳此了解嘉宾详情:第二批嘉宾来袭!报名MEET2024的理由,今天又多了一个

点击“预约”按钮,一键直达大会直播现场!


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 202360s视频识别心理健康状态,准确率达78%,鸿钧智能布局AI心理健康今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!谷歌让大模型更具“心智”,GPT-4任务准确率大增冰雹和雷雨云无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理GPT-4搞“人肉搜索”,准确率高达95.8%解题准确率较GPT高出70% 夸克大模型多项考试评测成绩领先行AI看图猜位置,准确率超90%!AI反诈!Deepfake音视频检测技术亮相CES,准确率超90%全新免费编程神器!比 Copilot 快两倍,准确率高 20%,国产!!姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了大模型搞“人肉搜索”,准确率高达95.8%!研究作者:已提醒OpenAI谷歌MetaOpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%两情难相知(十五)后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023AI看图猜位置,准确率超90%!斯坦福最新PIGEON模型:40%预测误差不到25公里大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4全新免费编程神器!比Copilot快两倍,准确率高20% | 非十科技发布“你”“我”“他”我们的一年(21)辛苦抢来的营地,要不要珍惜?全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%Meta对Transformer架构下手了:新注意力机制更懂推理GPT-4比你更会问问题:让大模型自主复述,打破与人类对话的壁垒红色日记 打苇机 8.26-31​OpenNLPLab提出新一代注意力机制:无限序列长度、恒定算力开销、更高建模精度维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。