Redian新闻
>
4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

只有4k窗口长度的大模型,也能阅读大段文本了!

普林斯顿的华人博士生的一项最新成果,成功“突破”了大模型窗口长度的限制。

不仅能回答各种问题,而且整个实现的过程全靠prompt就能完成,不需要任何的额外训练

研究团队创建了一种名为MemWalker的树形记忆策略,可以突破模型本身的窗口长度限制。

测试过程中,模型阅读的最长文本包含了1.2万+token,成绩相比LongChat大幅提高。

相比于相似的TreeIndex,MemWalker可以进行推理并回答任何问题,而不是只做概括。

MemWalker的研发利用到了“分而治之”的思想,就此有网友这样评论:

每次我们让大模型的思考过程更像人类,它们的表现就会越好

那么,具体什么是树形记忆策略,又是如何用有限的窗口长度阅读长文本的呢?

一个窗口不够,就多开几个

模型上,MemWalker使用Stable Beluga 2作为基本模型,它是Llama 2-70B经过指令调优得到的。

在选择该模型之前,开发者对比了其与原始Llama 2的表现,并最终确定选用。

就像MemWalker这个名字一样,它的工作过程就像记忆流在行走。

具体来看,大致分为记忆树构建导航检索两个阶段。

构建记忆树时,长文本会被分割成多个小段(seg1-6),并由大模型分别针对每一段做出总结,得到“叶子节点(leaf nodes,summ1-6)

分割时,每段的长度越长,层级就会越少,有利于后续检索,但其本身过长又会导致准确度下降,因此需要综合考虑确定每段长度。

作者认为,每一段合理的长度是500-2000token,而实验中使用的为1000token。

然后,模型递归地对这些叶子节点的内容再次进行总结,形成“非叶节点(non-leaf nodes,summ7-8)

二者的另一个区别是,叶子节点包含了原始信息,非叶节点只有概括得到的二级信息

作用上,非叶节点用于导航定位答案所在的叶子节点,而叶子节点则用于推理出答案。

其中的非叶节点可以有多个层级,模型逐步进行总结概括,直到得到“根节点”,形成完整的树形结构。

记忆树建立完毕后,就可以进入导航检索阶段来生成答案了。

这一过程中,模型从根节点开始,逐一读取下级子节点的内容,然后推理出应该进入这个节点还是返回。

决定进入这个节点之后,再次重复这样的过程,直到读取到叶节点。如果叶节点的内容合适则生成答案,否则返回。

为了确保答案的完整性,这个过程的结束条件并非发现了一个合适的叶节点,而是模型认为得到了完整答案,或者达到最大步数。

导航过程中,如果模型发现进入了错误的路径,还可以导航回退。

此外,MemWalker中还引入了工作记忆机制来来提高准确度。

该机制会将已经访问过的节点内容加入到当前内容的上下文中。

当模型进入一个新节点时,当前节点内容都会被加入到记忆中。

这一机制让模型在每一步都可以利用访问过的节点内容,避免重要信息的丢失。

实验结果显示,工作记忆机制可以将MemWalker的准确率提升10%左右。

而且,上面所说的过程只依靠prompt就能完成,不需要进行额外的训练。

理论上,只要有足够的算力,MemWalker可以阅读无限长的文本。

不过,记忆树构建时的时间和空间复杂度随着文本长度的增长是呈指数型的。

作者简介

论文第一作者是普林斯顿大学NLP实验室华人博士生Howard Chen。

清华姚班校友陈丹琦是Howard的导师,她今年在ACL上的学术报告也与搜索有关。

这项成果是Howard在Meta实习期间完成的,Meta AI实验室的Ramakanth Pasunuru,Jason Weston和Asli Celikyilmaz三位学者也参与了本项目。

论文地址:
https://arxiv.org/abs/2310.05029

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
陈丹琦团队新作:LLM-Shearing为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤英国的海岸线有多长?越是精确地测量、其长度就会越长英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报江苏银行三季报出炉,资本实力增强、坚定可持续发展道路免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!陈丹琦新作:一个LLM的评估基准LLMBarACL23 | 基于检索的大语言模型-陈丹琦报告阅读陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了!2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训未来大模型顶会?陈丹琦等人组织首届COLM,为语言建模研究提供新平台专家提醒美国沙滩遍布肉食菌踪影,若有伤口长假期不宜戏水陈丹琦团队新作:5%成本拿下SOTA,“羊驼剪毛”大法火了记忆力“治愈者”:注射“长寿”蛋白可增强猴子记忆力LM-Infinite: 一种简单有效的大模型即时长度泛化,解决更长文本推理问题4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型手把手教你剪「羊驼」,陈丹琦团队提出LLM-Shearing大模型剪枝法男女平等---还要等多久?李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星我们的一年(6)外星世界外星人女明星的裙子,到这个长度就挨骂AI公司第四范式IPO上市;雷军王小川联手搞小米大模型;百度发布量子领域大模型;AI新技术90秒识别癌;苹果疯狂购买AI初创公司这种流行的调味品可以增强记忆力谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱红色日记 10.21-31如何看待陈丹琦等大佬创建的大语言模型会议COLM?普林斯顿陈丹琦团队:手把手教你给羊驼剪毛,5%成本拿下SOTA风雨之夜《编织梦幻的人·恩斯特篇之二》小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。