Redian新闻
>
ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN Prompting

ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN Prompting

公众号新闻


©PaperWeekly 原创 · 作者 | 徐本峰

单位 | 中国科学技术大学

研究方向 | 自然语言处理


本文简要快速地向大家分享我们近期发表在 ICLR 2023 上关于大模型、上下文学习方向的工作。

论文链接:

https://arxiv.org/abs/2303.13824

代码链接:

https://github.com/BenfengXu/KNNPrompting




背景&动机


上下文学习在最早的 GPT3 论文 [1] 中就已经被提出:

We use the term “in-context learning” to describe the inner loop of this process, which occurs within the forward-pass upon each sequence.


▲ GPT3 paper demonstrates In-Context Learning


问题一:上下文学习的容量是有限的

这是一个非常直接、显然却往往被大家当做理所当然的问题,即受限于当前主流大模型的 context 长度,上下文学习只能容纳有限 demonstration 样本。而实际上,在我们的 pilot study 里,随着 demonstration 数量的增加,性能是持续提升的:

▲ 上下文学习的性能随样本数量持续提升,却被上下文长度容量截断


问题二:上下文学习受到多种潜在Bias的影响

Calibration before use [2]ICML21)这篇文章中较早地系统分析了 recency、common token、majority label 等多种 bias 对上下文学习性能的影响,并提出了一种非常简单且巧妙的,通过空置输入来测量和校正 bias 的方法:Contextual Calibration。

另外一篇 Fantastically Ordered Prompts [3](ACL 22 outstanding paper)也从 demonstration 的顺序这个角度切入,探讨了上下文学习性能的 sensitivity。



方法


本文提出一种基于近邻检索的方法,简单且十分有效地解决以上两个问题。

1. 首先将所有训练样本分为:Train Set 和 Anchor Set

2. 将 Anchor 样本用于推理,得到 LLM 输出的 LM Probability Distribution,作为 Key,而 Anchor 样本的 Label 作为 Value,key-value pair 构建 Datastore(这里的关键在于,记录并存储完整的 LM Distribution,这样才能保存完备的信息而没有任何损失

3. 对于测试样本,不再直接解码 LM Distribution 到 Label Word,而是计算该分布在 Anchor Set 分布中的最近邻,取其 Value 直接作为最终的预测结果

▲ kNN Prompting




实验结果


实验主要分两种 Setting,Few-Shot 和 Fully-Supervised。

先来看 Few-Shot:

主要是为了和 SOTA 方法 [2][4] 进行对比,展示 kNN Prompting 本身作为一种 inference 框架,相较于 In-Context Learning 的显著效果提升。

▲ kNN Promping VS SOTA under comparable Few-Shot Setting

然后是 Fully-Supervised:

kNN Prompting 在训练样本规模远远超过上下文容量的场景下,仍然能够 Effectively Scale Up,在 32~1024 的样本区间以及 0.8B~30B 的模型区间,展现出优秀的 Scaling Curve。

而相比之下,标准的 In-Context Learning 则会在很早的位置就被截断。

▲ Data Scaling Property of kNN Prompting

此外,一种很 Intuitive 的利用更多训练样本的方法是:从 training set 里检索尽可能相关(相似)的样本作为 Demonstration 来构建 Prompt,我们也做了相应的对比:

▲ kNN Prompting VS Retrievl-based Prompt Compse Method

还有更多实验大家可以移步 paper。



总结


本文提出了上下文学习的一种简单、有效的改进方法,通过 LM 预测分布的缓存+近邻检索,实现了:

  • 少样本场景下的大幅提升,显著优于现有 SOTA 方法
  • 全量样本场景下的无限扩展(Data Scaling)性能



参考文献

[1]Language Models are Few-Shot Learners, NIPS20
[2]Calibrate Before Use: Improving Few-Shot Performance of Language Models, ICML21
[3]Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, ACL22
[4]Noisy Channel Language Model Prompting for Few-Shot Text Classification, ACL22



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、4倍上下文都来了我回台湾一周的好消息与坏消息血压高至180 ,继续退圈大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐记忆中的南京之十五:重访故地首篇!Point-In-Context:探索用于3D点云理解的上下文学习GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升国际要闻简报,轻松了解天下事(04一个通用的自适应prompt方法,突破了零样本学习的瓶颈2023 希腊陆地游接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光ICLR 2023 | 负责任的人工智能,守护机器学习的进阶思考田渊栋团队新作:通过位置插值来扩展大语言模型的上下文窗口7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM54百亿参数大模型进化树重磅更新!85页盘点LLM发展史,附最详细prompt技巧田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32K2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品5小时get大模型时代提效神器:写出高价值大模型Prompt!《绿色的牧歌》&《怎么了》【美国春天四月樱花复活节赞美诗三部曲原创艺术节33/250】我在春天创作《复活节小鸟》& 《宗教题材CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别语言模型悄悄偷懒?新研究:​上下文太长,模型会略过中间不看5小时掌握提示词工程,写出高价值大模型Prompt!中文!免费!揭秘Transformer基于上下文学习的能力:看它如何学到正确的线性模型?ChatGPT重大更新!prompt推荐瞬间解释超导,GPT-4成默认模型ICLR 2023 Oral | ToMe:无需训练的Token融合模型加速算法※※ 2023.4.4大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件关于Prompt Engineering你该了解啥?OpenAI应用研究负责人帮你梳理了无题大模型Prompt的中文教程来了!将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?Agustín Hernández:中美洲建筑背景下的未来主义巨构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。