Redian新闻
>
上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」

上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】人民大学最新研究,首次从「对比学习」的角度来理解上下文学习,或可提供自注意力机制的改进思路。
近些年来,基于Transformer的大语言模型表现出了惊人的In-context Learning (ICL)能力,我们只需要在查询问题前以 {问题,标签} 的形式增加少数示例,模型就可以学到该任务并输出较好的结果。
然而,ICL背后的机理仍是一个开放的问题:在ICL的推理过程,模型的参数并没有得到显式的更新,模型如何根据示例样本输出相应的结果呢?
近日,来自中国人民大学的学者提出了从对比学习的视角看待基于Transformer的ICL推理过程,文章指出基于注意力机制的ICL推理过程可以等价于一种对比学习的模式,为理解ICL提供了一种全新视角。

论文地址:https://arxiv.org/abs/2310.13220

研究人员先利用核方法在常用的softmax注意力下建立了梯度下降和自注意机制之间的关系,而非线性注意力;

然后在无负样本对比学习的角度上,对ICL中的梯度下降过程进行分析,并讨论了可能的改进方式,即对自注意力层做进一步修改;

最后通过设计实验来支持文中提出的观点。

研究团队表示,这项工作是首次从对比学习的角度来理解ICL,可以通过参考对比学习的相关工作来促进模型的未来设计思路。

背景与动机

相较于有监督学习下的微调,大模型在ICL推理过程中并不需要显式的梯度更新,即可学习到示例样本中的信息并输出对于查询问题的答案,基于Transformer的大模型是如何实现这一点的呢?

一个自然且直观的想法是,模型虽然没有在学习上下文过程存在显式更新,但可能存在相应的隐式更新机理。
在此背景下,许多工作开始从梯度下降的角度来思考大模型的ICL能力。
然而,现有的工作或是基于Transformer线性注意力的假设,或是基于对模型参数特定的构造进行分析,实际应用中的模型并不一定符合上述的假设。
因此,有两个问题亟需解决:
(1)不依赖于权重参数构造方法以及线性注意力的假设,如何在更为广泛使用的softmax注意力设定下,对ICL的隐式更新机理进行分析?
(2)这种隐式更新的具体过程,如损失函数以及训练数据,会具有什么样的形式?

方法

作者首先假设模型输入的token由若干示例样本的token以及最后的查询token组成,每个token由 {问题, 标签} 的embedding拼接而成,其中,查询token的标签部分设置为0,即

在注意力机制下,模型输出最后一个token并readout得到预测的标签结果

进一步,作者应用核方法,将注意力矩阵的每一项看作映射函数的内积


在此基础上,作者建立了基于Transformer注意力机制的推理过程与在参考模型上进行梯度下降之间的对应关系。
在参考模型的梯度下降过程中,示例样本与查询的token分别提供了训练集以及测试输入的相关信息,模型在类似余弦相似度的损失函数下进行训练,参考模型最后输出测试输入所对应的输出。

作者指出参考模型的该输出会与注意力机制下的推理输出严格等价,即参考模型在对应数据集以及余弦相似损失上进行一步随机梯度下降后,得到的测试输出会与注意力机制下得到的输出是严格相等的。

等价关系
进一步,作者发现这一对应的梯度下降过程类似于无负样本的对比学习模式,其中,注意力机制中的K,V映射可以看作为一种「数据增强」。

而参考模型则是相当于需要学习潜在表征的encoder,其将映射后的K向量先投影到高维空间学习深层表征,然后再映射回原来的空间与V向量进行对比损失的计算,以使得两者的尽可能的相似。

对比学习模式
基于此,作者从对比学习的角度对注意力机制作出改进,作者分别从正则化的损失函数、数据增强以及增加负样本三个方面来进行考虑。
正则化的损失函数
作者指出在对比损失中增加正则,相当于在原有注意力机制上添加特殊的支路。
数据增强
作者认为原有的线性映射作为数据增强或不利于学习潜在表征,对于特定数据类型所设计的数据增强方式或许更为有效,相应地,作者给出了对模型进行修改的框架。
增加负样本
此外,作者还从增加负样本的角度,给出了ICL对比学习模式以及相应注意力机制的改进。


实验

实验部分中,作者在线性回归任务上设计了仿真实验,说明了注意力机制下的推理过程与参考模型上进行梯度下降过程的等价性,即单层注意力机制下得到的推理结果,严格等价于参考模型在对比损失loss上进行一步梯度下降后的测试输出。

在实验中,作者还选取了正随机特征作为映射函数,来作为对注意力机制的近似,并考察了不同随机特征维度对注意力矩阵以及输出近似效果的影响,说明了该映射函数的有效性。

实验图1
作者还展示了近似得到的注意力矩阵以及输出与实际结果的对比,说明了二者在模式上的基本一致。

实验图2

最后,作者进一步探究了根据对比学习视角对注意力机制改进后的表现效果,发现选择合适的改进方式不仅可以加速模型训练的收敛速度,还可以最终取得更好的效果,这说明了未来从对比学习视角进行模型结构设计与改进的潜力。

实验图3

总结与未来展望

作者在不依赖于线性注意力假设以及权重构造的方法下,探究了ICL的隐式更新机理,建立了softmax注意力机制推理过程与梯度下降的等价关系,并进一步提出了从对比学习的视角下看待注意力机制推理过程的新框架。

但是,作者也指出了该工作目前仍存在一定的缺陷:文章目前只考虑了softmax自注意力机制下的前向推理,层归一化,FFN模块以及decoder等Transforomer其余结构对推理过程的影响仍有待进一步的研究;从对比学习视角出发对模型结构进行进一步的改进,在诸多实际应用任务上的表现仍有待进一步探索。
参考资料:
https://arxiv.org/abs/2310.13220




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了《秋窗风雨夕》&《习惯悲伤》小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器「对齐」太强是坏事?人大最新研究:完美正样本反而会损害「图对比学习」贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习斑叶蝴蝶兰,清新靓丽揭示爬岩鳅"水下壁虎"吸附-滑行机理,启发水下机器人新运动模式 | NSR红色日记 3.21-31一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT三皇五帝一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用Transformer的上下文学习能力是哪来的?NeurIPS 2023 | 从分布鲁棒优化角度理解对比学习的鲁棒性和温度系数的意义PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍揭示中医治疗外感病机理的第一个公式诞生了:中医其实是理科!OpenAI史诗级更新!最强大模型炸场,128K上下文、价格暴降2/3,还能定制专属GPTGPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录5150 血壮山河之武汉会战 崩溃 10全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%ChatGPT最强竞对更新!上下文长度翻倍,API降价近30%Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器YaRN:一种高效RoPE扩展方法,可推理更长上下文并达到SOTA百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2AAAI 2023 | 基于可学习图增强的邻居监督图对比学习「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练昆州州担保正式更新2023-24财年的具体要求和境外职业清单QSOL,整体来看对比上一财年有所放宽。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。