科学家提出大模型微调新方法,效果优于现有大模型参数高效微调公众号新闻2024-07-19 12:07最近,美国斯坦福大学团队提出了一种基于大语言模型表征的微调新方法,名为 ReFT。该方法通过训练干预模块对模型表征进行干预,从而达到训练的目标。近日,相关论文以《ReFT:针对大语言模型基于表征的微调方法》(ReFT: Representation Finetuning for Language Models)为题,发表在预印本网站 arXiv 上[1]。斯坦福大学博士研究生吴政璇和阿拉曼·阿罗拉(Araman Arora)是共同第一作者,克里斯多夫·波茨(Christopher Potts)教授担任通讯作者。图丨相关论文(来源:arXiv)吴政璇是斯坦福大学自然语言处理组的博士研究生,该研究的设计思路来源于一次偶然的实验。当时,他与两位合作者想确认一个猜想:能不能通过训练很小的表征干预模块,让大模型一直输出“Sorry, I don’t know”?结果,他们在只改变线性子空间中的单个神经元的情况下,就做到了。在此基础上,研发了 ReFT。需要了解的是,模型表征并不具有参数,它是模型在线生成的产物。现有的大模型参数高效微调(PEFT,Parameter Efficient Fine-Tuning)通常需要训练一些少量的模型参数,或者对于新加的适配器进行少量的参数微调,再或者像前缀词微调一样训练少量词向量。吴政璇表示:“我们加入了‘表征干预模块’这个概念,其负责修改特定的表征,来达到训练的目标。”图丨吴政璇(来源:吴政璇)干预的表征通常是很少量的分词(tokens)所在位置的表征,以帮助研究人员省训练参数。输入序列中的时间概念是关键。现有的 PEFT 通常会忽略时间的概念,而是对于模型产生的表征进行全局修改。换言之,每一层、每一个分词对应的表征,全部都会产生变化来达到训练的目标。“我们认为这是没必要的。通常,大模型的表征已经具有十分有意义的表示。比如,词在空间向量中的位置和词的意思通常会有相关性等。”吴政璇说。基于此,该课题组猜想,如果只是对少部分表征进行修改,是不是也能达到训练的目标呢?模型和解释性为他们的方法提供了理论基础。在 ReFT 之前,领域内已经有一些表征修改的方法,能达到控制模型输出的能力。与之不同的是,该团队所提出的 LoReFT 方法是基于“线性子空间”的概念。线性子空间来源于早期神经网络的相关研究[2-4],它们都提出一个假说:神经网络学习到的概念存在于线性子空间中。吴政璇表示,基于这些理论基础,该课题组提出的新方法在表征的线性子空间中进行修改,命名为 LoReFT。图丨I 代表了干预模块,方程 Φ 是需要学习的表征干预方程,P 和 L 分别代表了干预位置,和干预层。右图详细标注了具体在什么位置进行干预(这里的位置包含了分词位置和模型层号)(来源:arXiv)“在这个示意图里,我们干预了前两个,以及后两个分词对应所有层的表征。”吴政璇表示。ReFT 允许研究人员跨不同的时间步和位置进行干预。到目前为止,他们只对提示词进行干预。当跨层进行干预时,不共享权重。他表示:“我们尚未尝试在特定的因果路径上进行干预,更复杂的 ReFT 或自动 ReFT 有望效果更好,拥有更好控制数学推理能力的 ReFT 会很酷。”ReFT 依赖于解释性工作的洞见,也可能能够反过来为该领域贡献洞见。“我们希望能够用一个更积极的视角解读我们的模型,而不是将它们视为能够修剪和理解的静态参照物,可以从模型中创建有用且可解释的抽象。”吴政璇说。图丨当应用于 LLaMA、Llama-2、Llama-3 和 RoBERTa 模型时,四种基准测试中的 LoReFT 和其他 PEFT 的参数计数与性能(来源:arXiv)通常来说,很多人只会关注于模型的权重更新通过训练求导的方式。研究团队通过这次研究,将“干预”的概念展示给更多的研究人员。“表征的干预其实更加节省算力,有更多的拓展空间,而且在推理时间上也不会有太多的损失。”吴政璇说。在 ReFT 展示对齐可能性的同时,该课题组也期待可通过干预训练或编辑表示来完成。通过微调表征,本质上是在了解模型在干预条件下的行为方式的前提下,创建一个用户具有部分控制权的灰盒模型。换句话说,能做的因果抽象越多,获得的控制就越多。吴政璇表示:“ReFT 达到或非常接近于最先进的水平(SOTA,State of the Art)是出乎意料的,这意味着我们的语言模型在它们的表示空间中,还有更多可被探索的潜力。”参考资料:1.https://arxiv.org/pdf/2404.035922.https://web.stanford.edu/~jlmcc/papers/PDP/Volume%202/Chap22_PDP86.pdf3.https://direct.mit.edu/books/monograph/4424/Parallel-Distributed-Processing-Volume4.https://arxiv.org/abs/2402.15179运营/排版:何晨龙01/ 上交学术伉俪率队在晶体石墨烯中观察到超导态,实现1.6V/nm外加垂直位移电场,助力构筑新型超导量子器件02/ 多层面解码阿片类药物与受体作用机制,科学家拟开发新型镇痛药物,助力应对“阿片危机”03/ 上交团队设计AI模型将分子动力学计算效率提升100倍,有望用于离子导体研究和药物研发等04/ 南科大团队打造“自给自足”式量子冰箱,能为量子比特实现降温,降低量子计算机出错率05/ 港城大团队开发新型纳米层状膜,可用于特殊场景的淡水处理,为二维材料应用寻找突破口微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章
01/ 上交学术伉俪率队在晶体石墨烯中观察到超导态,实现1.6V/nm外加垂直位移电场,助力构筑新型超导量子器件02/ 多层面解码阿片类药物与受体作用机制,科学家拟开发新型镇痛药物,助力应对“阿片危机”03/ 上交团队设计AI模型将分子动力学计算效率提升100倍,有望用于离子导体研究和药物研发等04/ 南科大团队打造“自给自足”式量子冰箱,能为量子比特实现降温,降低量子计算机出错率05/ 港城大团队开发新型纳米层状膜,可用于特殊场景的淡水处理,为二维材料应用寻找突破口