ACL 2024 | SMU、NUS提出参数高效微调增强剂，显著提升大语言模型性能

公众号新闻

2024-06-25 06:06

©PaperWeekly 原创 · 作者 | Zhihao Wen

单位 | 新加坡管理大学、新加坡国立大学

研究方向 | 大语言模型的参数高效微调

论文标题：

SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning

论文地址：

https://arxiv.org/pdf/2402.11896

代码链接：

https://github.com/Jaygagaga/SIBO

简介

基于 Transformer 架构的大型语言模型的深度（例如，BERT-large 有 24 层，LLaMA-7B 有 32 层，LLaMA 65B 有 80 层）导致了过平滑（Over-smoothing）问题，影响性能和可扩展性，而全模型微调需要大量资源。为解决这些问题，参数高效微调技术 PEFT（如 Adapter 和 LoRA）被提出，但没有解决过平滑。

本文由来自新加坡管理大学和新加坡国立大学的作者提出了 SIBO，一种简单增强参数高效微调（PEFT）的方法，用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差，减少了 Transformer 模型中的过平滑问题。实验表明，SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。

前言

在讲我们的方法之前，先介绍两种流行的 PEFT 技术：适配器和基于重参数化的方法。适配器分为并行和串行，本文关注经典串行适配器（Adapter），它通过下投影和上投影操作添加学习模块。基于重参数化的方法，如 LoRA，使用低秩策略修改网络权重，减少参数数量而不影响性能。

方法

3.1 Over-smoothing in PEFT

源于图神经网络的术语过平滑（Over-smoothing）指的是由于在连续的聚合层中重复使用相同的邻接矩阵，导致节点表示的同质性增加，从而导致性能下降。

虽然前人已经提出了几种策略来缓解过度平滑，但它们并不是为 PEFT 技术设计的，因此在大型语言模型中不太实用。特别是，我们还通过定量分析观察到在广泛采用的 PEFT 技术（包括 Adapters 和 LoRA）中，尤其是在深层中，也存在过度平滑现象。

在我们的分析中，通过评估同一语句中 token 之间的相似性，即 token 间余弦相似性，可以检测到过度平滑现象。给定一个包含个 toke n的句子，表示为，其 token 间余弦相似性计算如下：

其中是欧几里得范数。如下图 1 和图 2 所示，在 Adapter 和 LoRA 中，随着骨干语言模型层深的增加，token 间相似性的一致增加被观察到。因此，经过 PEFT 技术适配的预训练语言模型中也存在过度平滑问题。因此，有必要设计一个通用框架来缓解 PEFT 方法的过度平滑，同时保持其效率。

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of the corpora in the GLUE benchmark (Wang et al., 2018), with BERT-large as the backbone.

▲ Over-smoothing in PEFT. The results are the averaged token-wise similarity of sentences in the test sets of MAWPS (Koncel-Kedziorski et al.,2016) and SVAMP (Patel et al., 2021), with LLaMA-13B as the backbone.

3.2 Initial residual integration

为了实现 PEFT（参数高效微调）的通用即插即用增强，我们从 PEFT 模块的输入开始，在预训练模型的每一层的输入中注入一个初始残差。

令作为预训练模型输入的初始 token 表示为。从整合一个初始残差可以保证每个 token 的最终表示至少保留输入层信息的部分。在涉及多个层时，这里的是一个关键因素。

实际上，我们将视为一个超参数，并将其设置为一个合理的值，例如 0.2，确保最终的 token 表示包含输入 token 特征的实质部分，从而减少整个层的过度平滑现象。接下来，我们说明我们提出的 SIBO 框架如何应用于两种最流行的 PEFT 技术：Adapter 和 LoRA。

▲ Proposed framework SIBO, applying to two popular PEFT methods: (a) Adapter, and (b) LoRA.

Adapter-SIBO

在 Adapter 中实现初始残差注入是直观的。如上图（a）所示，SIBO 在每个 Transformer 层的 Adapter 入口处（即从前一层输出并输入 Adapter 的隐藏状态）将初始 token 表示添加到隐藏状态中。该过程通过以下基本的向量加法操作执行。

其中是用于控制初始残差强度的超参数。

LoRA-SIBO

在每个 Transformer 层的每个 LoRA 模块中，其更新的输入仅为前一层的隐藏状态，由低秩矩阵近似表示。在 LoRA-SIBO 中，如上图（b）所示，我们对的输入进行了修改，使其成为和的组合，如下式所示，

实验

▲ 不同 PEFT 方法在算术推理任务中 LLMs 的表现，使用 GPT-3.5 的零样本 CoT 作为参考点。∗ 表示结果来自先前工作，我们采用了完全相同的实验设置和评估。改进是相对于没有 SIBO 的对应方法计算的。

▲ GPT-J（6B）在常识推理任务中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作，其中采用了完全相同的实验设置和评估。

▲ BERT-large 在 GLUE 基准测试中使用不同 PEFT 方法的表现。∗ 表示结果来自先前的工作，其中采用了完全相同的实验设置和评估。我们报告了三次不同运行中表现的平均值（及标准差）。

结语

本文提出了 SIBO，一种简单增强参数高效微调（PEFT）的方法，用于改进大型语言模型。SIBO 通过在 PEFT 模块的输入中注入初始残差，减少了 Transformer 模型中的过平滑（Over-smoothing）问题，从而提高下游任务的性能。实验表明，SIBO 在多种基准测试上显著提升了 Adapter 和 LoRA 等 PEFT 技术的性能。

更多阅读