从此告别繁琐的模型微调，LLM-Adapters助力NLP任务快速高效微调！

2023-04-06 05:04

动机和背景

大型语言模型（LLMs）的成功，如 GPT-3 和 ChatGPT，发起了许多替代方案的开发。这些替代方案通过使用特定于任务的数据（如 ChatDoctor）或指令数据（如 Alpaca），微调 LLMs 来提高性能。但是，其中最具吸引力的方法是基于 Adapter 的参数微调（PEFT），因为它只需要微调插入的外部参数，而不是整个与训练模型，就能获得不错的性能。

为了进一步研究 LLM 的 PEFT 方法，我们开发了一个易于使用的框架——LLM-Adapters，它将各种 Adapter 集成到 LLMs 中。该框架包括最先进的 LLMs，如 LLaMA、BLOOM 和 GPT-J 等模型，以及广泛使用的 Adapter，如 Series adapter、Parallel adapter 和 LoRA。同时，我们也会持续更新新的 LLMs 和 Adapter，以满足用户不断变化的需求。

项目名称：

LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language

论文链接：

https://arxiv.org/abs/2304.01933

开源链接：

https://github.com/AGI-Edgerunners/LLM-Adapters

如果您是自然语言处理领域的从业者或爱好者，LLM-Adapters 将是您的强大工具。使用这个框架，您可以快速实现高性能模型，而不需要进行繁琐的模型微调。无论您正在构建聊天机器人、进行文本分类，或是进行其他自然语言处理任务，LLM-Adapters 都能为您提供强有力的支持。不要犹豫，赶快试试吧，它会为您的工作带来意想不到的帮助！

Adapters大家族

Adapters 是包含少量可训练参数并集成到 LLM中的外部模块。在训练期间，LLM 的参数保持固定，而 Adapter 模型的参数被调整以执行特定的任务。因此，由 LLM 生成的表示不会因任务特定的调整而扭曲，而 Adapter 模型则获得了编码特定任务信息的能力。

本框架在 LLM 中提出了三种 Adapter 类型：Series Adapter, Parallel Adapter 和 LoRA。我们将在之后的工作更新更多的 Adapter。

Series Adapter：受 [1] 的启发，我们的框架将瓶颈前馈层依次添加到 Transformer 的多头注意力层和前馈层。图（a）显示了瓶颈 Adapter 由两层前馈神经网络组成，包括一个下投影矩阵，一个非线性函数，和投影，以及输入和输出之间的残差连接

Parallel Adapter：将瓶颈前馈层与 LLMs 中 Transformer 的多头注意力层和前馈层并行集成。如图（b）所示，Adapter 与每个 Transformer 合并在一起

LoRA：[2] 提出了 LoRA，旨在用更少的可训练参数有效地微调预训练模型。LoRA 在 LLMs 的现有层中引入了可训练的低秩分解矩阵，使模型能够适应新的数据，同时保持原始 LLMs 固定以保留现有的知识。

具体来说，LoRA 通过注入低秩分解矩阵，对表示为矩阵乘法的每个模型层执行重新参数化，如图（c）所示。这种重新参数化使模型能够进行微调，而不需要计算完整的密集矩阵乘法，这可能是计算成本很高的。通过降低矩阵的秩，LoRA 有助于减少微调 llm 时的参数数量。

数据集验证

下面展示了不同模型是否可以使用的各类 Adapter：

我们 6 个数学推理数据集上，测试不同 LLMs 参数高效微调的精度，6 个数据集分别是：（1）MultiArith;（2）GSM8K;（3）AddSub;（4）AQuA;（5） SingleEq;（6）SVAMP.

我们使用 Zero-shot-Cot 方法在 GPT-3.5 text-Davinci-003 收集到的数据 math_data.json 进行微调。结果如下：

未来规划

在任务和数据集上：我们计划进一步扩展我们的推理任务，尽可能多的收集数据集

在 Adapter 上：我们将整合更多类型的 Adapter，并在大语言模型上测试

在 LLM 上：我们将整合更多的 LLM 进行测试

参考文献

[1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. 2019. Parameter-efficient transfer learning for nlp. In International Conference on Machine Learning, pages 2790–2799. PMLR. 2,3,4

[2] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2021. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685. 2,3,4