小模型性能直逼GPT-4？北航等提出基于强弱模型协同的ICL增强新范式

2024-01-18 12:01

大模型的 In-context Learning（ICL）一直是比较热门的方向之一，包括探索 ICL 的内在形成原因、效果提升方案等等。近期在 arXiv 上看到了一个由北航等提出的一个非常有意思的 ICL 增强的工作《Grimoire is All You Need for Enhancing Large Language Models》。

与以往的 ICL 优化方式不同的是，这篇工作期望借助强弱模型协同的方式，去增强弱小模型在各类通用问题上的表现和效果。颇有让学习能力较差的学生直接去看好学生的“学习笔记”的意味。

论文标题：

Grimoire is All You Need for Enhancing Large Language Models

论文地址：

https://arxiv.org/pdf/2401.03385.pdf

下面我们细看下整篇文章的核心要点：

大语言模型可以通过零样本、少样本等 ICL 方法显著提升其在多种自然语言处理任务中的性能表现。通常而言，参数规模越大的语言模型的ICL能力往往越强。现有的 ICL 性能提升的相关研究主要集中于如何构造示例样本，即示例样本排序和示例样本选择等方面。

这篇文章不同于传统的 ICL 性能提升方法，提出了一种新的 ICL 范式，SLEICL 方法（Strong LLM Enhanced ICL）：通过强语言模型总结下游任务的规律及解题技巧，即 Grimoire，并将其作为弱语言模型的提示，指导弱模型完成下游任务，对比传统的 ICL 方法，在许多任务上的结果得到了显著提升。

SLEICL增强方法

如下图所示，为 SLEICL 方法的完整流程图。整体而言包含三个步骤：1）代表性样例选取；2）基础候选 Grimoire 生成；3）Grimoire 有效性排序。

PART 1. 代表性示例样本选取。为了让强模型总结得到的 Grimoire 具有更好的代表性和有效性，需要针对提高的候选样例进行挖掘，筛选出更能代表和解决当前问题所蕴含的解题策略的样本集合。同时，考虑到不同的任务所包含的示例样本具有较大的差异性，因此很难使用某种统一的范式选取具有代表性的样本。

所以文章主要通过以下四种示例样本选择方法进行示例样本构造，用于提示强语言模型生成 Grimoire，尽可能的丰富初始化 Grimoire 的种类样例来源，具体样例选取方法包括：

K-means Clustering Selection (KCS) 该方法是指使用 K-means 算法对样本集的语义表示进行聚类，并选择离 K 个聚类中心最近的 n 个样本作为示例样本的；
Hierarchical Clustering Selection (HCS) 该方法采用分层聚类算法对样本集进行详细的分层聚类以选择示例样本；
Hard Samples Selection (HSS) 该方法是指选择被弱模型预测错误的样本作为示例样本；
Random Samples Selection (RSS) 随机样本选择是一种以完全随机的方式从数据集中选择示例样本的方法。

PART 2. Grimoire 生成：当完成了初步的代表性样例选取之后，文章设计了两种 Grimoire 生成范式，即：Profound Grimoire (PG) 以及 Simple Grimoire (SG) ，以适应不同参数规模的大语言模型的 ICL 能力。

作者认为：即使是弱模型，不同参数规模的弱模型之间也存在较大的性能差异，因此需要考虑设计两种典型不同复杂度的 Grimoire 来匹配下游弱模型的学习需求。所以，作者设计了如下图所示的生成范式：

首先基于选择的样例生成一个非常详尽描述解题思路或秘诀的 Grimoire，即 Profound Grimoire (PG) ，然后将 PG 二次传递给强大模型，让强大模型进行缩减和优化，生成更加简洁、明了的 Grimoire，即 Simple Grimoire (SG) ，通过这样两种次序生成的方式，获取不同复杂度的 Grimoire 结果。

以下是一个仇恨言论检测任务的 Simple Grimoire 示例结果：

Below are some skills needed to solve the task; you need to carefully learn and consider the process and methods step by step:

1. Look for slurs or derogatory language aimed at a group's identity (race, gender, etc.).

2. Check if the sentence encourages hostility, discrimination, or violence against a group.

3. If no hate speech signs are found, label it as \"no hate.\""

从上面的示例可以看到，生成的 Grimoire 结果基本上都能概括解决当前问题所需注意的事项以及一些必要的解决思路或者方案。

PART 3. Grimoire 排序。通过上面的步骤一和步骤二，针对特定任务将获取得到 12 个候选 Grimoire。在实际的应用过程中，通常只有某一个 Grimoire 能够使得特定的弱模型获得最优的结果。因此，作者还设计了基于相似度的方法和基于分类器的方法对用于该任务的所有 Grimoire 进行排序，从而选择得分最高的 Grimoire 作为下游弱模型的提示。

其中，基于相似度的方法是通过计算测试问题和 Grimoire 之间的相似度，以选择相似度最高的 Grimoire：

而基于分类器的方法是通过训练了一个神经网络模型，综合考虑了测试问题和 Grimoire 之间的相似性、以及任务类型和大语言模型的参数规模等用于选择最合适的 Grimoire。具体模型结构如下图所示：

实验结果讨论

为了评估模型的有效性，作者在一组主流的自然语言处理任务的数据集上，测试了包括情感分类任务、主题分类任务、自然语言推断任务和仇恨言论检测任务，评测了以下 6 个大模型（其中，GPT4-1106-preview 是作为强模型生成 Grimoire）。

测试模型包括：

如下图所示，从结果上来看，SLEICL 方法在五个较弱的大语言模型上相较于基准对比方法均得到了不同程度的提升，具体可观测到的有意思的结论包括：

基座模型越弱，在使用 SLEICL 方法后，模型效果提升的增益幅度越大；
从单个 Grimoire 的最优结果来看，相比 Zero-shot 的基准对照，提升幅度非常明显，较弱的如 7B/13B 等模型能够取得超过 20% 的绝对性能增量。即使相比 Few-shot 的结果，也能取得绝对值超过 10% 以上的增量；
而基于分类器的 SLEICL 方法，与 Zero-shot 提升相比，LLaMA2-13B-Chat、Baichuan2-7B-Chat 和 Phi-2 平均提高了 8%~25%。

除此之外，作者还分析了部分模型基于 Grimoire 后的性能与 GPT4 的最优模型 GPT4-1106-preview 的对比结果。如下图所示，从对照效果上来看，多个小模型在经过 Grimoire 增强后，甚至能够取得超过 GPT4-1106-preview 的模型 Zero-shot 的结果。

从结果上来看，这篇文章提出的 SLEICL 方法可以显著提高不同规模的弱语言模型在各类任务上的性能，同时越小的模型表现出更加显著的改进。然而，文章中基于分类的方法虽然相比于零样本和少样本提示方法有较大增益，但并没有超过单个 Grimoire 的表现，因此仍然具有进一步优化的潜力，如果能够得到一致性排序能力更强的 Ranking 模型，该方法将有更大的延展空间。

论文小结

文章讨论了一种新的 ICL 增强的范式 SLEICL，即利用强模型的 ICL 能力对样例进行学习、总结和表达，并将学习结果传输给弱模型，从而降低弱模型直接进行样例学习所带来的难度，最终提高弱模型在任务上的表现效果。这类学习范式也比较符合类似“教科书”“学习经验小结”之类的思路，比较有意思。最后附上相关的代码和 Paper，感兴趣的读者可以进一步详细探索。

更多阅读