性能强劲又通用！Meta-CoT: 混合问题场景下的自适应思维链推理

2023-10-20 05:10

©PaperWeekly 原创 · 作者 | 邹安妮

单位 | 上海交通大学

研究方向 |NLP，大模型推理

大语言模型（LLMs）通过思维链（CoT）提示技术，生成中间推理链作为得出答案的依据。然而，当前的 CoT 方法要么采用简单的通用提示（例如“让我们一步一步思考”），要么依赖人工制定且任务特定的样本示例来获得更好的性能，从而在性能和通用性之间产生了巨大的鸿沟。为了弥补这一鸿沟，本文提出了 Meta-CoT：一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。

论文标题：

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

论文链接：

https://arxiv.org/pdf/2310.06692.pdf

代码链接：

https://github.com/Anni-Zou/Meta-CoT

引言

大语言模型（LLMs）凭借思维链（CoT）提示在复杂推理方面表现出了优越的能力。CoT 提示需要生成中间推理链，作为得出答案之前的基本依据。目前的 CoT 提示方法主要分为两类，我们分别称为 General Zero-Shot-CoT 和 Specific Few-Shot-CoT。前者利用“让我们一步一步思考”等一般性提示，将其直接附加到输入问题中，旨在唤醒 LLMs 的逐步推理潜力；后者提供特定于任务的输入输出对作为样本示例，并将它们放在输入问题之前，目的是引导 LLMs 通过模仿学习样本示例来进行多步推理。

然而，当前研究主要存在两个局限性：1）General Zero-Shot-CoT 由于不需要任何与任务相关的样本而具有良好的泛化能力，但与 few-shot 模式相比，它在性能方面往往相形见绌；2）Specific Few-Shot-CoT 严重依赖于任务特定的样本示例来获得优越性能，但无法提供良好的泛化能力。

在实际应用中，LLMs 通常不知道用户会输入什么样的问题（区别于现有的针对每个特定任务的测试集进行测试的情况），因而难以为每种类型的问题预先准备上下文提示。因此，研究自动适用于各种类型问题的提示技术具有重要意义。

为了弥合性能和通用性之间的差距并提高 CoT 提示技术在实际场景中的应用价值，本文提出 Meta-CoT：一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。Meta-CoT 不仅在 10 项推理任务上取得出色的性能，而且具有卓越的泛化能力。其在 SVAMP（93.7%）上取得了最先进的结果，而无需任何额外的程序辅助方法。

方法

Meta-CoT 由三个阶段组成：

1. 场景识别（Scenario Identification）：利用现成公开的推理数据集，根据<类别，形式>的划分策略获得含多个数据组的混合问题池，随后从每个数据组中随机采样一个问题，组合之后将其作为上下文样本示例，用以辅助 LLMs 对输入问题进行自动场景分类；

2. 样例选择（Demonstration Selection）：根据阶段（1）得到的场景，通过对问题进行编码和聚类的方法，从相应的场景数据池中获得最具代表性的问题，从而构建多样化样例；

3. 答案推导（Answer Derivation）：使用阶段（2）获取的多样化样例对输入问题执行最终答案推导。

实验结果

我们对 10 个分布内推理任务进行了实验，涵盖算术推理、常识推理和符号推理。此外，我们还在 5 个分布外数据集上验证了 Meta-CoT 的稳定性和泛化性：

1. Meta-CoT 在 SVAMP 上实现了无需任何额外的程序辅助方法的最优结果 (93.7%)。此外，即使缺乏来自 GSM8K 数据集的上下文示例，Meta-CoT 在 GSM8K 上也能达到优越的性能 (93.6%)。

2. Meta-CoT 在保持良好稳定性的同时，还能实现不错的性能。这些结果证明，Meta-CoT 适用于输入数据没有特定类型定义的实际情况，具备良好的实际应用价值。

3. 为了进一步探讨在实现通用性中起着关键作用的场景识别（scenario identification）阶段的效果，我们去除了这个阶段，并采用一种理想化的策略：即假设模型被赋予了正确场景。结果表明，即使给出正确的场景，也只能实现细微的改进 (70.2% → 70.6%)。这表明 Meta-CoT 潜在激发了 LLMs 在无需人工干预下的自我决策能力。