ACL 2023长文 | 先计划再求解：提升大型语言模型的零样本链式推理

科技

2023-05-16 05:05

©PaperWeekly 原创 · 作者 | 王磊

单位 | 新加坡管理大学

研究方向 | 自然语言处理

论文标题：

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

收录会议：

ACL 2023

论文链接：

https://arxiv.org/abs/2305.04091

开源链接：

https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting

志在千里，源远流长

最近，在各种自然语言处理任务中，大型语言模型（LLMs）展现出了优越的性能。为了解决多步推理任务，少样本链式思维（CoT）提示包括一些手工设计的逐步推理演示，使 LLMs 能够明确生成推理步骤并提高推理准确性 [1]。为了消除少样本链式思维（CoT）中的手工工作，零样本 CoT 将目标问题与 “Let’s think step by step” 一起作为输入提示连接到 LLMs 上 [2]。尽管零样本 CoT 取得了成功，但仍然存在三个问题：计算错误、缺失步骤错误和语义误解错误。

方略布局，谋定而动

为了解决缺失步骤错误，我们提出了 PS（Plan-and-Solve）提示，即制定一个计划将整个任务分解为较小的子任务并按照计划执行子任务，使 LLMs 能够明确制定解决问题的计划，并在预测输入问题的最终答案之前生成中间推理过程。

我们通过更详细的说明扩展了 PS 提示基于计划的触发句，并得到了 PS+ 提示。具体而言，我们在触发句中添加了“pay attention to calculation”，要求 LLMs 尽可能准确地进行计算。

为了减少由于缺失必要推理步骤而导致的错误，我们在 PS+ 提示中增加了“extract relevant variables and their corresponding numerals”，指示 LLMs 不要忽略输入问题陈述中的相关信息。此外，我们在提示中添加了“calculate intermediate results”，以增强 LLM 生成推理步骤的能力。

具体的 PS 和 PS+ 提示如下所示：

成果丰盈，硕果累累

我们在三个推理任务的十个数据集上评估了我们提出的提示策略。通过对 GPT-3 的实验结果表明，我们提出的零样本提示在所有数据集上始终明显优于零样本 CoT，并且在数学推理问题上与 8-shot CoT 提示性能相当。

6 个算术推理数据集的实验结果如下所示，6 个算术推理数据集分别是：（1）MultiArith；（2）GSM8K；（3）AddSub；（4）AQuA；（5）SingleEq；（6）SVAMP。

2 个常识推理数据集的实验结果如下所示，2 个常识推理数据集分别是：（1）CSQA；（2）StrategyQA。

2 个符号推理数据集的实验结果如下所示，2 个常识推理数据集分别是：（1）Last Letter；（2）Coin Flip。

参考文献

[1] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q., & Zhou, D. (2022). Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903.

[2] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. 2022. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916.

更多阅读