开源模型在竞赛数学MATH上首次突破50%，清华、微软联合推出工具集成推理语言模型

科技

2023-10-12 05:10

导读：ToRA 模型在数学推理任务上取得突破，通过集成语言推理与工具调用，让 LLM 解决复杂数学问题的能力大幅提升。

ToRA 论文：

https://arxiv.org/abs/2309.17452

ToRA 仓库：

https://github.com/microsoft/ToRA

ToRA 网站：

https://microsoft.github.io/ToRA/

序言：突破大模型数学推理的瓶颈

2023 年，大语言模型在各类语言任务上不断刷新 SoTA，而复杂数学推理依然是开源模型的一大瓶颈。为了解决这一难题，近日，清华大学与微软亚洲研究院（MSRA）等共同推出了工具集成推理模型 ToRA（Tool-integrated Reasoning Agents），在复杂数学问题上取得了性能飞跃。

ToRA 将自然语言推理与外部工具（如计算库和符号求解器）的使用进行整合，使语言分析和工具计算的优势得以充分互补。在 10 个数学推理数据集上，ToRA 模型显著优于此前的开源模型，平均绝对值提升达到 13%-19%。值得注意的是，最小参数量的 ToRA-Code-7B 在数学竞赛数据集 MATH 上达到了 44.6% 的准确率，比此前最佳开源模型 WizardMath-70B 高出 22%，并超越了 GPT-4 CoT（44.6% vs. 42.5%）。

此外，ToRA-Code-34B 是首个在 MATH 上准确率超过 50% 的开源模型，大幅优于 GPT-4 CoT 结果，并与 GPT-4 通过写代码解题的性能接近（50.8% vs. 51.8%）。

工具集成推理：自然语言与程序语言的交织

ToRA 采用了一种工具集成推理的格式，将自然语言推理与基于程序的工具使用相互交织。该格式将语言推理的语义分析、决策规划和抽象推理的优势与工具调用擅长精准计算、符号操作和高效算法执行的特点进行了优势互补，从而有效提高了模型解决复杂数学推理任务的能力。

为训练模型实现工具集成推理，作者使用 GPT-4 对 GSM8k 和 MATH 数据集中的数学问题标注了相应的高质量交互式工具使用轨迹，形成了包含 16k 标注的 ToRA-Corpus，并在该数据集上应用模仿学习微调模型，研究人员发现相比以往增广大量数据的方法，只利用数量明显更少的 ToRA-Corpus 语料微调的模仿模型就能取得 SoTA 性能。

输出空间塑造：轨迹自采样与纠错

更进一步地，为了提高推理步骤的多样性并减少不当的工具使用行为，作者提出了输出空间塑造方法：使用经过模仿学习的模型 M 采样多样化的工具使用轨迹，保留有效轨迹，对无效轨迹则使用教师模型 M′逐步纠正，最后在有效轨迹、纠正后的无效轨迹以及 ToRA-Corpus 上重新微调模型以得到 ToRA 系列模型。该方法显著提高了推理性能，使开源模型在竞争级别的 MATH 数据集上首次实现超过 50% 的准确率。

实验与分析

上图展示了 ToRA 在 10 个多样的数学推理数据集以及竞赛级数学题 MATH 各个主题上的结果，我们可以发现：

ToRA 始终超越最先进的开源模型，在 10 个任务的平均结果上实现 13% 至 19% 的大幅提升。ToRA-70B 在 GSM8k（84.3% vs. 80.4%）和 MATH（49.7% vs. 38.7%）上显著超越 ChatGPT，而 ToRA-Code-34B 在竞赛级 MATH 数据集上大幅超越了 GPT-4 CoT（50.8% vs. 42.5），并与使用代码解题的 GPT-4 PAL 表现相当（50.8% vs. 51.8%）。
基于 CodeLLaMA 训练的 ToRA-Code 准确性比同样参数量的基于 LLaMA-2 的 ToRA 高出约 5%，表明提升基座模型的代码能力可以进一步提升 ToRA 的解题能力。
ToRA 表现出优越的泛化能力，而基于语言推理 CoT 微调对分布外泛化可能产生负面影响。例如，ToRA-70B 相比 WizardMath 在表格推理任务 TabMWP 上泛化得更好（74.0% vs. 57.5%）。