Redian新闻
>
清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩

清华微软「LLM+推理智能体」超越GPT-4!攻克数理难题,斩获开源界MATH最佳成绩

公众号新闻



  新智元报道  

编辑:润
【新智元导读】由清华大学和微软研究院共同的提出的TORA,结合了LLM的分布推理能力和外部程序的解决问题能力,将开源大模型的推理和数理能力推到了一个新的高度。

LLM不擅长数学的问题被彻底解决了?!

清华大学,微软研究院共同发表了一篇论文,创造性地提出了TORA:在LLM之外使用推理智能体,结合自然语言分布推理,就能大幅提高研究LLM的数理能力和推理能力。

TORA在10个不同的数学推理数据集上实现了13%到19%的提升。TORA-7B模型,在非常具有挑战性的MATH数据集上得分为44.6%,远远超过最好的开源模型WizardMath-70B,提升高达22%!

论文地址:https://arxiv.org/abs/2309.17452

7B打70B,简直强无敌!

更加厉害的是,TORA-CODE-34B作为第一个在MATH数据集上准确率超过50%的开源模型,具有非常大的突破意义。

这一性能表现甚至超越了GPT-4的CoT成绩。

ToRA核心思路

目前,用LLM解决推理或者数理问题,最主要通过两个方法,一个是通过下图a中的自然语言分步骤推理的方法,第二个方法是通过结合外部的程序或者在模型之外执行程序的方法,来计算得出结果。

两种方法各有优势:

自然语言适用于语义分析、规划和抽象推理(例如常识推理),但在精确计算、符号操作和算法处理方面表现就较差。

相反,程序在严格的运算方面表现出色,并且可以将复杂的计算外包给方程求解器等专用工具大大提高计算准确结果。

为了充分利用自然语言推理和基于程序的工具使用的优势,研究人员基于LLaMA-2等开源模型进行训练,融合两个方法,用协同交叉的方式进行推理(如上图c所示),从而大大缩小了与GPT-4等闭源模型在数学推理方面的差距。

研究人员首先设计了推理的交错格式(interleaving format),为来自GSM8k和MATH数据集的数学问题策划相应的交互式工具使用轨迹(interactive tool-use trajectories),然后在高质量注释(high-quality annotations)上应用模仿学习(imitation learning),从而取得比任何现有的开源模型更好的性能。

而且,由于选取的数据远远没有涵盖一个问题的所有有效轨迹,仅依赖模仿学习限制了模型的输出空间,阻碍了在测试过程中探索可能轨迹的灵活性。

为了增加合理推理步骤的多样性并减少不恰当的工具使用行为,研究人员应用输出空间塑形(output space shaping),还训练了模型在自我采样的有效轨迹,和经导师模型纠正过的无效轨迹(例如,34B模型可以作为7B模型的导师)上。

输出空间塑形显著提高了推理性能,使开源模型首次在竞赛级别的 MATH 数据集上达到超过50%的准确率。

研究人员评估了一系列从7B到70B的工具集成推理代理(TORA)在10个不同的数学推理数据集上的效果。如图1所示,TORA 系列在所有规模上都显著优于开源模型。

而且,在竞赛难度的MATH数据集上,TORA-7B的性能比之前的SoTA WizardMath-70B高出22%。TORA-CODE-34B 的结果比 GPT-4 的 CoT 结果高出8.3%(50.8% vs. 42.5%),并与GPT-4 Code(51.8%)相当。

TORA:用于数学推理的工具集成智能体

TORA系列通过利用自然语言推理和基于程序的工具使用来解决具有挑战性的数学问题。

如图2 (c) 所示,给定一个数学问题 q,TORA 会使用自然语言进行推理,产生 r1。

当到达更适合使用基于程序的工具进行后续任务的点时,例如方程求解,TORA 会根据自然语言指导 r1 生成一个用于工具使用的程序 p1。执行输出结果o1将被输送给TORA进行后续进一步的处理,包括工具使用调整、子任务求解或答案最终确定。

一直重复这个过程,直到模型将其答案放在「\boxed{}」内。

所得轨迹表示为 :

其中包含答案。

上图3展示了TORA的训练流程。

研究团队首先在流行的数学数据集上收集交互式工具使用轨迹。然后研究团队对结果注释应用模仿学习,并且输出空间塑造(space shaping)以进一步完善模型的推理行为。

收集交互式工具使用轨迹(INTERACTIVE TOOL-USE TRAJECTORIES)

现有的数学推理数据集主要包含自然语言或代码中的注释,由于缺少交互式工具使用注释,这为训练工具集成智能体带来了挑战。

为了解决这个问题,研究团队使用GPT-4在GSM8k和MATH训练集上合成高质量的轨迹。

研究团队选择GSM8k和MATH的原因,是因为它们展示了多样的推理模式,而且囊括了多个领域和难度级别的内容。

训练

模仿学习

研究人员在 TORA-CORPUS 上应用模仿学习,主要方式是最小化基于问题 q 的轨迹 τ 的负对数似然损失( negative log-likelihood loss):

M是得到的模型。尽管 TORA-CORPUS 的规模较小,模仿学习还是获得了最先进的数学推理性能。

输出空间塑造(output space shaping)

对于每个问题,TORA-CORPUS大多只展示一个有效的交互式工具使用轨迹,这可能会限制模型的输出空间,使其在测试期间探索可能的轨迹时变得不够灵活。

因此,研究人员提出输出空间塑造,以鼓励合理推理步骤的多样性,并减少不当的工具使用行为。

为了探索多样的有效轨迹,研究人员对模仿学习模型M应用核采样(nucleus sampling),每个训练问题重复64次。

研究人员保留具有正确答案且没有工具使用错误的轨迹。

由于许多样本都是重复的,为了进一步提高多样性并试图纠正模型的不当行为,研究人员也寻求利用无效的轨迹。

研究人员观察到,答案错误的轨迹大多在中途就已经是错的,而之前的推理仍然是合理的;换句话说,研究人员可以通过纠正后续部分来获得有效的轨迹。

在研究人员的实验中,他们始终使用在TORA-CORPUS上训练的Code LLaMA-34B 作为教师模型,并对Code LLaMA系列(从7B到34B,带有模仿学习)应用采样。

研究人员共获得了233k个不同的有效轨迹样本和69k个纠正过的样本。

从这个组合数据集中,研究人员随机选择每个GSM8k和MATH问题最多4个轨迹,将它们与TORA-CORPUS合并,然后在得到的69k个注释上训练所有 TORA模型。

实验

实施细节

研究人员对 LLaMA-2和Code LLaMA系列(7B到70B)进行了微调,使用输出空间塑造的TORA-CORPUS,分别产生了TORA和TORA-CODE系列。

研究人员默认使用了2e-5的学习率,只有在34B和70B模型上使用了1e-5。

研究人员将全局批量大小设置为128,并使用了一个带有3%预热期的3个周期的线性调度器。

研究人员使用DeepSpeed ZeRO Stage3和Flash-Attention 2训练了所有模型。

研究人员对所有结果使用了贪婪解码,最大序列长度设置为2,048,工具执行的最大次数设置为3。

评估设置

数据集

研究人员在GSM8k和MATH上评估了模型,还使用了8个分布外(out of distribution)的数据集,即GSM-Hard,SVAMP,ASDIV,TabMWP,SingleEQ,SingleOP,AddSub和MultiArith,如下表4所示。

这10个各种各样的数据集涵盖了从基础算术到竞赛级别的数学问题,覆盖了中学和高中的课程大纲以及各种数学领域。

问题格式也包括了基于表格的、自由格式的和多项选择题,确保对模型的数学推理能力进行了全面评估。

度量标准

研究团队展示了预测答案的准确率。

对于数值,研究团队进行四舍五入,而对于表达式,研究团队使用进行解析。

由于SingleEQ, SingleOP, AddSub和MultiArith数据集专注于基础算术的不同方面,研究团队报告它们的平均结果,并为所有方法使用集合术语MAWPS。

基线

闭源模型

研究团队展现了一系列SoTA LLM的结果,如OpenAI的GPT-4、ChatGPT(gpt-3.5-turbo)、Google的PaLM-2和Anthropic的Claude-2。

默认情况下,研究团队呈现CoT提示结果,并为选定模型包括PAL提示结果。

开源模型

基础模型包括LLaMA-2和Code LLaMA,带有CoT和PAL提示。

有监督的微调(SFT)使用来自原始GSM8k和MATH数据集(15k样本)的CoT理由进行微调。

拒绝采样微调(RFT)利用多个模型生成多样的推理路径进行微调。WizardMath使用ChatGPT增强数据,并进行SFT和RLHF。

Platypus-2是抱抱脸LLM排行榜上的顶级模型,使用Open-Platypus推理数据集进行了微调。

研究团队还将TORA与Toolformer进行比较,后者是一个被训练用来使用计算器的模型。

主要结果

表2展示了TORA在10个数学数据集上的结果,主要结果是:

(1)使用交错格式和输出空间塑造,TORA在所有规模上始终超过先前最先进的开源模型,在10个任务中实现了13%到19%的绝对提高。

(2)TORA-70B在GSM8k(84.3% vs. 80.4%)和MATH(49.7% vs. 38.7%)上显著优于ChatGPT,无论是CoT还是PAL提示,而TORACODE-34B在使用代码解决竞赛级MATH数据集时与GPT-4旗鼓相当(50.8% vs. 51.8%)。

(3)TORA-CODE的准确率比同尺寸的TORA高约5%,证明在代码数据上继续训练显著有助于基于程序的工具使用。

(4)虽然基于推理的微调对分布外泛化产生了负面影响,但TORA显示出优越的泛化能力。例如,WizardMath-70B在TabMWP上的表现不如基模型(49.8% vs. 57.5%),而TORA-70B有效地泛化到这种表格推理任务(74.0%)。

(5)TORA实现了快速的领样本推理速度,在每个问题上平均1.02个工具交互轮次,同时有效地处理需要交互工具使用的问题。

参考资料:
https://arxiv.org/abs/2309.17452v2




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「陶哲轩×GPT-4」合写数学论文!数学大佬齐惊呼,LLM推理神助证明不等式定理LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型2023中文大模型基准测评报告发布;微软Copilot将升级至GPT-4 Turbo;AI奥林匹克数学奖设立丨AIGC大事日报达摩院医疗AI攻克胰腺癌早筛难题,成果登上顶级期刊《Nature Medicine》​开源模型在竞赛数学MATH上首次突破50%,清华、微软联合推出工具集成推理语言模型超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!五绝。枸杞炒股超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%对标GPT-4代码解释器!港中大让模型写代码解决数学难题,得分超越GPT-4从OpenAI GPTs到微软Copilot,AI智能体加速到来?用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源开源版「ChatGPT Plus」来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞蕹菜根儿,炒辣椒......基模型12项性能超越GPT-4,商汤语言大模型就等你来用BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性全球首座,商运投产!攻克一批关键技术测评数据超越GPT-4,谷歌推出全新AI模型Gemini全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源乌克兰:领土换北约入场券?重磅!攻克“癌王”迎来突破性成功,植入比米粒还小的设备!国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B26岁攻克世界级难题,破格升任独立PI!【齐风猎作品】那张课桌,那本书,还有那个人《湖天一览楼》1部4章(3)六合益智中学多LLM协同作战!清华等开源多智能体框架AgentVerse:合作打造Minecraft物品,还能训练宝可梦参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。