Redian新闻
>
让大模型像学生一样解数学题,正确率提升14%,微软的MathPrompter了解一下

让大模型像学生一样解数学题,正确率提升14%,微软的MathPrompter了解一下

公众号新闻
机器之心报道

编辑:张倩

算不对就用各种方法多算几遍,中间步骤也检查一下,原来这套教学方法对大模型也管用。


大型语言模型在解决算术推理任务时性能欠佳,经常提供错误的答案。与自然语言理解不同,数学问题通常只有一个正确答案,这使得生成准确解决方案的任务对大型语言模型来说更具挑战性。
为了在一定程度上解决这类问题,来自微软的研究者从人类解决数学问题的方式中获得灵感,将其分解为更简单的多步骤程序,并在每个步骤中利用多种方式来验证他们的方法。

论文链接:https://arxiv.org/pdf/2303.05398.pdf
具体来说,给定一个问题 Q,然后执行以下几个步骤:

1、生成代数模板:研究者首先生成其对应的代数表达式 Q_t,用变量替换数字项。

2、Math-prompt:然后,他们向大型语言模型提供多个 prompt P,这些 prompt 可以以不同的方式分析解决 Q_t。例如,P 可以是「推导出一个代数表达式」或「编写一个 Python 函数」等等。按照这个程序,我们最终会得到 P 的表达式,它根据 Q_t 的变量解析地求解 Q_t。

3、计算验证:通过给 Q_t 变量分配多个随机值来评估 P 的解析解。

4、统计学意义:如果 P 的解析函数的解在 N∼5 个不同的变量选择上处于「一致」状态,那么将 Q 中的原始值替换为最终解。如果不「一致」,重复步骤(II)、(III)和(IV)。


这篇论文提出的方法 ——MathPrompter,使用了 175B 参数量的大型语言模型 ——GPT3 DaVinci  completion engine,能够将模型在 MultiArith 数据集上的准确率从 78.7% 提升到 92.5%。
方法
由于大型语言模型是生成模型,要确保生成的答案是准确的就变得非常棘手,特别是对于数学推理任务。研究者从学生解决算术问题的过程中获得启发。他们缩小了学生为验证他们的解决方案而采取的几个步骤,即:
  • 与已知结果相一致。通过将解决方案与已知的结果进行比较,可以评估其准确性并进行必要的调整。当问题是一个有既定解的标准问题时,这一点尤其有用。

  • 多重验证。从多个角度处理问题并比较结果有助于确认解的有效性,确保其既合理又准确;

  • 交叉检查。解决问题的过程与最终的答案一样必要。核实过程中的中间步骤的正确性,可以清楚地了解解的背后的思维过程。

  • 计算验证。利用计算器或电脑进行算术计算可以帮助验证最终答案的准确性。


MathPrompter
本文提出的方法 ——MathPrompter,就是试图将这种思维过程的一部分转移到大型语言模型答案生成过程中。图 1 概述了 MathPrompter 解决一个数学推理问题所遵循的步骤。
研究者使用最先进的 GPT-3 DaVinci completion engine 来完成问答任务。他们使用 MultiArith 数据集中的以下问题「Q」来演示 MathPrompter 的解题过程:
问:在一家餐厅,每份成人餐的价格是 5 美元,儿童免费用餐。如果有一个 15 人的团体进来,其中 8 个是儿童,那么这个团体要花多少钱吃饭?

第一步:生成代数模板。首先将问题转化为代数形式,通过使用键值映射将数字替换为变量。在这个例子中,修改后的问题「Q_t」变成了:
Q_t:在一家餐厅,每份成人餐的价格是 A 美元,儿童免费用餐。如果有一个 B 人的团体进来,其中 C 个是儿童,那么这个团体要花多少钱吃饭?

映射:{A:5, B:15, C:8} 

第二步:Math-prompt。受到上面提到的多重验证和交叉检查思维过程的启发,研究者使用两种不同的方法生成 Q_t 的解析解,即代数方式和 Python 方式。他们给大型语言模型以下 prompt,以便为 Q_t 生成额外的上下文:

代数 prompt:写一个数学方程并生成以 “answer =” 格式开头的答案。

Python prompt:编写一个返回答案的 Python 函数。


大型语言模型在回应上述 prompt 时产生了以下输出表达式: 
上面生成的解析解给用户提供了一些信息,让他们了解大型语言模型的「中间思维过程」。加入额外的 prompt 将提高结果的准确性和一致性。这将反过来提高 MathPrompter 生成更精确和有效的解的能力。
第三步:计算验证。研究者使用 Q_t 中输入变量的多个随机键值映射来评估上一步生成的表达式。为了评估这些表达式,研究者使用了 Python 的 eval () 方法。他们比较输出结果,看能否在答案中找到一个共识。这也提高了他们对答案正确性、可靠性的信心。一旦表达式在输出上达成一致,他们就使用输入 Q 中的变量值来计算最终的答案,如下所示:
第四步是统计重要性。为了确保在各种表达式的输出中都能达成共识,研究者在实验中对第二、三步重复 N∼5 次,并报告观察到的最频繁的答案值。
实验结果
表 1 比较了 MathPrompter 与基线模型的性能,显示了基于 few-shot 和 zero-shot 学习的方法的效果。
结果显示,MathPrompter 可以达到 92.5% 的准确率,远远高于其他 SOTA 模型。
表 2 列出了一组样本问题及其各自的输出、中间步骤和由 MathPrompter 和 SOTA 模型产生的最终答案。
该表显示了 Kojima et al. (2022) 技术的不足之处,以及可以用 MathPrompter 补救的地方,而 MathPrompter 就是为了解决这些问题而设计的。例如,生成答案的某个步骤有时会出错,这可以通过多次运行模型并报告共识结果来避免。此外,Kojima et al. (2022) 的推理步骤可能过于冗长,但 Pythonic 或 Algebraic 方法可以解决这个问题,通常需要较少的 token。此外,在推理步骤正确的情况下,最终的计算结果可能不正确。MathPrompter 通过使用 Python 的 eval () 方法函数解决这个问题。

更多细节请参见原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
只知道ChatGPT?偷偷告诉你金融民工都在学的13个王炸金融AI工具,搞钱效率提升10倍!在Oakland探秘美国最爱的Mac Cheese店——HomeroomK12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?牡丹猫+八大山人的鸦+岳阳红梅第三届 冇(Mǎo)国际青年影像周 开始征片啦!Prompt Engineer也保不住工作了!Midjourney发布图片生成Prompt功能“Describe”突发!ChatGPT王炸级更新!支持GPT-4联网 & Code Interpreter!提升 Prometheus 的高可用性:Thanos 的部署与实践!解决通用LLM「偏科」问题,数学大模型MathGPT要来了!纽约大都会艺术博物馆,展品大观【Locker Room】春季了,你不运动一下吗?快来lockerroom 看看吧!AI 2.0革命,微软的危机在哪里?FastTrack Universität 2023莱比锡大学公立语言项目招生简章Ai智能瞒过评委眼睛的一幅摄影获大奖(图)ClickPrompt:一站式 Prompt 学习、设计与运行工具(开源),支持 ChatGPT 等1道美国小学5年级数学题,竟考倒一众PhD一文详解Prompt学习和微调(Prompt Learning & Prompt Tuning)龙卷风健康快递 236被传离婚…李玟面临「这辈子最大恐惧」惊爆住院开刀 林心如追流量不择手段 主播大波浪造型像极了张雅琴5小时掌握提示词工程,写出高价值大模型Prompt!中文!免费!弃用 Electron,微软重新设计 Microsoft Teams:速度提升 2 倍,内存减少 50%关于Prompt Engineering你该了解啥?OpenAI应用研究负责人帮你梳理了周鸿祎:大模型像“发电厂”,把数据变成数据链,输送给百行千业智商碾压?美国小学5年级数学题,考倒一众网友!一起来围观Cross-border M&A crucial for APAC CP companies’ growthGPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升ChatGPT火爆,最全prompt工程指南登GitHub热榜,标星4.7k!懒人版奇葩元宵被chatGPT惊到了?另一个前沿科技了解一下GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型文心一言迭代数据曝光,QPS提升10倍,留给大模型创业玩家的涌现时间不多了重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlRosenbaum综合征:了解一下 ?传说中这道美国高考的“转硬币”数学题,30万人只有3人答对,那实验一下吧
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。