Redian新闻
>
「专业智能体指导」让小模型学会数学推理!微调Mistral-7B实现86.81%准确率

「专业智能体指导」让小模型学会数学推理!微调Mistral-7B实现86.81%准确率

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】小模型也能解锁数学能力,无需多模型集成,7B模型在GSM 8 k数据集上性能超越70B!


对于小型语言模型(SLM)来说,数学应用题求解是一项很复杂的任务。


比如之前有研究结果显示,在GSM 8K基准测试中实现80%以上准确度所需的最小模型尺寸为340亿个参数。


为了在较小的模型上达到这种性能水平,研究人员经常训练SLM来生成Python代码或使用外部工具作为辅助,以避免计算错误。


或是基于集成(ensembling)技术,将100多个模型生成的输出组合在一起,以获得更准确的结果,最终结果的选择需要通过共识、多数表决或与SLM结合使用的单独的验证器模型来完成,可以显著提升准确率(Phi-GSM使用top-48将性能从68.2提升到81.5),不过代价是由于多次调用模型导致的成本显著增加。


最近,微软的研究人员提出了一个基于Mistral-7B、70亿参数量的小型语言模型Orca-Math,它在GSM 8 k上实现了86.81%,不需要调用多个模型进行集成或使用验证器、代码执行或任何其他外部工具。


论文链接:https://arxiv.org/abs/2402.14830


Orca-Math的关键特性为:


1. 使用多个智能体(agent)创建出20万个数学问题的高质量合成数据集,其中智能体合作创建数据;


2. 迭代学习技术,使SLM能够练习解决问题,接收对其解决方案的反馈,并从包含SLM解决方案和反馈的偏好数据中学习。


当单独使用有监督微调训练时,Orca-Math在GSM 8 k pass@1指标上达到81.50%。通过迭代偏好学习,Orca-Math实现了86.81%的pass@1


Orca-Math超越了LLAMA-2- 70B,WizardMath-70B,Gemini-Pro,ChatGPT-3.5等更大型号的性能,在使用小得多的数据(数十万对数百万问题)时也显著优于其他较小的模型。


数据集构造


种子集合


首先从现有的开源数据集中收集数学单词问题样本,即NumGLUE、AddSub、ALGES、ASDiv、DRAW、GSM8k、MATHQA、MultiArith、SingeOP、SingleEQ和SVAMP。


研究人员从Lila的训练和验证分裂中收集问题,以构建种子集,总共收集了36217个问题。


智能体 - ask me anything


通过从种子集中的问题创建多个单词问题来扩展种子集,利用后续提示来创建问题。



智能体总共生成了120445个新问题,但所有生成的问题都表现出与种子词问题相似的叙述方式,具体解决方案是使用GPT4-Trubo生成的。


智能体 - Suggester & Editor


通过解决具有挑战性的问题进一步扩大种子集合。


为了实现这一点,研究人员引入了两个新的智能体,即Suggester和Editor,可以协同工作以创建一个面向预定义目标的数据集:修改现有问题以增加其难度。


Suggester研究一个特定的问题,并提出了几种在不产生实际问题的情况下提高其复杂性的方法。


Editor采用原始单词问题和Suggester的建议,生成一个更新的、更具挑战性的问题,迭代过程可以发生在多个回合中,每一回合都会进一步增加先前生成的问题的复杂性。


眼人员利用AutoGen框架来实现多智能体工作流。



对每个问题进行两轮迭代,并过滤GPT4-Turbo生成的答案超过1800个字符的问题,最终收集了37157个问题。


训练


有监督微调实验(第一次迭代)


在Orca-Math-200K数据集上对Mistral-7B进行了微调,没有使用packing,下面为具体的指令格式。



损失函数只基于答案token来计算。


正负信号的迭代学习


数据集构建(第二次迭代)


为了为每个问题生成额外的正样本和负样本,研究人员从第一次迭代的SFT调优模型中采样四个回复。


具体来说,使用top_p=0.95和温度=0.7,过程产生了一个数据集,其中200000个问题中的每个问题都有一个GPT4-Turbo生成的解决方案和四个学生生成的解决方法。


使用基于GPT4的精确匹配中定义的提示来评估教师(GPT4-Turbo)的答案和学生的答案之间的一致性。


对于学生生成的答案与老师的答案不匹配的所有解决方案,将其标记为负样本。


数据集构建(第三次迭代)


为了从正反馈和负反馈中学习,研究人员评估了两种算法的性能:直接偏好优化(DPO)和Kahneman-Tversky优化(KTO),还探索了KTO的功能,其区别在于只需要二进制「是」或「否」的回复来评估输出的质量。


评估方法


研究人员使用精确匹配作为评估指标。


给定一个模型生成的答案,提示GPT-4来提取最终的简短答案,并将其与金标准中的简短答案进行匹配,即基于GPT4的精确匹配(GPT4-based-Exact-Match)。




实验结果


研究人员测试了模型在包含1319个单词问题的GSM8k测试集上几个训练过程的性能,对Mistral-7B模型进行了三次迭代的微调



在第一次迭代中,使用有监督微调来获得M1;


第二次迭代中,对比了SFT、DPO和KTO,其中KTO训练的模型在这一组中表现更好,获得M2后,并使用M2生成迭代#3的数据集;


第三次迭代中,对比了DPO和KTO方法,使用M2作为模型起点。


研究人员还将这些模型与Orca-Math-200K数据集上经过三个epoch的SFT训练进行了对比。


消融实验


Model Generated Positives


通过将限制为仅包含教师生成的解决方案来研究影响模型生成的正向因素(positives),换言之,研究人员移除在为迭代#2创建数据集时模型生成的所有


结果显示,不管训练算法如何,都会看到显著的性能下降。


Synthetic Negatives


数据集的创建包括在M1或M2生成的所有四个回复都是positive的情况下的合成负样本(negative creation)。



通过忽略问题qi来研究这些合成负样本的影响,结果将第二次迭代的问题数量减少了约80k,将第三次迭代的问题数量增加了约104k


除GSM8k外的数学基准


研究人员还使用Orca Math其他几个单词问题数据集上进行了实验,并且为了便于评估,最终选择了问题答案都是单个数字的数据集。



评估指标为基于GPT4的精确匹配度量,并使用贪婪解码生成模型回复。


沾染检查(Contamination Check


为了确保实验的公正性,研究人员在文中表示:在训练过程中,从未使用GSM8K或任何其他数据集的测试分割集,也从未将其用作合成问题生成的种子。


尽管如此,研究人员还是采用以下方法来检测任何潜在的文本沾染(text contamination)问题:


1. 对文本进行预处理,包括将所有字符转换为小写、删除标点符号、对文本进行分词,以及删除常见的英语停止词,以确保数据的一致性。


2. 使用逆文档频率(TF-IDF)方法对文本语料库进行矢量化,并确定测试集和训练集之间的余弦相似性,从中为每个测试查询选择前k个(k=10)最相似的问题。


3. 通过计算在预设阈值0.5以上具有最高n-gram重叠的试题数量及其相应的训练集匹配来评估文本污染的程度。


研究人员使用Jaccard相似度来计算文本对之间的n-gram重叠,并且为了进行严格的污染检查,n设置为1。


需要注意的是,当使用Jaccard相似性测量时,n-gram重叠是n的非递增函数。


4. 在执行算法时,确定表现出显著的n-gram重叠的试题数量为8,因此根据定义的阈值,表明测试集中的文本污染可以忽略不计。


当将训练集限制为仅包含种子问题时,表现出显著n-gram重叠的测试问题的数量为7;并且在n≥2的情况下,表现出显著的n-gram重叠的试题数为零。


参考资料:
https://arxiv.org/abs/2402.14830



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
需要什么才能成为春天奥特曼昨晚放话也要把大模型价格打下来!微软一夜革新生产力:Copilot 贯穿全场、小模型持续炸街华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍百度文心智能体平台举办开发者沙龙,打造国内领先的智能体生态 | Q推荐“指标平台”掀起数智风暴:AI 对话已达 95% 准确率、100% 可解释!刚买的榨汁机又坏了多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键《惦记》&《祝你祝你》RAG还是微调?万字长文总结大模型微调技能图谱AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法数学问题难解?新研究提出MathScale方法,让AI更懂数学推理昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化准确率比现有方法高50%!谷歌DeepMind全新深度学习模型AlphaFold 3重磅论文登上《自然》悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%今日arXiv最热大模型论文:COLING 2024: 复旦发布AoR,层级聚合推理突破大模型复杂推理上限智能体技术发展趋势:李鹏谈大模型智能体与开放领域融合茶百道上市首日破发,瑞银上调MSCI中国指数评级 | 财经日日评ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据准确率超过90%的预测模型为什么不靠谱?大模型学不了推理?语言≠思维,一篇Nature让AI社区炸锅了AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」"中国制造2025已实现86%,证明美国制裁无效"京妞又造假了!婶可忍, 叔不可忍?(真相截图)可执行单元校验:在 IDE 中提升 AI 智能体代码的准确性打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym32K上下文,Mistral 7B v0.2 基模型突然开源了选择需要的Token参与训练:微软重塑语言模型训练法则,准确率飙升30%女主播卖车送福利;假提豪车;普利司通的忧伤;医美直播凉凉智能体DS-Agent基于案例推理,让GPT-4数据科学任务接近100%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。