Redian新闻
>
比GPT-4还强,20亿参数模型做算术题,准确率几乎100%

比GPT-4还强,20亿参数模型做算术题,准确率几乎100%

公众号新闻

机器之心报道

编辑:陈萍、小舟

语言模型做数学题,能力又升级了。


当前,大型语言模型 (LLM) 在处理 NLP 领域的各种下游任务方面已经表现出卓越的能力。特别是,GPT-4、ChatGPT 等开创性模型已经接受了大量文本数据的训练,使它们具备强大的文本理解和生成能力,能够生成连贯且上下文相关的响应,在各种 NLP 任务中具有高度通用性。


然而,LLM 在数学推理方面的性能却不尽如人意。LLM 很难准确地执行复杂的算术运算,尤其是涉及超过 8 位数字乘法的运算,还有涉及小数、分数的运算。


基于此,来自清华大学、TAL AI Lab 和智谱 AI 的研究者联合提出了一个能够完美执行复杂算术运算的新模型 ——MathGLM。



  • 论文地址:https://arxiv.org/pdf/2309.03241v2.pdf

  • 项目地址:https://github.com/THUDM/MathGLM#arithmetic-tasks


该研究表明:在足够的训练数据下,20 亿参数的语言模型能够准确地进行多位算术运算,准确率几乎达到了 100%,且不会出现数据泄露(data leakage)。这个结果大幅超越了 GPT-4(其多位乘法运算准确率仅为 4.3%)。


方法介绍


本文提出了一个名为 MathGLM 的模型来探讨 LLM 在数学推理方面的效率。


MathGLM 模型需要完成的算术任务大致可以分为两类:基本算术运算和复杂混合运算。其中基本算术运算包含基本的数学任务,这些任务围绕两个数字的简单计算。而复杂混合运算涉及不同算术运算和数字格式(例如整数、小数、分数等)的组合。表 1 为 MathGLM 任务分类。



为了增强 MathGLM 的算术能力,本文采用了基于 Transformer 的仅解码器架构,并使用自回归目标(autoregressive objective)在生成的算术数据集上从头开始训练它。


算术任务的学习


算术训练数据集是精心设计的,包括加法、减法、乘法、除法和求幂等多种运算。此外,它还包含多种数字格式,例如整数、小数、百分比、分数和负数。数据集规模大小不一,范围从 100 万到 5000 万条记录不等。 


在每个数据集中,单个算术表达式由 2 到 10 个运算步骤组成,涵盖一系列数学运算,例如加法 (+)、减法 (-)、乘法 (×)、除法 (/) 和求幂 (^)。图 3 为从算术数据集中提取的一些训练示例:



表 2 概述了 MathGLM 模型的不同规模,包括 4 种不同类型的模型,每种模型都有不同的参数大小。最大的模型参数量为 2B,容量最强;其余参数量分别为 500M 、100M 以及最小的 10M 参数模型。



对数学应用问题的学习


除了算术任务外,本文还训练(微调)了一系列基于 Transformer 的语言模型,称为通用语言模型 (GLM,General Language Model)及其聊天版本来解决数学应用问题。训练过程使用了公开的 Chinese Ape210K 数据集,该数据集包含 21 万道中文小学数学题,每个题的答案都是直接计算得出的。


为了提高 MathGLM 在数学应用题上的性能,本文采用分步策略来重建 Ape210K 数据集,并将其转换为逐步计算每个数学问题答案的版本。图 4 展示了原始 Ape210K 数据集和本文重建版本之间的对比。



本文采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有 335M 参数的 GLM-large、GLM-6B、GLM2-6B 和 GLM-10B。此外,本文还使用 ChatGLM-6B 和 ChatGLM2-6B 主干网络训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。


实验


本文设计了两种不同类型的实验,包括算术任务和数学应用题。


对于算术任务,本文预训练了一个基于 Transformer 的 MathGLM 模型,该模型具有 500M 参数,并将其与领先的大型语言模型 (LLM)(例如 GPT-4 和 ChatGPT)的性能进行了比较。结果如表 3 所示, MathGLM 优于所有其他模型,表明 MathGLM 在处理算术任务方面具有卓越的性能。


即使只有 1000 万个参数的 MathGLM-10M,结果也令人惊讶。MathGLM-10M 在一系列综合算术任务中的性能优于 GPT-4 和 ChatGPT。 



此外,当比较不同参数规模的 MathGLM 时,本文观察到 MathGLM 的算术性能与其参数数量的增加直接相关。这一发现表明,随着模型尺寸的增加,它们的性能表现出相应的增强。


综上所述,研究者对复杂算术任务的评估结果表明 MathGLM 具有卓越的性能。通过分解算术任务,这些模型的性能显著超过了 GPT-4 和 ChatGPT。


此外,本文还对 GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM 和 GLM 进行了比较。本文从前面讨论的大数据集中随机抽取了一个包含 100 个测试用例的紧凑算术数据集。结果如表 4 所示。


通过以上分析结果可以看出,MathGLM 在 20 亿参数下达到了 93.03% 的准确率,超越了所有其他 LLM。



对于数学应用问题,本文在 Ape210K 数据集上进行了实验。表 8 报告了包括 MathGLM 变体、 GPT-4、ChatGPT 等在内的结果。


结果表明,当与 GLM-10B 配合使用时,MathGLM 在答案准确性方面达到了与最先进的 GPT-4 模型相当的性能水平。


此外,将 MathGLM 的性能与 GLM-Large、GLM-6B 和 GLM-10B 进行比较时,出现了一个明显的趋势:MathGLM 在算术准确性和答案准确性方面都表现出显著增强。



为了评估模型在不同年级数学问题上的解决能力,该研究在 K6 数据集上测试评估了几种模型的性能,包括:GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B,结果如下图 8 所示。



感兴趣的读者可以阅读论文原文,了解更多研究内容。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%GPT-4搞“人肉搜索”,准确率高达95.8%GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报60s视频识别心理健康状态,准确率达78%,鸿钧智能布局AI心理健康吸金1000万美元,英国初创开发「无TdT」酶技术的长DNA合成法,准确率可达90%苹果已研究生成式AI多年/阿里云开源通义千问70亿参数模型/新一代Switch最早本月宣布港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队大模型搞“人肉搜索”,准确率高达95.8%!研究作者:已提醒OpenAI谷歌Meta长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法谷歌让大模型更具“心智”,GPT-4任务准确率大增相聚多伦多(五)同是天涯沦落人1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4近9万中国人研究:做好这8件事,远离心血管疾病,健康长寿45年!;AI听键盘声就能偷你密码,准确率高达95%|本周值得读苹果日砸百万,豪赌2000亿参数Apple GPT!疯狂挖角谷歌,打造核弹级iPhoneGPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报大模型的最大bug,回答正确率几乎为零,GPT到Llama无一幸免;长期炎症值得警惕!可能是癌症的得力助手|本周论文推荐王树国的演讲听后感前沿 | AI结合脑机接口成功将大脑信号转化为可听的语音,准确率高达92%到100%!首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT书: 忘恩负义的难民 The Ungrateful Refugee (2017)1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4wild tales 一只乌鸦、一只鸽子、一只鹿、一条蛇从“算术题”到“真划算”:双11的理性回归咀外文嚼汉字(266)日语中的“母代子劳”34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%二家双十一| 不用做算术,没有任何套路!直降到底!不做算术不凑满减,《参考消息》送福利就这么实在!「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完国产百亿大模型再增一员!400亿参数孟子GPT发布,各项任务平均提升10-15%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。