Redian新闻
>
普林斯顿开源34B数学大模型:性能媲美谷歌Minerva,参数少一半!550亿token专业数据训练

普林斯顿开源34B数学大模型:性能媲美谷歌Minerva,参数少一半!550亿token专业数据训练

公众号新闻



  新智元报道  

编辑:青荻 润
【新智元导读】在数学领域,一个全新的时代即将到来。LLEMMA,一个强大的数学专用语言模型,正在带来革命性的性能、数据集和解决方案。它不仅超越了现有开源模型,还为数学研究者们提供了开放的共享和合作机会。让我们一起探索这个数学界的巨大突破。

数学,作为科学的基石,一直以来都是研究和创新的关键领域。

最近,普林斯顿大学等七家机构联合发布了一个专门用于数学的大语言模型LLEMMA,性能媲美谷歌Minerva 62B,并公开了其模型、数据集和代码,为数学研究带来了前所未有的机会和资源。

论文地址:https://arxiv.org/abs/2310.10631
数据集地址:https://huggingface.co/datasets/EleutherAI/proof-pile-2

项目地址:https://github.com/EleutherAI/math-lm

LLEMMA承袭了Code Llama的基础,在Proof-Pile-2上进行了预训练。

Proof-Pile-2,一个庞大的混合数据集,包含着550亿token的信息,其中包括科学论文、富含数学内容的网页数据以及数学代码。
这个数据集的一部分,Algebraic Stack,更是汇集了来自17种语言的11B数据集,覆盖了数值、符号和数学证明。

拥有7亿和34亿个参数,在MATH基准测试中表现卓越,超越了所有已知的开源基础模型。

在与Google Research开发的专门用于数学的封闭模型相比,参数量只有Minerva 62B一半的条件下,Llemma 34B获得了几乎相同的性能。

Llemma在等参数基础上超越了Minerva的问题解决性能,通过应用计算工具和进行形式定理证明,为数学问题的解决提供了无限可能。

它能轻松使用Python解释器和形式定理证明器,进一步展示了其解决数学问题的能力。

由于Algebraic Stack中对形式证明数据的特别重视,Llemma是第一个展示出少样本定理证明能力的开放基础模型。

研究人员还开放共享了LLEMMA的所有训练数据和代码。与以往的数学模型不同,LLEMMA是一个开源的、开放共享的模型,为整个科研社区敞开大门。

研究人员试图量化模型记忆的效果。令人惊讶的是,他们发现Llemma对于训练集中出现的问题并没有变得更加准确。由于代码和数据是开源的,研究人员鼓励其他人复制和扩展他们的分析。

训练数据和实验配置

LLEMMA是一个专门用于数学的大型语言模型,它在Code Llama的基础上继续在Proof-Pile-2上进行预训练,Proof-Pile-2是一个包含科学论文、含有数学内容的网页数据和数学代码的包含了550亿token的混合数据集。
其中的代码部分AlgebraicStack包含了17种语言源代码的11B数据集,涵盖数值、符号和形式数学,并已开源。

LLEMMA的每个模型均从Code Llama初始化。Code Llama模型是从Llama 2初始化的decoder-only的语言模型。

作者使用标准的自回归语言建模目标在Proof-Pile-2上继续训练Code Llama模型,对7B模型进行了200B token的训练,对34B模型进行了50B token的训练。

评估方法和实验结果

作者使用Proof-Pile-2对Code Llama进行继续预训练,并且在MATH和GSM8k等多个数学问题解决任务上对LLEMMA进行few-shot评估。
研究人员发现LLEMMA在这些任务上都有显著的提升,并且能够适应不同的问题类型和难度。
即便是在极高难度的数学题中,LLEMMA 34B也能够展示出与其他开放式基础模型相比更强大的数学能力。

在数学基准测试上,LLEMMA在Proof-Pile-2上的持续预训练改善了五个数学基准测试的few-shot性能。

LLEMMA 34B在GSM8k上的改进比Code Llama高出20个百分点,在MATH上高出13个百分点。LLEMMA 7B也优于相似大小的专有的Minerva模型,这证明了在Proof-Pile-2上进行预训练能有效提高大模型的数学解题能力。

在利用计算工具,如Python等解决数学问题方面,在MATH+Python和GSM8k+Python任务上,LLEMMA都比Code Llama更胜一筹。

在使用工具的 MATH 和 GSM8k 数据集上,LLEMMA 的性能也高于不使用工具时的性能。

在数学证明任务上,LLEMMA也表现优异。

非正式到正式证明的任务目标是在给定一个正式陈述、一个非正式的LATEX陈述和一个非正式的LATEX证明的情况下,生成一个正式证明,然后通过证明助手进行验证。

正式到正式证明则是通过生成一系列证明步骤(策略)来证明一个正式陈述。结果表明,LLEMMA在Proof-Pile-2上的持续预训练改善了这两个正式定理证明任务的few-shot性能。

LLEMMA不仅拥有令人瞩目的性能、还开放了革命性的数据集、展现了惊人的问题解决能力。

开源共享的精神,标志着数学界进入了一个新的时代。数学的未来在这里,而我们每一个数学爱好者、研究者和教育者都将从中受益。

LLEMMA的出现为我们提供了前所未有的工具,让数学问题的解决变得更加高效和创新。

此外,开放共享的理念也将促进全球科研社区更加深入的合作,共同推动科学的进步。

参考资料:
https://arxiv.org/abs/2310.10631




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《带节奏的英语课堂》第五课手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要我们的一年(19)旧金山的桥李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%夏婳:两情难相知(七)藤校里究竟有多少卷王!普林斯顿调查报告出炉,超半数学生至少递交9门AP考试成绩!普林斯顿大学数学系传统:把研究生“扔到河里”,游过去的就成为博士OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途大模型搞“人肉搜索”,准确率高达95.8%!研究作者:已提醒OpenAI谷歌Meta大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型骨折价继续!Freedom美加20GB数据月费$29!年计划15GB数据$119!34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%《湖天一览楼》1部5章(7.1)入党(上)为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强谷歌华裔男生被16所美本全聚德,他却把儿子送进普林斯顿、耶鲁,理工爬藤的正确思路是怎样的?国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70BMeta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练普林斯顿数学系:把研究生“扔到河里”,游过去就是博士​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训华人攻破上世纪数学难题:求一张白纸上的所有线条上共有多少灰尘|普林斯顿&纽大复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据朱批《毛批三国》第九回 除暴凶吕布助司徒 犯长安李傕听贾诩720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。