Redian新闻
>
AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了

AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了

科技
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

把AlphaGo的核心算法用在大模型上,“高考”成绩直接提升了20多分。

在MATH数据集上,甚至让7B模型得分超过了GPT-4。

一项来自阿里的新研究引发关注:

研究人员用蒙特卡洛树搜索(MCTS)给大语言模型来了把性能增强,无需人工标注解题步骤,也能生成高质量数据,有效提升大模型的数学成绩

论文发布,让不少网友重新关注到了蒙特卡洛树搜索这个在前大模型时代的明星算法。

有人直言:

蒙特卡洛树搜索+LLM是通往超级智能之路。

因为“树搜索本身更接近人类思维”。

用蒙特卡洛树搜索增强大模型

具体来说,阿里的研究人员提出了一种名为AlphaMath的方法,用大语言模型+MCTS来自动生成数学推理数据,并提升大模型在完成数学推理任务时的性能表现。

嗯,名字就很有蒙特卡洛树搜索内味儿了。

这里有个前情提要:

思维链(CoT)、思维程序(PoT)等方法已经被证明能够有效提高大模型的数学能力,但问题在于,它们都需要人类手动喂详细的解题步骤,即训练当中需要用到人工标注的高质量数学推理数据。

AlphaMath的一个核心目的就在于,在这个步骤中去人工化——数据格式就是简单的数学问题-答案对。

AlphaMath的技术路线主要涵盖三个阶段:

首先,研究人员收集了一个数学数据集,其中包含数学问题及其对应的正确答案。

然后,利用预训练的大模型(即策略模型)根据问题生成初始的解题路径,并通过MCTS对解题路径进行探索和改进,搜索更优的解题思路。

在MCTS过程中,同时训练一个价值模型来预测解题路径的质量,引导搜索方向。

最后,第二阶段获得的数据会被用来优化策略模型和价值模型。

这三个阶段会通过迭代优化地方式执行,以实现无需人工标注的自动数据生成和模型数学能力优化。

另外,研究人员还基于价值模型提出了Step-level Beam Search方法,以提高大模型的数学推理效率,平衡推理时的解题质量和运行时间。

简单来说,Step-level Beam Search是将MCTS推理过程做了个简化:

  • 利用价值模型对候选路径进行评估,以更准确地选择高质量的解题路径。

  • 通过逐步扩展和剪枝,在搜索过程中动态调整候选路径集合,提高搜索效率。

  • 搜索过程中考虑了完整的解题路径,而不仅仅是局部的下一步动作,可以得到更全局优化的解题方案。

MATH成绩超GPT-4

为了验证AlphaMath的效果,研究人员设计了这样的实验:

对开源的数学大模型DeepSeekMath-Base-7B,用AlphaMath方法进行训练,并在GSM8K、MATH和Gaokao2023基准上,与GPT-4为代表的闭源模型、Llama2为代表的开源模型,以及专门做过数学SFT的MathCoder等模型进行对比。

结果显示,不依赖于人类(或GPT-4)标注的高质量数据,AlphaMath调教下的7B数学大模型,已经能在MATH上取得63%的分数,超过了GPT-4原版的42.5%和外挂代码解释器版的51.8%。

另外,在执行3轮MCTS并训练策略模型和价值模型的情况下,AlphaMath能让大模型在涵盖小学数学题的GSM8K上提升10多分,在MATH和Gaokao2023上提升20多分。

还可以看到,Step-level Beam Search在MATH数据集上取得了良好的效率和准确率平衡。

论文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。

通讯作者Kai Fan本硕毕业于北京大学,2017年从杜克大学博士毕业,2018年加入阿里巴巴达摩院。

论文地址:
https://arxiv.org/abs/2405.03553

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折马斯克发布Grok 1.5! 编码和数学能力大幅提升家人朋友能做生意伙伴吗?最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍路透社称TikTok准备开发美国版核心算法,TikTok官方回应大模型新王诞生!Claude 3首次超越GPT4老大老三害老二,惯习必然与未必17岁中专女生入围全球数学竞赛12强!是什么限制了我女儿的数学能力?今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMathLLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力贾佳亚团队新作:10k数据让大模型数学能力超GPT-4许良英之子许成钢谈中国经济的“癌症”今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?美股基本面 - 2024_03_10 * 晨报 * 英国零售巨头玛莎百货:英国央行加息“完全无效”。Pika放大招:今天起,和AI大牛杨红霞离职创业,曾为字节和阿里大模型研发主力;阿里披露对月之暗面投资详情:8亿美元购入约36%股权丨AIGC日报最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4《春意 》巴郞开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo腾讯混元大模型升级:部分中文能力已追平GPT-4,支持16s视频生成;索尼音乐禁止人工智能开发商使用其音乐内容丨AIGC日报小红书迎来新社区内容负责人;文心一言数学能力与Claude-3并列第一;买“加速包”可优先购票?12306回应:无效……TikTok回应“正开发核心算法的美国版本”3B模型新SOTA!开源AI让日常调用不同大模型更简单JEP 477 通过隐式声明类和实例主方法增强初学者体验苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-TurboAI早知道|360智脑7B大模型开源;ChatGPT 的全球增长率逐渐下降昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力剥离几百万行代码,复制核心算法去美国?TikTok 最新回应来了17岁中专女生入围全球数学竞赛12强!是什么限制了女孩的数学能力?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。