Redian新闻
>
曝光!姚期智带领团队突破大模型“思维”框架,让机器思考更接近人类...

曝光!姚期智带领团队突破大模型“思维”框架,让机器思考更接近人类...

公众号新闻

一拼一拉一变
百变造型,肆意畅玩
魔幻创意拼凑,玩转空间魅力
点击下方图片 等你一起开发空间思维
本文由超模君整合,参考来源:清华大学官网
如有侵权,请联系后台小编删除!

前段时间,由图灵奖得主姚期智领衔发表了首篇大语言模型论文,探讨了如何让大型语言模型更像人类一样进行思考。

该论文不仅强调了让模型逐步推理的重要性,还提出了一种名为“累积推理(Cumulative Reasoning)”的全新方法,显著提高了大型语言模型在解决复杂推理任务时的准确性。


传统的大型模型可以利用其思维链进行问题推理,但在面对需要拐弯抹角的问题时容易出错。

通过引入一个“验证者”来判断推理过程中的正确与否,“累积推理”方法在这一基础上进一步发展。因此,模型的思考框架从链状和树状变得更加复杂,类似于一个有向无环图

这种方法不仅使大型模型的解题思路更加清晰,还培养出了一些“玩牌”的技巧:在代数、几何和数论等数学难题上,相对准确率提高了42%;而在玩24小时游戏中,成功率更是飙升到98%


尽管大型语言模型已经取得了显著进展,但在面对高度复杂的推理任务时,它们仍然难以提供稳定且准确的答案。

为了突破这个限制,之前就有学者已提出“思维链(Chain of Thought, CoT)”“思维树(Tree of Thought, ToT)”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。

然而,这些方法都没有考虑到思维过程中中间结果的存储,从而导致大型语言模型无法全面地模拟人类复杂的思维过程。

为了填补这一研究空白,研究团队提出了“累积推理”框架,试图更广泛地对思维过程进行建模。


01


“累积推理”是一种改进大模型思维过程的核心方法,它采用了三个不同的大语言模型:提议者(Proposer)、验证者(Verifier)和报告者(Reporter)。

提议者(Proposer):基于现有前提(premises)和命题(propositions)提出一个或几个提案来启动该过程。

验证者(Verifier):评估该提案,确定该提案是否可以作为新的命题保留。

报告者(Reporter):决定是否是终止思考过程并提供最终答案的最佳时机。

推理过程中,“提议者(Proposer)”先给出提案,“验证者(Verifier)”负责评估,“报告者(Reporter)”决定是否要敲定答案、终止思考过程。

累积推理框架用于解决含三个前提的问题

这个过程有点像团队项目中的三类角色:小组成员提出各种创意,指导老师进行审核,组长最终做出决策。

通过这种方式,“累积推理”改变了大模型思维的“形状”。

要理解累积推理是如何改变大模型的思维“形状”的,我们需要从大模型思维的加强方法——思维链(Chain of Thought, CoT)说起。

这个方法由OpenAI科学家Jason Wei等人于2022年1月提出,它通过给输入数据集添加一段"逐步推理"的文本来激发大模型的思考能力。


基于思维链的原理,谷歌推出了一个名为CoT-SC的“思维链PLUS版”,它通过多次思维链过程并对答案进行多数投票,进一步提高了推理的准确性。

然而,无论是思维链还是CoT-SC,它们都忽略了一个问题:题目往往有不止一种解法,尤其是人类在解题时更是如此。

为了解决这个问题,出现了一种名为思维树(Tree of Thought, ToT)的新研究方法。


思维树是一种树状检索方案,允许模型尝试多种不同的推理思路,并通过自我评估和选择下一步行动方案来进行推理。

如果需要的话,模型还可以回溯选择。相比思维链,思维树让大模型的思维更加活跃。

举个例子,玩24小时游戏时,使用思维链的GPT-4的成功率只有4%,而使用思维树的成功率却飙升到了74%

然而,无论是思维链、CoT-SC还是思维树,它们都有一个共同的局限性:没有设置中间结果的储存位置。

因为并不是所有的思维过程都可以被表示成链或者树,人类的思维方式通常更为复杂。

累积推理的新框架突破了这个局限性,它设计成一个有向无环图(DAG),可以将所有历史上正确的推理结果存储于内存中,并在当前搜索分支中进行探索。与思维树不同,累积推理可以存储来自其他分支的信息。

逻辑推导图

但同时,累积推理也可以与思维链无缝切换,只需去掉“验证者”的角色,即可变为标准的思维链模式。

基于累积推理方法的设计,在各种应用中都取得了不错的效果,它为大模型的推理能力带来了新的可能性。


02


该论文的研究团队选择在FOLIO wiki和AutoTNLI、24小时游戏、MATH数据集上对“累积推理”框架进行了检验,以验证其性能表现。

提议者、验证者和报告者在每次实验中使用了相同的大语言模型,并用不同的prompt来设定角色。

所使用的基础模型包括GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B等。

1、FOLIO wiki和AutoTNLI

FOLIO是一个用于自然语言推理的一阶逻辑推理数据集,每个问题的标签可以是“true”、“False”或“Unknown”。

是从INFOTABS扩展而来的表格式自然语言推理(TNLI)数据集,由于其固有的复杂性在于自然语言推理形式主义,因此可以被看作是一个高阶逻辑推理数据集

在FOLIO wiki数据集上,研究团队发现,通过与直接输出结果(Direct)、思维链(CoT)、进阶版思维链(CoT-SC)方法相比,“累积推理”(CR)框架在FOLIO wiki数据集上的表现总是最优。

在删除数据集中带有问题的实例后,使用CR方法的GPT-4推理准确率达到了98.04%,并且有最小1.96%的错误率。

FOLIO wiki数据集对比测试结果

结果表明,在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法,显示出高达9.3%的提升。

AutoTNLI数据集对比测试结果

2、24小时游戏

24小时游戏是一个难题,该游戏要求玩家利用四个指定的整数使用基本的算术运算(加,减,乘,除)得到数字24。

24小时游戏说明示例

ToT最初论文中用到的是24小时游戏,所以研究人员将CR算法和ToT算法进行了比较。他们发现,在24小时游戏中,这两种算法非常相似。


它们的主要区别是,在CR中,算法的每次迭代最多产生一个新到达的状态,而ToT每次迭代产生多个候选状态,过滤和保留状态的子集。

这意味着与CR相比,ToT探索了更多数量的无效状态。

此外,TOT采用固定宽度和固定深度的搜索树,而CR允许LLM自主地确定搜索深度,并在搜索树的不同层上执行不同的搜索宽度。

通俗来讲,ToT没有上面提到的CR有的“验证者”,不能判断状态(a、b、c)正误,因此ToT比CR会探索更多无效状态。

24小时游戏对比测试结果

最终,“累积推理”在24小时游戏中达到了98%的准确率,而ToT仅为74%,并且平均访问状态数量也比ToT少得多。

值得注意的是,相比于先前的最先进方法ToT,累积推理在这项实验中取得了显著的24%提升。

3、MATH数据集

该数据集包含了各种数学推理题目,包括代数、几何和数论等,题目难度分为五级。

研究人员使用CR方法,将题目分步骤拆解成更易解决的子问题,并逐步生成答案。

MATH数据集对比测试结果

MATH数据集的实验结果表明,“累积推理”算法在两种不同的实验设定下,都取得了超过当前已有算法的正确率。

其中“累积推理”的正确率达到了58%,并在难度最高的Level 5题目中相对准确率提升了42%,建立了基于GPT-4模型的新的SOTA方法。


03


“累积推理”框架的研究不仅证明了它在逻辑推理任务中达到了更高的准确率,还为人工智能领域带来了新的启示和潜力。

据研究团队表示,随着这种逐步推进的方法的不断改进,人类有望迎来一个能够独立解决复杂数学和科学问题的人工智能数学家学家(AI Mathematician)。

然而,研究者们也承认,这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度,以处理更加复杂的问题”等挑战。

论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日,该论文以“大语言模型的‘累积推理’框架(Cumulative Reasoning with Large Language Models)”为题发布于康奈尔大学ArXiv。

论文的共同通讯作者是姚期智袁洋,共同第一作者是交叉信息研究院2021级博士生张伊凡杨景钦

参考来源:
清华大学官网:《交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架》

论文链接:
https://arxiv.org/abs/2308.04371



超模君 说
看到最后
你有关注这件事吗?

欢迎留言分享!


微信又双叒叕改版了,还没把我们公号标星的读者,可能会越来越收不到我们的推送了

希望大家动动小手,给超模君加个星标吧!


脑洞大开快乐多,数百种造型可以随意造。
看似每个立方体毫无联系,实则环环相扣,牵一发而动全身。


大人玩减压有趣,小孩玩锻炼动手能力。
在指尖触发逻辑空间思维,带你玩转数学几何。


现在下单享受多重惊喜
基础版(1彩1白):198元
旗舰版(3彩1白):297元
豪华版(6彩3白):610元

👇点击图片立即购买👇



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
仅用7500条轨迹数据训练,CMU、Meta就让机器人「上得厅堂、下得厨房」图灵奖得主姚期智:大模型有无限的产业应用前景,能影响各个行业哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展真正活得舒服的人,都不爱“思考”因为知足,所以更接近幸福谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色【双养日课】手|抓捏拍的精细,扔玩具的“思考”CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解姚期智Hinton Bengio联名发文:18个月内AI规模将扩大100倍,得有人管管了人类首个沙雕视频数据集!FunQA:让机器成为喜剧之王苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效“思考何为良好社会”的能力,你还有吗?打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍姚期智领衔提出大模型「思维」框架!逻辑推理正确率达98%,思考方式更像人类了北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型【七绝】 荷 (八庚)最接近人声的传统乐器,原来是它→北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效Nature | 西湖大学刘晓东等开发TNT重编程技术有望使诱导多能干细胞更接近胚胎干细胞ACL 2023 | 自查纠错:给大模型的“思考过程”注入知识以提高事实正确度港科大谭平团队突破3D生成领域关键性问题,让多头怪不再出现Hinton、Bengio和姚期智联名发文:得有人管管AI风险了!烧双茄 - 淀粉裹着茄子这样炸,外焦里嫩,跟西红柿一起烧,酸甜可口,好吃极了(视频+图文)小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大姚期智:未来AGI以具身实体交互,赋予产业更大价值【齐风猎作品】奔五的离异,无关风花雪月,只为精神解脱我的老师的回忆录用“大模型思维”看芯片设计公司得一微李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!全球首颗忆阻器芯片,清华团队突破了什么? | 陈经俞大维将军与“金门823炮战
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。