曝光！姚期智带领团队突破大模型“思维”框架，让机器思考更接近人类...

公众号新闻

2023-10-20 14:10

一拼一拉一变

百变造型，肆意畅玩

魔幻创意拼凑，玩转空间魅力

点击下方图片 等你一起开发空间思维

本文由超模君整合，参考来源：清华大学官网

如有侵权，请联系后台小编删除！

前段时间，由图灵奖得主姚期智领衔发表了首篇大语言模型论文，探讨了如何让大型语言模型更像人类一样进行思考。

该论文不仅强调了让模型逐步推理的重要性，还提出了一种名为“累积推理（Cumulative Reasoning）”的全新方法，显著提高了大型语言模型在解决复杂推理任务时的准确性。

传统的大型模型可以利用其思维链进行问题推理，但在面对需要拐弯抹角的问题时容易出错。

通过引入一个“验证者”来判断推理过程中的正确与否，“累积推理”方法在这一基础上进一步发展。因此，模型的思考框架从链状和树状变得更加复杂，类似于一个有向无环图。

这种方法不仅使大型模型的解题思路更加清晰，还培养出了一些“玩牌”的技巧：在代数、几何和数论等数学难题上，相对准确率提高了42%；而在玩24小时游戏中，成功率更是飙升到98%。

尽管大型语言模型已经取得了显著进展，但在面对高度复杂的推理任务时，它们仍然难以提供稳定且准确的答案。

为了突破这个限制，之前就有学者已提出“思维链（Chain of Thought, CoT）”和“思维树（Tree of Thought, ToT）”等几种模仿人类“深思熟虑”且“逻辑性”的思维框架。

然而，这些方法都没有考虑到思维过程中中间结果的存储，从而导致大型语言模型无法全面地模拟人类复杂的思维过程。

为了填补这一研究空白，研究团队提出了“累积推理”框架，试图更广泛地对思维过程进行建模。

01

“累积推理”是一种改进大模型思维过程的核心方法，它采用了三个不同的大语言模型：提议者（Proposer）、验证者（Verifier）和报告者（Reporter）。

提议者（Proposer）：基于现有前提（premises）和命题（propositions）提出一个或几个提案来启动该过程。

验证者（Verifier）：评估该提案，确定该提案是否可以作为新的命题保留。

报告者（Reporter）：决定是否是终止思考过程并提供最终答案的最佳时机。

推理过程中，“提议者（Proposer）”先给出提案，“验证者（Verifier）”负责评估，“报告者（Reporter）”决定是否要敲定答案、终止思考过程。

累积推理框架用于解决含三个前提的问题

这个过程有点像团队项目中的三类角色：小组成员提出各种创意，指导老师进行审核，组长最终做出决策。

通过这种方式，“累积推理”改变了大模型思维的“形状”。

要理解累积推理是如何改变大模型的思维“形状”的，我们需要从大模型思维的加强方法——思维链（Chain of Thought, CoT）说起。

这个方法由OpenAI科学家Jason Wei等人于2022年1月提出，它通过给输入数据集添加一段"逐步推理"的文本来激发大模型的思考能力。

基于思维链的原理，谷歌推出了一个名为CoT-SC的“思维链PLUS版”，它通过多次思维链过程并对答案进行多数投票，进一步提高了推理的准确性。

然而，无论是思维链还是CoT-SC，它们都忽略了一个问题：题目往往有不止一种解法，尤其是人类在解题时更是如此。

为了解决这个问题，出现了一种名为思维树（Tree of Thought, ToT）的新研究方法。

思维树是一种树状检索方案，允许模型尝试多种不同的推理思路，并通过自我评估和选择下一步行动方案来进行推理。

如果需要的话，模型还可以回溯选择。相比思维链，思维树让大模型的思维更加活跃。

举个例子，玩24小时游戏时，使用思维链的GPT-4的成功率只有4%，而使用思维树的成功率却飙升到了74%。

然而，无论是思维链、CoT-SC还是思维树，它们都有一个共同的局限性：没有设置中间结果的储存位置。

因为并不是所有的思维过程都可以被表示成链或者树，人类的思维方式通常更为复杂。

累积推理的新框架突破了这个局限性，它设计成一个有向无环图（DAG），可以将所有历史上正确的推理结果存储于内存中，并在当前搜索分支中进行探索。与思维树不同，累积推理可以存储来自其他分支的信息。

逻辑推导图

但同时，累积推理也可以与思维链无缝切换，只需去掉“验证者”的角色，即可变为标准的思维链模式。

基于累积推理方法的设计，在各种应用中都取得了不错的效果，它为大模型的推理能力带来了新的可能性。

02

该论文的研究团队选择在FOLIO wiki和AutoTNLI、24小时游戏、MATH数据集上对“累积推理”框架进行了检验，以验证其性能表现。

提议者、验证者和报告者在每次实验中使用了相同的大语言模型，并用不同的prompt来设定角色。

所使用的基础模型包括GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B等。

1、FOLIO wiki和AutoTNLI

FOLIO是一个用于自然语言推理的一阶逻辑推理数据集，每个问题的标签可以是“true”、“False”或“Unknown”。

是从INFOTABS扩展而来的表格式自然语言推理(TNLI)数据集，由于其固有的复杂性在于自然语言推理形式主义，因此可以被看作是一个高阶逻辑推理数据集。

在FOLIO wiki数据集上，研究团队发现，通过与直接输出结果（Direct）、思维链（CoT）、进阶版思维链（CoT-SC）方法相比，“累积推理”（CR）框架在FOLIO wiki数据集上的表现总是最优。

在删除数据集中带有问题的实例后，使用CR方法的GPT-4推理准确率达到了98.04%，并且有最小1.96%的错误率。

FOLIO wiki数据集对比测试结果

结果表明，在FOLIO wiki和AutoTNLI数据集上“累积推理”框架始终优于现有方法，显示出高达9.3%的提升。

AutoTNLI数据集对比测试结果

2、24小时游戏

24小时游戏是一个难题，该游戏要求玩家利用四个指定的整数使用基本的算术运算(加，减，乘，除)得到数字24。

24小时游戏说明示例

ToT最初论文中用到的是24小时游戏，所以研究人员将CR算法和ToT算法进行了比较。他们发现，在24小时游戏中，这两种算法非常相似。

它们的主要区别是，在CR中，算法的每次迭代最多产生一个新到达的状态，而ToT每次迭代产生多个候选状态，过滤和保留状态的子集。

这意味着与CR相比，ToT探索了更多数量的无效状态。

此外，TOT采用固定宽度和固定深度的搜索树，而CR允许LLM自主地确定搜索深度，并在搜索树的不同层上执行不同的搜索宽度。

通俗来讲，ToT没有上面提到的CR有的“验证者”，不能判断状态（a、b、c）正误，因此ToT比CR会探索更多无效状态。

24小时游戏对比测试结果

最终，“累积推理”在24小时游戏中达到了98%的准确率，而ToT仅为74%，并且平均访问状态数量也比ToT少得多。

值得注意的是，相比于先前的最先进方法ToT，累积推理在这项实验中取得了显著的24%提升。

3、MATH数据集

该数据集包含了各种数学推理题目，包括代数、几何和数论等，题目难度分为五级。

研究人员使用CR方法，将题目分步骤拆解成更易解决的子问题，并逐步生成答案。

MATH数据集对比测试结果

MATH数据集的实验结果表明，“累积推理”算法在两种不同的实验设定下，都取得了超过当前已有算法的正确率。

其中“累积推理”的正确率达到了58%，并在难度最高的Level 5题目中相对准确率提升了42%，建立了基于GPT-4模型的新的SOTA方法。

03

“累积推理”框架的研究不仅证明了它在逻辑推理任务中达到了更高的准确率，还为人工智能领域带来了新的启示和潜力。

据研究团队表示，随着这种逐步推进的方法的不断改进，人类有望迎来一个能够独立解决复杂数学和科学问题的人工智能数学家学家（AI Mathematician）。

然而，研究者们也承认，这样的远景目标仍面临“如何对大语言模型输出结果进行高效验证”“如何增加思考上下文的长度，以处理更加复杂的问题”等挑战。

论文来自清华大学交叉信息研究院姚期智院士和袁洋助理教授领衔的AI for Math研究团队。近日，该论文以“大语言模型的‘累积推理’框架（Cumulative Reasoning with Large Language Models）”为题发布于康奈尔大学ArXiv。

论文的共同通讯作者是姚期智和袁洋，共同第一作者是交叉信息研究院2021级博士生张伊凡和杨景钦。

参考来源：

清华大学官网：《交叉信息研究院姚期智和袁洋领衔提出大语言模型“累积推理”框架》

论文链接：

https://arxiv.org/abs/2308.04371

超模君说

看到最后

你有关注这件事吗？

欢迎留言分享！

微信又双叒叕改版了，还没把我们公号标星的读者，可能会越来越收不到我们的推送了

希望大家动动小手，给超模君加个星标吧！

脑洞大开快乐多，数百种造型可以随意造。
看似每个立方体毫无联系，实则环环相扣，牵一发而动全身。

大人玩减压有趣，小孩玩锻炼动手能力。
在指尖触发逻辑空间思维，带你玩转数学几何。

现在下单享受多重惊喜
基础版（1彩1白）：198元
旗舰版（3彩1白）：297元
豪华版（6彩3白）：610元

👇点击图片立即购买👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章