Redian新闻
>
超越ToT,苏黎世理工发布新一代思维图GoT:推理质量提升62%,成本降低31%

超越ToT,苏黎世理工发布新一代思维图GoT:推理质量提升62%,成本降低31%

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】推理速度、推理质量二者兼得,全新一代思维图GoT可以处理更复杂推理任务!


大型语言模型在推理上仍然是弱势项目,需要依赖各种思维工具辅助完善推理过程。


最近,苏黎世联邦理工大学、华沙理工大学的研究人员共同提出了一个全新的LLM思维框架GoT(Graph of Thoughts,GoT),在推理质量和推理速度上都要超越现有的思维链(CoT)和思维树(ToT)等方法。


论文链接:https://arxiv.org/pdf/2308.09687.pdf


GoT的关键思想和主要优势在于将LLM生成的信息建模为图(arbitary graph),其中信息单元(思维,LLM thoughts)作为图的顶点,顶点之间的依赖关系作为图的边。


GoT方法可以将任意的LLM思维组合成协同结果,提取出整个思维网络的本质,或者使用反馈回路来增强思维。


通过实验可以证明GoT在不同任务上提供了优于现有技术的优势,例如,与ToT相比,排序任务的质量提高了62%,同时成本降低了31%


研究人员认为,GoT方法可以让LLM推理更接近人类的思维和大脑推理机制,比如二者都在内部形成了复杂的网络结构。


LLM思维(thought)的进化之路


用户与LLM对话的过程主要包括用户消息(提示,prompts)和模型回复(思维、想法,thoughts),其中回复可以是一段文本(摘要任务)、一个文档(生成任务)或是一个代码块等。


为了充分激活语言模型的能力,通常会采用各种提示方法:



1. Input-Output (IO) 提示


输入序列后,直接用语言模型获取输出,不添加任何中间思考过程。


2. 思维链(Chain-of-Thought, CoT)


在输入和输出之间引入多个中间思维状态,相比IO方法,可以显著提升语言模型在数学难题和通用推理任务上的性能。


3. 多思维链


独立生成多条思维链,然后根据预先指定的评分指标返回最佳输出结果的思维链。


自一致思维链(CoT-SC)方法可以将CoT扩展到多条推理路径,不过没有进行单路径内的「局部探索」,例如回溯(backtracking)。


4. 思维树(Tree of Thoughts, ToT)


ToT将过程或推理建模为一棵思维树来增强CoT-SC方法,单个树节点代表部分解决方案;基于给定的节点,思维生成器(thought generator)可以构造出一定数量的新节点,然后用状态评估器(state evaluator)为每个新节点生成相应评分。


根据用例的不同,可以使用LLM自身对输出结果进行评估,也可以利用人工评分等。


扩展树的过程中,节点的调度取决于使用的搜索算法,如深度优先、广度优先。

其他方法如思维分解(thought decomposition)等或多或少都隐含使用了树的思路。


思维图(Graph of Thought, GoT)框架


总体来说,GoT包含四部分:


1. 语言模型推理过程,即在特定上下文中,所有语言模型的思维,以及思维之间的关系


2. 潜在的思维转换


3. 用于获取思维评分的评估函数


4. 用于选择最相关思维的排序函数



推理过程


研究人员将推理过程建模为一个有向图,顶点代表某个问题(初始问题、中间问题、最终问题)的一个解决方案,有向边代表使用「出节点」作为直接输入构造出的思维(入节点),具体思维的形式取决于用例。


图节点的类别也不一定相同,例如在生成任务中,某些节点代表「写一段文字的规划」,另一些节点用来对「实际文本段」进行建模,推理过程是一个异构图(heterogeneous graph)。


思维转换


基于图结构,GoT可以在推理中实现不同的思维转换,也可以叫做graph-enabled transformations.


比如说,在写作任务中,可以将几篇输入文章合并成一个连贯的摘要;在排序任务中,可以将几个排序后的数字子数组(sub-array)合并成一个最终的排序数组。



每次变换操作都包含两部分:1)反映当前推理状态的图,以及2)一个用到的语言模型。


变换操作会修改当前的图,添加新的节点和输入边。


为了最大化GoT的表现力,用户可以指定要删除的相应顶点和边来显式删除思维;为了节省上下文空间,用户可以删除推理中未来不改进的部分。


1)聚合转换(Aggregation Transformations)


GoT可以将任意多个思维聚合成一个新的思维,并将不同思维的优势结合起来。

在最基础的形式中,只创建一个新的节点,其余思维链中的节点作为出节点连接到新节点中。


更一般地,该操作还可以聚合推理路径,也就是组成更长的推理路径


2)优化转换(Refining Transformations)


可以修改当前思维节点v为一条循环边(v, v),代表与原始思维相同迭代思维。


3)生成转换(Generation Transformations)


可以基于已有的单思维节点生成一个或多个新的思维,和之前的推理模式,如ToT或CoT-SC类似。


对思维进行评分和排序


评估函数所需要的数据包括受评估的思维、整个推理过程的状态以及语言模型,要求全推理过程可以最大化函数的通用性。


在对思维的排序时,其输入包括推理过程、语言模型以及指定返回k个评分最高的思维。


系统架构&可扩展性



GoT架构由一组交互模块组成:


1. 提示器(Prompter):为LLM准备信息


主要负责把图结构编码进提示词中,GoT架构允许用户根据不同用例实现不同的图编码,提供全部图结构访问权限。


2. 解析器(Parser):从LLM的回复中抽取信息


解析器为每个思维构造出一个思维状态(thought state),包含了抽取出的信息,并用于后续状态更新。


3. 评分模块(Scoring):对LLM回复进行验证和评分


验证一个给定的LLM思维是否能够满足潜在的正确性条件,然后对思维进行打分。


具体分数可能需要构造提示,让语言模型给出评价;对某些用例来说,人类反馈评分也可以;如果是排序之类的用例,可能还需要引入局部评分函数。


4. 控制器(Controller):协调整个推理过程,并决定如何继续推理


控制器中包含两个重要组件:图操作(the Graph of Operations, GoO)和图推理状态(GRS)。


其中GoO是一个静态结构,指定了给定任务上的图分解过程,即规定了可用于LLM思维转换的操作,以及思维之间的顺序和依赖关系;每个操作对象都知道自己的前置操作和后继操作。


GRS是一个动态结构,用来维护LLM推理过程进行中的状态,包括所有思维的历史及状态。



示例用例


1. 排序


比如任务是对有重复的0-9数字序列进行排序,直接输入的话,语言模型无法对超过一定长度的序列正确排序。



在GoT框架中,研究人员采用基于合并的排序方法:


首先将输入的数字序列分解为多个子矩阵;然后对子矩阵分别进行排序;再将子矩阵进行排序;最后将所有子矩阵合并,得到最终结果。



在这个用例中,LLM思维就是一串有序的数字序列。


为了对LLM的输出进行评分,假定输入序列a的长度为n,输出序列b的长度为m,可以将误差范围定义为:



X表示错误排序的连续数字对的数量,如果相邻两个数字排序错误,即左边的数字大于右边,则X加一。


Y表示,输出序列中的数字频率,与输入序列频率的吻合程度。


2. 关键词计数任务


GoT框架将输入文本分割成多个段落,计数每个段落中的关键字,并聚合子结果。


段落的数量可以预先定义,也可以留给LLM分割,或者将每个句子视为一个单独的段落。


为了获得对思维的评分,首先需要对每个关键字推导出计数和正确计数之间的绝对差值,然后将所有差值相加,并得到最终分数。


3. 文档合并


该任务的目标是基于几个内容部分重叠的输入文档生成一个新的保密协议(NDA)文档,尽量减少重复,同时最大限度地保留信息,可以广泛应用于法律程序等领域。


为了给解决方案打分,研究人员要求语言模型查询两个值(每个值三次,取平均值),第一个值对应于解决方案冗余(10表示没有冗余,0表示至少一半的信息是冗余的),第二个值代表信息保留(10表示保留了所有信息,0表示没有保留),然后计算调和平均值。


延迟与思维量的权衡


GoT在延迟(思维图中达到给定最终思维的跳数)和思维量(volume,思维图中存在通往某个思维的路径数量)之间的权衡,也比之前的提示方案要好。


假设输出一个思维的时间成本为O(1),每个提示方案的总成本固定为Θ(n):


1. CoT-SC由源自单个起始思维的k个独立链组成;


2. ToT是一个完整的k-ary树;


3. 在GoT中,在完整k-ary树的叶子处与一个大小相同但边反向的镜像k-ary树连接起来;



可以看到,虽然CoT-SC提供的思维量为N,但代价是高延迟(N);CoT-SC将延迟降低了k倍(对应于分支因子),但同时也将容量降低了k倍。


ToT提供logk N的延迟,但容量也下降了;


GoT是唯一一个同时具有logk N的低延迟和高容量N的方案,可能是由于GoT利用聚合思想,可以从分解图中的其他中间思维获取到最终思维。


实验结果



总的来说,GoT在排序、找集合交集、关键词计数和文档合并任务上,其结果质量要比基线模型更好,并且推理成本也更低。


GoT vs. ToT


在所有任务中,GoT都比ToT(树的分支更多、深度较浅)和ToT2(树的分支少、深度更深)的性能更好。ToT通常比ToT2的质量更高,但消耗也更大。


相比ToT,GoT方法将中值误差降低了约62%,从而实现了更高的排序质量,并且运行成本降低了31%以上;优势主要是因为GoT能够将复杂的任务分解成更简单的子任务,独立解决这些子任务,然后逐步将这些结果合并成最终结果。


GoT vs. IO / CoT


GoT的质量更高,对于排序(P=64)任务,GoT的中值误差分别比CoT和IO低约65%和约83%,不过GoT和ToT的运行成本远高于IO和CoT


随着问题规模P的增加,GoT相比其他基线来说质量提升更大。


总的来说,这个分析说明了GoT确实非常适合复杂的问题案例,因为推理调度通常会随着问题规模的增长而变得更加复杂。


参考资料:
https://arxiv.org/abs/2308.09687
https://github.com/spcl/graph-of-thoughts
https://twitter.com/DrJimFan/status/1695127737986585015




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Llama2等30+模型接入千帆大模型平台,推理成本降50%!还有超全Prompt模板开放体验无需额外插入心脏起搏导管,法国这家公司将PCI手术成本降低12%​西南联大:一个时代的远去,一代思想与精神的远去长篇小说《如絮》第一百五十七章 北京-哈尔滨-1964-1966年 还能怎样多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟ETH等提出思维图(GoT)超越思维链(CoT): 用LLMs解决复杂问题!《孤注一掷》的创作症候与质量提升思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了现金换钥匙赶房客成本降低 50%,智谱 GLM 背刺 GPT百度发布新一代营销平台“轻舸”,广告投放转化率提升超20%慰藉!宜家全球降价:原材料成本降低!这两系列产品减价最多!马斯克推动“全力下云”,成本降低60%,对物联网企业有何启示?谷歌火力全开!新一代芯片TPU v5e炸场,大模型训练飙升5倍,成本砍半你不知道的并不等于没发生Grab 将 AWS 上 Kafka 消费者的流量成本降低为零马斯克spaceX,今年第38次发射火箭!2代星链卫星,成本降到1代的6分之一!随诗随笔幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker东京/北美/苏黎世内推 | Sony AI招聘视觉基础模型高级科学家/工程师/实习生哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展付费成本降80%、首日ROI提升300%,IAP小游戏真火了苹果发布新一代智能手机iPhone 15系列;腾讯健康公布医疗大模型;中国民营企业500强发布……疯狂马斯克的“极限”计划居然成功了?!“下云”后成本降低 60%,部分功能代码精简 90%,30 天急速迁移服务器苏黎世联邦理工分拆,瑞士抗衰老初创基于重编程逆转疾病进展,预计年底筛选出第一批苗头化合物多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大编织“横向”质控网络,促进均质化质量提升——北京市心血管内科质量控制和改进中心发起成立“中国心血管病质控中心联盟”GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用特斯拉的这个技术,直接把造车成本降低40%微软 Office copilot 定价每月 30 美元;腾讯否认推公务员版微信;Meta 发布新一代开源大模型 | 极客早知道莫斯科十大著名景点成本降低一半,百度自动驾驶离我们还远吗良心!宜家全球降价:原材料成本降低!这两系列产品减价最多!Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%弃用 MySQL 后存储成本降低 85%,携程业务系统数据库升级技术实践
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。