Llama3-8B秒杀700亿巨兽?北大博士生等全新「BoT」框架推理暴涨70倍,24点图形推理一步成神
新智元报道
新智元报道
【新智元导读】24点游戏、几何图形、一步将死问题,这些推理密集型任务,难倒了一片大模型,怎么破?北大、UC伯克利、斯坦福研究者最近提出了一种全新的BoT方法,用思维模板大幅增强了推理性能。而Llama3-8B在BoT的加持下,竟多次超越Llama3-70B!
论文地址:https://arxiv.org/abs/2406.04271
24点游戏
LLM推理难,两种方法均有局限
国际象棋中的「一步将死」
Buffer of Thoughts
问题蒸馏器
作为信息蒸馏领域的高度专业和智能专家,你擅长从用户输入查询中提取关键信息以解决问题。你能够熟练地将提取的信息转化为适合相应问题类型的格式。 请分类并提取解决问题所需的关键信息,包括: 1. 关键信息:从用户输入中提取的关键变量的值和信息,这些信息将交给相应的专家进行任务解决,确保提供解决问题所需的所有必要信息。 2. 限制条件:问题的目标和相应的约束。 3. 蒸馏任务:基于1和2扩展问题,总结一个可以解决用户查询并处理更多输入和输出变化的元问题。结合扩展问题的真实场景以及原始问题中的关键变量类型和信息约束来限制扩展问题中的关键变量。之后,使用用户查询输入的关键信息作为输入来解决问题作为示例。
用元缓冲区,让思维推理增强
解决方案描述: 为了准确回答有关企鹅属性的问题,必须能够解释表格形式的数据,理解自然语言提供的附加信息,并运用逻辑推理来识别正确的属性。 思维模板: 步骤 1:解析初始表格,提取标题信息和每只企鹅的属性到结构化格式中(例如,一个字典列表)。 步骤 2:阅读并整合任何更新或添加到表格中的自然语言信息,确保数据保持一致。 步骤 3:识别所问的属性(例如,最老的企鹅、最重的企鹅)和表格中的相应列。 步骤 4:运用逻辑推理比较所有条目的相关属性,以找到正确答案(例如,最老的企鹅的最高年龄)。 步骤 5:从提供的选项中选择与逻辑比较结果相匹配的答案。
解决方案描述: 写十四行诗需要创作14行诗歌,遵循特定的押韵模式。这些诗行通常采用抑扬格五音步,但为了创意可以在节奏上进行适当调整。给定的押韵模式规定了每行的结尾音,以确保诗歌的结构性。逐字包含提供的三个词需要在诗行中进行巧妙安排,以保持诗歌的连贯性和主题一致性。 思维模板: 步骤1:确定必须包含在十四行诗中的三个词。 步骤2:理解押韵模式「ABAB CDCD EFEF GG」,并准备一份可以使用的押韵词列表。 步骤3:为十四行诗设计一个可以自然包含这三个词的主题或故事。 步骤4:开始起草十四行诗,按照「ABAB」押韵模式写第一节(四行),确保包含一个或多个提供的词。 步骤5:继续写第二节「CDCD」,第三节「EFEF」,最后是结束的对联「GG」,每次根据需要包含提供的词。 步骤6:检查十四行诗的连贯性、流畅性和对押韵模式的遵循情况,并根据需要进行调整。
解决方案描述: 要确定下一个日期,我们需要考虑日历的结构、每个月的天数以及是否是闰年。通常,每月的天数是固定的,但二月可能因闰年而有所不同。一年中的第二天通常是日期增加一天,除非是月底,那么第二天将是下个月的第一天。对于年底第二天将是下一年的1月1日。 思维模板: 步骤1:识别给定日期的月份和日期。 步骤2:检查是否是月底;如果是,则确认下个月的开始日期。 步骤3:如果不是月底,只需在日数上加一即可。 步骤4:特别注意年底,确保年份递增。
你是一位元推理者,精通各个领域的知识,包括计算机科学、数学、物理、文学、历史、化学、逻辑推理、文化、语言等。你还能根据不同任务找到合适的高级思维方式。以下是三种推理结构: i) 基于提示的结构:在处理常识推理、应用调度等问题时表现良好。 ii) 基于过程的结构:在处理创造性任务如创造性语言生成和文本理解时表现良好。 iii) 基于编程的结构:在处理数学推理和代码编程时表现良好,还可以将现实世界的问题转化为编程问题,从而高效地解决问题。 (推理实例化) 你的任务是: 1. 深思熟虑地考虑上下文和问题蒸馏器蒸馏出的响应中的问题,并利用你对问题的理解找到适合解决问题的领域专家。 2. 考虑蒸馏的信息,为问题选择一种推理结构。 3. 如果提供了思维模板,请直接按照思维模板实例化给定问题。
缓冲区管理器
模板蒸馏提示: 用户:[问题描述]+[解决方案步骤或代码] 要提取和总结解决此类问题的高级范例和一般方法,请按照以下步骤进行回复: 1. 核心任务总结: 识别并描述问题的基本类型和核心挑战,例如将其分类为数学问题(例如,求解二次方程)、数据结构问题(例如,数组排序)、算法问题(例如,搜索算法)等,并分析解决问题的最有效方法。 2. 求解步骤描述:概述求解的一般步骤,包括如何定义问题、确定变量、列出关键方程或约束、选择合适的求解策略和方法,以及如何验证结果的正确性。 3. 通用答案模板:根据上述分析,提出一个可以泛应用于此类问题的模板或方法,包括可能的变量、函数、类定义等如果是编程问题,提供一组基类和接口可用于构建具体问题的解决方案。 请确保你的回答高度简洁和结构化,以便具体解决方案可以转化为可推广的方法。 [可选]以下是思想模板的一些示例:(选择跨任务或-基于核心任务总结分析的任务范例。)
实验结果
更好的准确性、效率和鲁棒性
模型分析
消融研究
作者介绍
Ling Yang
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章