Redian新闻
>
性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理

性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理

科技


©PaperWeekly 原创 · 作者 | 邹安妮
单位 | 上海交通大学
研究方向 |NLP,大模型推理

大语言模型(LLMs)通过思维链(CoT)提示技术,生成中间推理链作为得出答案的依据。然而,当前的 CoT 方法要么采用简单的通用提示(例如“让我们一步一步思考”),要么依赖人工制定且任务特定的样本示例来获得更好的性能,从而在性能通用性之间产生了巨大的鸿沟。为了弥补这一鸿沟,本文提出了 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。


论文标题:

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

论文链接:

https://arxiv.org/pdf/2310.06692.pdf

代码链接:

https://github.com/Anni-Zou/Meta-CoT




引言


大语言模型(LLMs)凭借思维链(CoT)提示在复杂推理方面表现出了优越的能力。CoT 提示需要生成中间推理链,作为得出答案之前的基本依据。目前的 CoT 提示方法主要分为两类,我们分别称为 General Zero-Shot-CoTSpecific Few-Shot-CoT。前者利用“让我们一步一步思考”等一般性提示,将其直接附加到输入问题中,旨在唤醒 LLMs 的逐步推理潜力;后者提供特定于任务的输入输出对作为样本示例,并将它们放在输入问题之前,目的是引导 LLMs 通过模仿学习样本示例来进行多步推理。

然而,当前研究主要存在两个局限性:1)General Zero-Shot-CoT 由于不需要任何与任务相关的样本而具有良好的泛化能力,但与 few-shot 模式相比,它在性能方面往往相形见绌;2)Specific Few-Shot-CoT 严重依赖于任务特定的样本示例来获得优越性能,但无法提供良好的泛化能力。

在实际应用中,LLMs 通常不知道用户会输入什么样的问题(区别于现有的针对每个特定任务的测试集进行测试的情况),因而难以为每种类型的问题预先准备上下文提示。因此,研究自动适用于各种类型问题的提示技术具有重要意义。

为了弥合性能通用性之间的差距并提高 CoT 提示技术在实际场景中的应用价值,本文提出 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。Meta-CoT 不仅在 10 项推理任务上取得出色的性能,而且具有卓越的泛化能力。其在 SVAMP(93.7%)上取得了最先进的结果,而无需任何额外的程序辅助方法。



方法


Meta-CoT 由三个阶段组成:

1. 场景识别(Scenario Identification):利用现成公开的推理数据集,根据<类别,形式>的划分策略获得含多个数据组的混合问题池,随后从每个数据组中随机采样一个问题,组合之后将其作为上下文样本示例,用以辅助 LLMs 对输入问题进行自动场景分类;

2. 样例选择(Demonstration Selection):根据阶段(1)得到的场景,通过对问题进行编码和聚类的方法,从相应的场景数据池中获得最具代表性的问题,从而构建多样化样例;

3. 答案推导(Answer Derivation):使用阶段(2)获取的多样化样例对输入问题执行最终答案推导。





实验结果


我们对 10 个分布内推理任务进行了实验,涵盖算术推理、常识推理和符号推理。此外,我们还在 5 个分布外数据集上验证了 Meta-CoT 的稳定性和泛化性:

1. Meta-CoT 在 SVAMP 上实现了无需任何额外的程序辅助方法的最优结果 (93.7%)。 此外,即使缺乏来自 GSM8K 数据集的上下文示例,Meta-CoT 在 GSM8K 上也能达到优越的性能 (93.6%)。

2. Meta-CoT 在保持良好稳定性的同时,还能实现不错的性能。这些结果证明,Meta-CoT 适用于输入数据没有特定类型定义的实际情况,具备良好的实际应用价值。 


3. 为了进一步探讨在实现通用性中起着关键作用的场景识别(scenario identification)阶段的效果,我们去除了这个阶段,并采用一种理想化的策略:即假设模型被赋予了正确场景。结果表明,即使给出正确的场景,也只能实现细微的改进 (70.2% → 70.6%)。这表明 Meta-CoT 潜在激发了 LLMs 在无需人工干预下的自我决策能力。






本文总结


在这项工作中,我们首先提出了一个具有重要应用价值的新场景,即输入问题类型未知的混合任务场景。在这一具有挑战性的场景下,我们提出了可通用的思维链提示方法:Meta-CoT。在 15 个分布内和分布外推理数据集上的结果表明,Meta-CoT 在达到优越性能的同时还享有良好的泛化能力。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
回国日记(12)晚讯 |我国全球首个先天性耳聋基因疗法获重大突破、《科学》特刊4文揭示:下丘脑虽小但功能强劲自适应流媒体智能传输优化研究直播预告 | ACL 2023原作解读:自查纠错—知识增强的思维链框架我的味蕾浸润在朴素的美食中哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展谷东科技 崔海涛:如何选择工业AR场景下的最佳光学技术方案To respond Min Zhang's song of game tea一石二鸟:自适应环境能量收集 | NSROpenAI科学家Jason Wei专访:思维链灵感来源于冥想丨智源独家ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶MetaMath:新数学推理语言模型,训练大模型的逆向思维高并发场景下的 HttpClient 优化方案,QPS 大大提升!ICCV 2023 | DomainAdaptor:测试阶段自适应新方法高密无线技术 | 提升高密办公场景下的空口利用率?有锐捷无线的“干净空口”技术5140 血壮山河之武汉会战 信罗战役 13一周国际财经|股价一夜狂飙40倍!肝癌三联治疗法究竟有多厉害?ChatGPT下月或迎重磅升级;星链推出直连手机业务Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理厉害了,meta m2改行修车年薪百万高密无线技术 | 解密Wi-Fi高密办公场景下的三V体验保障OpenAI科学家Jason Wei专访:思维链灵感来源于冥想潘天佑博士:竞合背景下的“成长型思维” | 深度观点思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了ETH等提出思维图(GoT)超越思维链(CoT): 用LLMs解决复杂问题!大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoTVLDB顶会论文解读 | PolarDB MySQL高性能强一致集群核心技术详解WACV 2024 | SAFA:高效时空视频超分辨率的尺度自适应特征聚合CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用升级混合现实体验!Meta Quest 3 MR功能的方方面面​CIKM 2023 | 为序列推荐引入自适应以及个性化全局协同信息的通用框架夏日非凡的一天,IMAX70mm及其它图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据美股上涨动能强劲,年内可能再创新高ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。