Redian新闻
>
GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

GPT-4推理能力暴涨32%,谷歌新型思维链效果超CoT,计算成本可降至1/40

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4推理能力还能暴涨32%?

谷歌&南加大推出最新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。

与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40

核心策略其实很简单:千人千面

让大模型针对不同问题,提出特定的推理结构。完全不同于以往CoT等方法“千篇一律”的方式。

这种灵活应变的方式,更加贴近于人类的思考模式,也向着期待中的大模型思维方式更进一步。

大模型“千人千面”

一直以来大模型在处理复杂问题时都容易遇到困难,所以一些模拟人类思维能力的提示方法被提出。

最出名的就是思维链(CoT),它通过引导大模型“一步一步来”,让大模型能像人类一样逐步思考解决问题,最终带来显著性能提升。

还有分解法(decomposition-based prompting),它是让大模型将复杂问题拆解成一个个更小的子问题。

这类方法本身都能充当一个原子推理模块,对给定任务的处理过程做了先验假设,也就是让不同问题都套到同一个流程里解决。

但是不同方法其实都有更擅长和不擅长的领域。比如在解决涉及符号操作等问题时,分解法要优于CoT。

所以研究人员提出,对于每个任务,都应该有独特的内在推理过程,同时还不提高模型的推理成本。

自发现步骤架构由此而来。

它主要分为两个阶段。

第一阶段指导大语言模型从原子推理模块中进行挑选、调整、整合,搭建出一个可以解决特定任务的推理结构。

比如“创造思维”可能在创作故事任务上有帮助、“反思思考”可能对搜索科学问题有帮助等。大模型需要根据任务进行挑选,然后进一步调整并完成整合。

第二阶段输入实例,让大模型使用第一阶段发现的推理结构来生成答案。

通过在GPT-4和PaLM 2上进行实验,在BBH、T4D、MATH几个基准中,使用自发现步骤架构后,模型的性能都有明显提升。

在更细分的测试中,自发现步骤在需要世界知识的任务中表现最好,在算法、自然语言理解上超过CoT。

在处理问题的推理调用方面,自发现步骤需要的调用次数明显少于CoT+Self Consistency,而且准确性更高。

如果想要达到和自发现步骤同样的准确率,需要的推理计算量则是其40倍。

研究团队

本项研究由南加州大学和谷歌DeepMind联合推出。

第一作者是Pei Zhou,他现在正在南加州大学的NLP小组攻读博士。

两位通讯作者分别是Huaixiu Zheng和Swaroop Mishra。

Huaixiu Zheng此前参与过谷歌LaMDA工作,这是谷歌一个专攻对话的大模型。

Swaroop Mishra是谷歌DeepMind的研究科学家,它参与的Self-Instruct框架在GitHub上星标3.5k、被引用次数超过600,并被ACL 2023接收。

此外Quoc Le、Denny Zhou等大模型提示微调、推理方向的老面孔也参与其中。

虽然官方暂未开源,但已经有迫不及待的开发者根据论文自行复现了代码。

发现不仅适用于GPT-4和谷歌PaLM,连Mistral家泄露版模型Miqu上都能很好发挥作用。

论文地址:
https://arxiv.org/abs/2402.03620

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid一种常见的「抑郁型思维」,大多数人都有谷歌新一轮裁员:解雇数百名助理软件和公司其他部门员工波士顿市荣获‘有效城市认证’金奖,展现卓越数据治理能力我错过了硅谷房市的黄金期了吗?效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色双林奇案录第三部之鹤鼎莲方壶: 第二十五节Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了国企人员出国"猎艳"被策反!国家安全部披露详情!再次刷屏,谷歌中国籍工程师承认杀妻GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动刚刚,谷歌华人工程师被捕,他用谷歌电脑偷谷歌机密存到谷歌账号...马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!GLM-4国产大模型上线 称整体性能逼近GPT-4 降低推理成本OpenAI拟将ChatGPT军用?与五角大楼合作军事禁令解除,谷歌前CEO:AI会变成核弹大模型应用,最重要的是逻辑推理能力|面壁智能李大海@MEET2024发小斯坦福爆火家务机器人升级二代!双手稳到能偷钱包,成本降至19万AI破译2000年前「上古卷轴」登Nature头版!21岁计算机天才,谷歌华人工程师共获大奖谷歌新年第一裁!近1000人丢工作,横跨多个软件,硬件部门!吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!余永定:关于全球供应链效率和安全问题的一些思考谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5黄仁勋甩出最强AI核弹!GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR家长必备 孩子从游戏狂热到提升自我管理能力只需4步小红书推出新框架:负样本也能提升大模型的推理能力梅痕 再跟白九兄马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文国产RISC-V狂奔:端侧能跑大模型,AI计算成重头戏谷歌新一轮大裁员!俩同事正上着班突然电脑就重启了!连老板一起都被裁了!GPT感想有记说一个有关Open AI的Chat GPT 创投人和我家的小故事字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??觉得孩子不聪明,就给他找成功体验,培养他的“成长型思维”吧
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。