Redian新闻
>
当GPT-4反思自己错了:性能提升近30%,编程能力提升21%

当GPT-4反思自己错了:性能提升近30%,编程能力提升21%

公众号新闻
机器之心报道

机器之心编辑部

GPT-4 的思考方式,越来越像人了。

人类在做错事时,会反思自己的行为,避免再次出错,如果让 GPT-4 这类大型语言模型也具备反思能力,性能不知道要提高多少了。


众所周知,大型语言模型 (LLM) 在各种任务上已经表现出前所未有的性能。然而,这些 SOTA 方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间,优化模型实现起来还是比较难的。此外,模型还不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。


不过现在好了,在最近的一篇论文中,来自美国东北大学、MIT 等机构的研究者提出 Reflexion,该方法赋予智能体动态记忆和自我反思的能力。


为了验证方法的有效性,该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为 97% 和 51%。



论文地址:https://arxiv.org/pdf/2303.11366.pdf

项目地址:https://github.com/GammaTauAI/reflexion-human-eval


如下图所示,在 AlfWorld 环境中,房间里摆设了各种物品,要求让智能体给出推理计划以拿到某件物体,下图上半部分由于智能体低效的计划而失败。经过反思后,智能体意识到错误,纠正推理轨迹,给出简洁的轨迹方式(如图下半部分)。



模型反思有缺陷的搜索策略:



这篇论文表明,你可以通过要求 GPT-4 反思「你为什么错了?」并为自己生成一个新的提示,将这个错误原因考虑在内,直到结果正确,从而将 GPT-4 的性能提高惊人的 30%。



网友不禁感叹:人工智能的发展速度已经超过了我们的适应能力。



方法介绍

 

Reflexion 智能体的整体架构如下图 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由 LLM 生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。



在每个动作 a_t 之后,智能体会计算一个启发性函数 h,如下图所示



这个启发性函数旨在检测智能体产生信息幻觉(即虚假或错误的信息)或效率低下,并「告诉」智能体何时需要反思(reflexion),其中 t 是 time step,s_t 是当前状态,Ω 表示重复动作循环的次数,ε 表示执行动作的最大总数,[a_o, o_0 . . . , a_(t−1), o_(t−1)] 代表轨迹历史。repeat 是一个简单的函数,用于确定产生相同结果的重复动作循环的次数。


如果函数 h 告诉智能体需要反思,那么智能体会查询 LLM 以反映其当前任务、轨迹历史和上次奖励,然后智能体在后续试验中会重置环境再重试。如果函数 h 没有告诉智能体需要反思,那么智能体会将 a_t 和 o_t 添加到其轨迹历史记录中,并向 LLM 查询下一个动作。


如果如果启发式 h 建议在 time step t 时进行反思,则智能体会根据其当前状态 s_t、最后的奖励 r_t、先前的动作和观察 [a_0, o_0, . . . , a_t, o_t],以及智能体现有的工作存储 mem,启动一个反思过程。


反思的目的是通过反复试验帮助智能体纠正「幻觉」和低效率问题。用于反思的模型是一个使用特定的失败轨迹和理想的反思示例来 prompt 的 LLM。



智能体会迭代地进行上述反思过程。在实验中,该研究设置在智能体内存中存储的反思最多为 3 次,这是为了避免查询超出 LLM 的限制。以下几种情况,运行会终止:


  • 超过最大试验次数;

  • 未能在两次连续试验之间提高性能;

  • 完成任务。


实验及结果


AlfWorld 提供了六种不同的任务和 3000 多个环境,这些任务要求智能体理解目标任务,制定子任务的顺序计划,并在给定环境中执行操作。


该研究在 134 个 AlfWorld 环境中测试智能体,任务包括寻找隐藏物体(例如,在抽屉里找到水果刀)、移动物体(例如,将刀移到砧板上 ),以及用其他对象来操纵另一个对象(例如,在冰箱中冷藏西红柿)。 


在没有反思的情况下,智能体的准确率为 63%,之后加入 Reflexion 进行对比。结果显示,智能体在 12 次试验中能够处理好 97% 的环境,在 134 项任务中仅有 4 项没有解决。



接下来的实验是在 HotPotQA 中进行了,它是一个基于维基百科的数据集,包含 113k 个问答对,主要用来挑战智能体解析内容和推理的能力。


在 HotpotQA 的 100 个问答对测试中,该研究将基础智能体和基于 Reflexion 的智能体进行比较,直到它们在连续的试验中无法提高准确性。结果显示基础智能体并没有性能提高,在第一次试验中,基础智能体准确率为 34%,Reflexion 智能体准确率为 32%,但在 7 次试验后,Reflexion 智能体表现大幅改善,性能提升接近 30%,大大优于基础智能体。



类似地,在测试模型编写代码的能力时,加入 Reflexion 的 GPT-4 也显著优于常规的 GPT-4:




参考链接:

https://nanothoughts.substack.com/p/reflecting-on-reflexion

https://twitter.com/blader/status/1639728920261201921


探寻隐私计算最新行业技术,「首届隐语开源社区开放日」报名启程


春暖花开之际,诚邀广大技术开发者&产业用户相聚活动现场,体验数智时代的隐私计算生态建设之旅,一站构建隐私计算产业体系知识:

  • 隐私计算领域焦点之性

  • 分布式计算系统的短板与升级策略

  • 隐私计算跨平台互联互通

  • 隐语开源框架金融行业实战经验

3月29日,北京·798机遇空间,隐语开源社区开放日,期待线下面基。

点击阅读原文,立即报名。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型学好编程,常识逻辑能力一起提升!网友:GPT-4更强的关键所在?主播实测:不懂编程、8小时用ChatGPT做出游戏,证明会编程才能用好AI量子计算:后摩尔时代计算能力提升的解决方案法学生必备!合同审查能力提升资料.zip用量子纠缠当GPS,无信号地区也能精准定位了集成GPT-4的编程神器来了,GitHub发布Copilot X:编程30年,突然就不需要手敲代码了?!中俄携手共进!美国却从不去反思自己错在哪里​?ACM Fellow 郭宗杰:36年培养160余位博士,3/4反哺工业界!不同年龄阶段的孩子,编程怎么学?都有啥收获?张艺谋的《满江红》为啥这样红高通新骁龙7芯片或将到来,性能提升、谁将首发?连续创业者的洞见,编程的终结到来|前哨北外的知名英语教授市监局 工信部《关于促进企业计量能力提升的指导意见》编程能力超强、还支持 100 多种语言,谷歌将在开发者大会上发布“巨型巴德”PaLM 2加拿大开通新移民通道!技术难民与雇主配对!护工,编程,快递员等全适用7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍AI自动编码将上线!谷歌Colab硬刚Github Copilot,编程效率要翻天闲说跨年在墨西哥城 (4b) - 艺术宫壁画如何避坑?初创企业组织能力与领导力提升方法实现10倍应用性能提升的10个技巧每天少使用15分钟手机,可增强免疫、改善睡眠;让GPT-4自我反思:性能提升近30%,编程能力提升21%|本周值得读工信部部署开展5G网络运行安全能力提升专项行动GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样激烈!布碌仑房价又要飙升!而史岛则脱颖而出,飙升近33%!竞争白热化!紧急情况下的LUNA规则ChatGPT都能写代码了,编程教育是否还有价值?腾讯加入 AI 大战,首发国内最强显卡,性能提升 3 倍56 核心,多任务性能提升 120%! 英特尔推出全新至强 W-3400/2400 工作站处理器22~23岁末年初出行记8: 蒙特雷湾水族馆面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍当GPT开始连接“无声的世界”当GPT-4学会看图文,一场生产力革命已势不可挡硬核观察 #898 OpenAI 雇佣上千人改进 AI 的编程能力英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。