Redian新闻
>
GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

GPT-4写代码能力提升21%!MIT新方法让LLM学会反思,网友:和人类的思考方式一样

公众号新闻
Pine 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4再度进化!

加上一个简单方法,就能让GPT-4这类大语言模型学会自我反思,性能直接提升30%

在此之前,大语言模型回答出错,经常是二话不说,直接先道歉,然后emmmmmm,继续乱猜。

现在,它不会这样了,有了新方法的加成,GPT-4不仅会反思自己哪里错了,还会给出改进策略。

比如说它会自动分析为什么“陷入循环”:

或者说反思一下自己有缺陷的搜索策略:

这是美国东北大学联合MIT发表的最新论文中的方法:Reflexion

不仅适用于GPT-4,也适用于其他大语言模型,让它们学会人类特有的反思能力。

目前该论文已经发表在预印平台arxiv上。

这把直接让网友直呼“AI进化的速度已经超过我们适应的能力了,我们要被毁灭了。”

甚至有网友为开发人员发来“饭碗警告”:

用这种方法写代码的时薪是要比普通开发人员便宜的。

利用二元奖励机制实现反思

正如网友所言,Reflexion赋予GPT-4的反思能力和人类的思考过程差不多:

可以简单用两个字来概括:反馈

在这个反馈过程中,又可以分为三大步:

  • 1、评估:测试当前生成答案的准确性

  • 2、自我反省的产生:错误识别——实现修正

  • 3、执行一个迭代反馈循环

在第一步评估的过程中,首先要经历的是LLM(大语言模型)自我评估

也就是说LLM在还没有外部反馈时,首先要自己对答案进行反思。

那如何进行自我反思?

研究团队使用了一个二元奖励机制,为LLM在当前状态下执行的操作赋值:

1代表生成的结果OK,0则表示生成的结果不太行。

而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制,原因和没有外部输入有关。

要在没有外部反馈的条件下进行自我反思,必须将答案限制在二元状态下,只有这样,才能迫使LLM做出有意义的推断。

在自我评估结束之后,如果二元奖励机制输出为1,则不启动自我反思装置,若为0,LLM则会开启反思模式。

在反思的过程中,模型会触发一个启发性函数h(如下),类比人类思考过程,h起到的作用就像是监督一样。

不过,同人类思考一样,LLM在反思的过程中同样也有局限性,这在函数中的Ω和ε中就能体现。

Ω表示重复连续动作的次数,一般会将这个数值设置为3,这表示反思过程中若重复一个步骤三次,会直接跳到下一个步骤。

而ε则表示在反思的过程中允许执行的最大操作数量。

既然有监督,那修正也必须执行,修正过程的函数是这样子的:

其中,自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的,并不允许访问数据集中给定问题的特定领域的解决方案。

这样一来,LLM在反思的过程中便能够迸发出更多有“创新性”的东西。

反思之后性能提升近30%

既然GPT-4这类LLM都能够进行自我反思了,那具体效果究竟如何?

研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。

在HotpotQA的100个问答对测试中,使用Reflexion这种方法的LLM显示出了巨大的优势,再经过多轮反思重复提问之后,LLM的性能提升了接近30%。

而没有使用Reflexion,在重复问答之后,性能没有任何变化。

在HotpotQA的134个问答对测试中,可以看出在Reflexion的加持下,LLM经过多轮反思后,准确率一度达到97%。

在另外一篇博客中,团队成员也晒出了他们这种方法在GPT-4上的效果,测试范围是编写代码。

结果也显而易见,用了Reflexion,GPT-4的编程能力直接提升了21%。

关于GPT-4已经会“思考”了,你怎(huang)(le)(ma)

论文地址:
https://arxiv.org/abs/2303.11366
参考链接:
[1] 
https://nanothoughts.substack.com/p/reflecting-on-reflexion
[2] https://www.reddit.com/r/MachineLearning/comments/1215dbl/r_reflexion_an_autonomous_agent_with_dynamic/

3月29日「中国AIGC产业峰会」

抢票开启

「中国AIGC产业峰会」定档3月29日,线下会场抢票开启!

百度袁佛玉、智源林咏华、澜舟科技周明、小冰徐元春、科大讯飞高建清、启元世界袁泉、云舶科技梅嵩、特赞王喆、微软关玮雅、源码资本黄云刚、元语智能朱雷、无界Ai马千里、Tiamat青柑、峰瑞资本陈石等来自产学研界大咖嘉宾,还有重磅嘉宾陆续确认中。

扫描下方二维码,报名峰会线下会场啦~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍帮助老海归进步NNLM、RNNLM、LSTM-RNNLM、Bi-lstm、GPT-1…你都掌握了吗?一文总结语音识别必备经典模型(一)AI编程成本只有人类程序员的万分之一,速度却快了10000倍,再雇人类来写代码就离了大谱?这10个春晚小品,经典看不厌!60行代码就能构建GPT!网友:比之前的教程都要清晰|附代码由ChatGPT反思大语言模型(LLM)的技术精要Gpt 4一出,谁与争锋英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM修改几行代码就让LLM应用提速100多倍!这个团队两周搭建ChatGPT缓存层,曾被老黄OpenAI点赞蒸馏也能Step-by-Step:新方法让小模型也能媲美2000倍体量大模型二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开不写代码,拿百万年薪!ChatGPT提示工程或造就15亿码农大军GPT每天少使用15分钟手机,可增强免疫、改善睡眠;让GPT-4自我反思:性能提升近30%,编程能力提升21%|本周值得读亚马逊已在多种工作职能中使用ChatGPT,包括编写代码等ChatGPT 带火“提示工程师”,不用写代码也能年薪数百万?How does the Chinese communist party work?写周报、改代码,连续互动20轮,国产类ChatGPT新玩家「天工」来了(赠邀请码)43岁蔡依林“全裸”开演唱会?身材惊到网友:这是不打码能看的?研究发现ChatGPT能影响人类的道德判断;科技部拟颁科技伦理审查办法:涉及人类胚胎、个人信息需审查|环球科学要闻无需写代码能力,手搓最简单BabyGPT模型:前特斯拉AI总监新作北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%当GPT-4反思自己错了:性能提升近30%,编程能力提升21%小海龟们最爱吃西餐韦神出的这道题火了,GPTChatGPT能取代人类吗?| 人类的终极问题GPT-4推理提升1750%!普林斯顿清华姚班校友提出全新「思维树ToT」框架,让LLM反复思考云从大模型现场真机演示!考中考堪比ChatGPT,还秀了一波代码能力,创始人周曦:三种递进方式颠覆传统交互LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力家用拖把比你想象中脏多了!正确清洁方式一定要学会Nature:把ChatGPT用于科研的读者中,最多的竟是“头脑风暴,写代码、报告文稿、文献综述或研究论文”!GPT-4 Copilot X震撼来袭!AI写代码效率10倍提升,码农遭降维打击东兴证券被立案,因这个项目未勤勉尽责!最新回应:将认真反思,提升执业质量GPT-4 Copilot X 震撼来袭!AI 写代码效率 10 倍提升,码农遭降维打击最好看的警匪片《黑雨》ChatGPT迅速学会下棋精髓,把人类给整不会了,网友:这哪预判得了?如何避坑?初创企业组织能力与领导力提升方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。