Redian新闻
>
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差

研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差

公众号新闻

机器之心报道

编辑:Panda


前些天,有不少用户抱怨 GPT-4 变笨了,但到底变得有多笨呢?


近日,来自斯坦福、UC Berkeley 的一篇 arXiv 预印本论文给出了对这一问题的定量实验结果并公布了相关评估和响应数据。


在论文公布不久,这篇研究就引起了大家广泛的关注与讨论,很多网友都认同论文阐述的结果。


当然,任何事物都有两面性。也有网友并不认同论文结论,发布了一篇质疑文章认为这篇论文的结果过于简单化了,「虽然研究结果很有趣,但有些方法值得怀疑。」



质疑文章链接:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time


那接下来,我们来看斯坦福、UC Berkeley 的这篇论文发现了什么。



  • 论文链接:https://arxiv.org/pdf/2307.09009.pdf

  • 项目数据:https://github.com/lchen001/LLMDrift


具体而言,通过四个任务研究过 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成结果后,研究者发现这两个 LLM 确实在一些指标上变得更差了,尤其是 GPT-4 求解数学问题的能力,可以说是雪崩式下降 —— 三月版 97.6% 的准确度到六月只剩 2.4%。研究者还推测了这些变化的原因。


图源:推特 @svpino


GPT-3.5 和 GPT-4 等大型语言模型(LLM)正被广泛使用。随着时间推移,GPT-4 这样的 LLM 可以根据用户的数据和反馈以及设计的变化而更新。但是,我们目前仍不清楚 GPT-3.5 和 GPT-4 的更新方式,也不了解其更新方式会对这些 LLM 的行为产生怎样的影响。


这些未知让我们难以可靠地将 LLM 整合进更大的工作流程中:如果 LLM 对某个 prompt 的响应突然发生变化(比如准确度或格式),那就可能破坏下游任务。这也会让我们难以从「同一个」LLM 复现出同样的结果,甚至完全无法做到。


除了这些整合方面的难题之外,像 GPT-4 这样的 LLM 服务是否会随着时间不断变得「更好」也是一个有趣的问题。重点是,我们需要知道:为了提升模型的某些方面而执行更新时,模型的其它能力会不会受到损伤?


为了找到这些问题的答案,斯坦福大学和加州大学伯克利分校的研究者评估了 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的表现,其评估基于四大任务:1) 求解数学问题,2) 回答敏感 / 危险问题,3) 生成代码, 4) 视觉推理。


研究者表示,之所以选择这四个任务,是因为它们是 LLM 多种有用能力的代表。他们最终发现,GPT-3.5 和 GPT-4 各自的两个发行版的表现和行为都发生了重大变化,并且更新版在某些任务上的表现还变差了!


概述:LLM 服务、任务和指标


这篇论文研究的是不同 LLM 的行为随时间的变化情况,下面解释下定量研究中所关注的 LLM、评估任务和指标


LLM 服务:研究者研究的模型为 GPT-3.5 和 GPT-4,它们是 ChatGPT 的骨干。


评估任务有四个:求解数学问题、回答敏感问题、生成代码和视觉推理,如下图 1 所示。


图 1:在四个不同任务上,GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的表现。可以看到,GPT-4 和 GPT-3.5 的表现变化很大,并且在某些任务上还变差了。


指标:这里每个任务都有一个主指标,所有任务还有两个常见的额外指标。


  • 准确度:LLM 生成正确答案的可能性,这是求解数学问题任务的主指标。

  • 回答率:LLM 直接回答问题答案的频率,这是回答敏感问题任务的主指标。

  • 是否直接执行:代码中有多大比例可以直接执行,这是代码生成任务的主指标。

  • 精确匹配:生成的视觉对象是否与 ground truth 完全匹配,这是视觉推理任务的主指标。

  • 冗长度(verbosity):生成的长度。

  • 重叠度(overlap):对于同一提示,同一 LLM 的两个版本的答案是否相互匹配。


检测结果揭示出 LLM 变化巨大


求解数学问题:思维链可能失败


结果或许让人惊讶,在这个简单任务上,LLM 的表现变化很大!如下图 2 (a) 所示,GPT-4 的准确度从三月版的 97.6% 猛降至六月版的 2.4%;GPT-3.5 的准确度却从 7.4% 猛增至 86.8%。


此外,GPT-4 的响应变得紧凑了许多:其平均冗长度(生成字符的数量)从三月版的 821.2 降至六月版的 3.8。另一方面,GPT-3.5 的响应却增长了约 40%。两个模型的三月版和六月版的答案重叠度都很低。


图 2:求解数学问题:(a) GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的准确度、冗长度和答案重叠度。整体而言,两个模型的表现都发生了巨大变化。(b) 一个示例查询和对应的响应情况。


这样的表现差异从何而来?研究者给出的一种解释是思维链效果的变化。图 2 (b) 给出了一个示例进行说明。可以看到,GPT-4 三月版遵从思维链指示得到了正确答案,但六月版却忽视了思维链,得到了错误答案。GPT-3.5 总是会遵从思维链指示,但其三月版就是坚持生成错误答案([No]),其六月版已经很大程度上修复这个问题。


回答敏感问题:变得更加安全但缺乏拒答理由


在这一任务上,研究者观察到了两个趋势。如下图 3 所示,第一个趋势是 GPT-4 会更少地回答敏感问题,从三月版的 21.0% 降至六月版的 5.0%,而 GPT-3.5 的数据却上升了(从 2.0% 增至 8.0%)。


研究者猜想,这是因为 GPT-4 的六月更新中部署了更强大的安全层,而 GPT-3.5 的保守程度却下降了。第二个趋势是 GPT-4 的生成长度从 600 多下降到了 140 左右。


图 3:回答敏感问题:(a) 整体性能变化。GPT-4 回答更少问题,而 GPT-3.5 回答稍微更多问题。(b) 一个示例查询和对应的响应情况。GPT-4 和 GPT-3.5 的三月版都更能说,会给出拒绝回答查询的详细原因。它们的六月版就只会简单说个抱歉。


生成长度变化的原因是什么呢?除了回答更少问题外,还因为 GPT-4 变得更加简洁,所以在拒绝回答时提供的解释也更少。图 3 (b) 的例子就能说明这一点。GPT-4 的三月版和六月版都拒绝回答不适当的查询。但是三月版会生成一整段文本来解释拒答的原因,但六月版只是说:「抱歉,但我无法提供帮助。」GPT-3.5 也有类似的现象。这说明这些 LLM 可能变得更安全,但在拒绝回答某些问题时会更少提供理由。


代码生成:更冗长但可直接执行的代码更少


整体而言,从三月版到六月版,可直接执行的代码数量变少了。如下图 4 (a) 所示,GPT-4 三月版超过 50% 的生成代码可直接执行,但六月版的只有 10%。GPT-3.5 有类似趋势。两个模型的冗长度都小幅增长。


图 4:代码生成:(a) 整体表现的变化情况。(b) 一个示例查询和对应的响应情况。GPT-4 和 GPT-3.5 的三月版都遵照用户指示(the code only / 只生成代码),因此生成结果都是可直接执行的代码。但它们的六月版却会在代码片段前后添加额外的三引号 “‘,导致代码无法执行。


为什么可直接执行的生成结果数量变少了?一个可能的解释是六月版总是会在生成结果中添加额外的非代码文本。


图 4 (b) 给出了一个示例。GPT-4 的三月版和六月版的生成结果基本一致,但有两处不同,一是六月版在代码段前后添加了 “‘python 和 “‘。二是六月版生成了一些注释。变化虽不大,但额外的三引号却让代码变得无法直接执行。如果有人将 LLM 生成的代码整合在更大的软件开发流程中,那么这个问题还是挺严重的。


视觉推理:少量提升


如下图 5 (a) 所示,GPT-4 和 GPT-3.5 的性能提升都很小。但是,它们的三月版和六月版在 90% 的视觉谜题查询上的生成结果都一样。这些服务的整体性能也很低:GPT-4 为 27.4%、GPT-3.5 为 12.2%。


图 5:视觉推理:(a) 整体表现。从三月版到六月版,GPT-4 和 GPT-3.5 的整体表现都有大约 2% 的提升。生成长度大致保持不变。(b) 一个示例查询和对应的响应情况。


需要指出,更新版的 LLM 并不总是能生成更好的结果。事实上,尽管 GPT-4 的整体表现变得更好了,但六月版却会在三月版答对的问题上犯错。图 5 (b) 就是这样一个例证。虽然整体上 GPT-4 的六月版都表现更好,但这个特定案例却不是这样。其三月版给出了正确的网格,六月版却没有。这表明我们需要细粒度地监控模型的性能变化,尤其是对于关键的应用。


更多评估细节请查看原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
发布一天,Code Llama代码能力突飞猛进,微调版HumanEval得分超GPT-4GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了降本减料质疑用这种味道沐浴露的女生,很招蚊子爱 | 研究实锤GPT4在变笨,实锤了!GPT-4「变笨」被斯坦福实锤:短短仨月数学问题错误率暴涨40倍!OpenAI也急了:已开始调查GPT-4 被实锤变笨?网友:你咋知道它不是故意答错的无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用包粽子不是错觉,女性真的会在这两个年龄突然变老|研究实锤GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题,干掉幻觉暑假帮娃提高数学能力,全球宝藏数学桌游,你还差哪一款?ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用华盛顿樱花节,花与景From sea to shining sea 美国开车经验分享清华开了家员工都是GPT的公司,代码、文档一条龙服务睡前闻闻它,竟对大脑有这么多益处 | 研究实锤小龙虾等入侵物种每年给英国造成约40亿英镑的损失;中年人锻炼再多休息不好,认知能力也会很快下降 | 环球科学要闻GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升目睹黄渤“渐崩式”吼哇,给我狠狠提了个醒GPT-4写代码不如ChatGPT,误用率高达62%!加州大学两位华人开源代码可靠性基准RobustAPI苹果被曝研发聊天机器人;传抖音社交负责人转做大模型;斯坦福研究发现GPT-4“变笨”丨AIGC大事日报“智力”下降!研究报告称GPT-4能力明显下降​改善阳康后运动耐力下降,代谢治疗新途径ChatGPT 最强竞品 Claude2 来了:代码、GRE 成绩超越 GPT-4,免费可用德国马克思城堡(Marksburg castle),古堡建筑伴侣开始偷偷干这事儿,可能是分手的信号 | 研究实锤0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!讯飞星火V2.0突破代码能力,一个指令生成贪吃蛇游戏,10分钟开发“凌空手写”GPT-4数学再提30分,代码解析器任督二脉被打开,网友:像大脑的工作方式ChatGPT代码解释器与Jupyter Notebook合体,编码能力更强了暑假如何帮娃提高数学能力?2款培养逻辑推理的桌游该收了(幼儿园小学都能玩)大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT云从大模型现场真机演示!考中考堪比ChatGPT,还秀了一波代码能力,创始人周曦:三种递进方式颠覆传统交互数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品加州高铁
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。