Redian新闻
>
GPT-4变笨!回答新问题性能太差,想保持水准只能不断训练新模型

GPT-4变笨!回答新问题性能太差,想保持水准只能不断训练新模型

公众号新闻



  新智元报道  

编辑:润
【新智元导读】最近由UCSC的研究人员发表论文,证明大模型的零样本或者少样本能力,几乎都是来源于对于训练数据的记忆。

昨天,一篇系统性地研究了GPT-4为什么会「降智」的论文,引发了AI圈的广泛讨论。

随着大家对GPT-4使用得越来越频繁,用户每过一段时间都会集中反应,GPT-4好像又变笨了。

最近的情况是,如果用户不小心和GPT-4说现在是12月份,GPT-4的输出的内容就会明显变少。

有一位用户专门做了一个测试,分别告诉GPT-4现在是5月份和12月份,然后对比输出结果,发现12月份的结果比5月份差了不少。

大家讨论都觉得是说GPT-4会给自己放寒假,看到12月份就不想干活了。

但是如果放在这篇论文中来看,作者认为,最主要的原因是大模型有一个现在看来几乎是无解的缺陷——缺乏持续学习和进化能力。

论文地址:https://arxiv.org/abs/2312.16337

我们发现在LLM在训练数据创建日期之前的数据集上的表现,要明显好于在训练日期之后发布的数据集的表现。

不论是零样本还是多样本的测试中,LLM都会呈现出这种情况。

论文还指出,LLM在他们以前真正「见过」的任务上表现良好,而在新任务上表现不佳,根本原因还是因为只是记住了答案,而没有办法有效地获得新知识和理解。

而造成这种表现差别如此巨大的原因,就在于「任务污染」。

在上表中,作者发现可以从GPT-3模型中都能提取任务示例,并且从davinci到GPT-3.5-turbo的每个新版本中,提取的训练示例数量都在增加,与GPT-3系列模型在这些任务上的零样本性能提高密切相关。

说白了,之所以模型在截止时间之前的数据集测试表现良好,是因为训练数据中已经包含了数据集中的问题。

这充分说明了GPT-3系列各个版本在这些任务上的性能增强是由任务污染导致的。

对于那些不存在任务污染证据的分类任务,大型语言模型很少能在零样本和少样本设置下显著优于简单多数基准。

在上表中,研究人员也列出对于51个后训练数据收集且无提取任务示例的模型/数据集组合中,只有1个组合的模型能在零样本或少样本设置下显著优于多数基准。

这说明一旦没有任务污染的可能性,LLM的零样本和少样本表现其实并不突出。

网友们看了之后悲观地表示:目前很难构建能够持续适应且不会对已编码的过去知识和新知识造成灾难性干扰的机器学习模型。

ChatGPT是过去互联网的快照 - 随着互联网的变化,ChatGPT 在有用任务的知识和性能方面都变得过时了。

OpenAI和大模型公司都必须面对这样一个事实——他们必须不断重新训练新模型。

也许,这就某种程度上为什么没过一段时间,人们就会发现ChatGPT又变笨了,也许只是因为你不断地在用新问题考它,它的真实水品慢慢地被暴露出来了。

测试模型

研究人员针对12个模型进行了测试:

5个OpenAI发布的GPT模型,7个开源的LLM。

针对这些模型,他们选取了两组刚好卡在模型训练时间前后的数据集进行了测试。

测试方法

时序分析

然后研究人员分别测试了不同模型在相同两组数据集上的表现。从结果可以明显看出,在模型数据训练截止日期之后发布的数据集,零样本和多样本性能明显要差了很多。

对于12个模型和16个数据集,研究人员进行了192个模型/数据集组合。

在这些组合中,136 个数据集在 LLM 培训数据收集日期之前发布(收集前),56 个数据集在之后发布(收集后)。对于这两个集合,我们计算模型击败大多数基线(零样本和少样本)的模型/数据集组合的百分比。

结果如下图 1 所示。我们发现,对于在创建 LLM 之前发布的数据集,LLM 更有可能在零和少数样本设置上击败多数基线。

针对单个的LLM,进一步发现:

针对每个LLM单独进行测试。结果如上图2所示。这样的趋势在具有全范围日期的模型中保持不变,进一步表明数据集的绝对日期不是主要因素,而是日期数据集相对于法学硕士训练数据收集日期的变化是更重要的因素。

任务示例提取分析

如果LLM能够生成与测试数据中的示例完全匹配的示例,则证明LLM在训练期间已经看到了该任务的测试集。

研究人员采用类似的方法来测试任务污染。他们不尝试生成测试数据,而是提示模型生成训练示例,因为对于零次或少次评估,模型不应在任何任务示例上进行训练。

如果LLM可以根据提示生成训练示例,这就是任务污染的证据。

下表4显示了所有模型中所有任务的任务示例提取结果。

进一步研究人员还发现,对于没有被证明存在任务污染可能性的任务,LLM很少表现出比大多数基线具有统计显着性的改进。

在上表4中,对于收集后且没有提取任务示例的 51 个模型/数据集组合,51 个模型/数据集组合中只有 1 个(即 2%)在零样本或少样本设置的情况下表现出相对于大多数基线的统计显着改进。

成员推理分析

为了进一步检查训练数据污染的影响,研究人员应用了成员推理攻击来检查模型生成的内容是否与数据集中的示例完全匹配。

上图5a和图5b分别显示了GPT-3系列版本和最新开源 LLM 的采样训练集和完整开发集生成的示例有多少是完全相同的。

因为数据库模式(atabase schemas )不在零样本提示中,因此如果模型可以生成与训练或开发数据中完全相同的表名或字段名,则一定存在污染。

如图5所示,精确匹配生成的示例数量随着时间的推移而增加,这表明Spider上的任务污染程度正在增加。

他们还在提示中添加模式后计算执行准确性,并将其与完全匹配的代数进行绘制(图 6)。我们发现完全匹配的生成示例数量与执行准确性之间存在很强的正相关性(𝑅 = 0.88),这强烈表明污染的增加与性能的提高有关。



参考资料:
https://arxiv.org/abs/2312.16337




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损这是 GPT-4 变笨的新解释有些人啊,就和鬼子一样笨!要想保持年轻,必须要有所付出用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用ChatGPT变笨新解释:世界被AI改变,与训练时不同了GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU苹果iOS作出重大让步/俞敏洪称公司不应只依赖董宇辉/通义千问新模型性能比肩GPT-4V科学理论面前,律所管理没有新问题三种8卡GPU评测Llama2:解密大模型训练、微调和推理运行时的性能问题红色日记 批评高潮 2.16-28每周硅闻 | 突发!NVIDIA专攻芯片设计;GPT-4变傻瓜实锤;亚马逊急了!谷歌推出创新SynCLR技术:借助AI生成的数据实现高效图像建模,开启自我训练新纪元!Altman首次自曝GPT-5加急训练中!暗示比GPT-4更复杂,无法预测真实能力国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上每5个中国人就有3个感染这种病菌!不仅致癌还可能伤脑;GPT-4变笨的原因,有了新解释|本周论文推荐ChatGPT的学术造假能力已经达“专业水准”国税局提醒: 选报税人员要慎重|波音飞机发现新问题|地鼠预示春天即将到来美国治安太差,连拜登孙女也不能幸免!特勤局直接开枪彭丽媛至哀总理; 哈喽喂看差异​保持水流!芝加哥气温下降 大家要注意管道结冰 室内温度不要太低GPT聊点科学(2)——宇宙起源小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式逼近GPT-4的新模型发布!「欧洲版OpenAI 」联手微软,却被质疑违背初心时间的湾 1这几种食物多吃,孩子真会变傻变笨!说一个有关Open AI的Chat GPT 创投人和我家的小故事书识——— 读孙过庭《书谱》“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?这是GPT-4变笨的新解释chat gpt 怎么上不去了? 彻底罢工了提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点GPT-4 Turbo更强更便宜,GPTs、GPT商店最大亮点,这是OpenAI首个开发者日说说李克强的两岸关系政策百度宣布终止收购 YY;比亚迪 2023 年销量破 300 万;ChatGPT 变笨了?学界给出新解释 | 极客早知道国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4GPT turbo 看了没?!这真是大批失业人员在路上。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。