Redian新闻
>
ChatGPT变笨新解释:世界被AI改变,与训练时不同了

ChatGPT变笨新解释:世界被AI改变,与训练时不同了

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

对于ChatGPT变笨原因,学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出:

在训练数据截止之前的任务上,大模型表现明显更好。

论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出,大模型训练后参数冻结,人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化,就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答,其实是在训练时见过大多数常见任务。

随时间推移,人们开始提出更多新问题,AI表现就不行了。

比如对于代码问题,编程语言还在持续发展变化,迟早有一天效率会低到不可接受。

这是所有不具备持续学习能力模型的命运。

任务污染有多严重?

研究团队一共评估了12种模型,从ChatGPT之前的GPT-3系列、OPT、Bloom,到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题,也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难,闭源模型根本不会公布训练数据,大多数开源模型也只是生命了来源,而不发布数据本身。

如果研究者重新爬取互联网数据,也有可能与模型训练时相比发生了变化。

对此,团队采用4种方法来测量任务污染程度:

  • 检查训练数据:直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上,存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

  • 提取任务示例:通过调整提示词,让模型自己把训练数据中的任务示例背出来

从GPT-3 davinci-001版本到GPT-3.5-Turbo,这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例,绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据,但不代表问题不存在。

  • 成员推断(只适用于生成任务):检查模型生成的答案是否与原始数据完全相同

  • 按时间顺序分析:对于已知训练数据收集时间的模型,测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高,但召回率较低。如果在任务的训练数据中找到数据,则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小,使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低,容易受干扰因素影响。

特别是对于GPT-3系列,目前人们假设其能力提高来自于指令微调,但研究团队认为事实并非如此。

虽然在2021年之前的数据集上,davinci-002比davinci-001的性能有所提高,但在2021年之后的数据集上性能却相应下降,

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为:

  • 由于任务污染,闭源模型可能会在零样本或少样本评估中表现的比实际好,特别是经过RLHF微调的模型。污染的程度仍不清楚,因此我们建议谨慎行事。

  • 在实验中,对于没有任务污染可能性的分类任务,大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。

  • 随着时间推移,观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加,这可能是由于任务污染造成的。

  • 即使对于开源模型,检查训练数据的任务污染也很困难。

  • 鼓励公开发布训练数据,以便检查任务污染问题。

有人总结到:

  1. 用现有数据训练AI

  2. 人们过多使用AI,以至于改变了现实世界

  3. AI无法适应改变后的世界,变得低效

这是一个循环。

论文:
https://arxiv.org/abs/2312.16337

参考链接:
[1]
https://twitter.com/ChombaBupe/status/1741531065032798360

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
科学解释:为什么越无知的人越自信?GPT-4变笨!回答新问题性能太差,想保持水准只能不断训练新模型Linux 黑话解释:Linux 中的 Super 键是什么? | Linux 中国OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像ChatGPT Plus暂停新订阅;零一万物发布Yi-34B训练过程说明;面壁智能发布AI智能体SaaS产品丨AIGC大事日报一位看到上海万圣节的中年阿姨说:好想哭,又看到人了。AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3让改变发生,让改变促进改变,品格智造首发超柔性机器人实验平台重磅!ChatGPT放大招!GPT Store应用商店今天上线!超300万GPTs,内卷之下的赚钱机会!鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!突发!“ChatGPT 之父”Sam Altman 被开除,与董事会矛盾早有端倪?用了什么魔法,为啥我能把PPT变得那么“突出”?这是GPT-4变笨的新解释微软Copilot进化完全体,代码解释器、DALL·E 3,ChatGPT有的它都有李飞飞新书《我看到的世界》正式发售!忧心斯坦福没有训练ChatGPT算力,自称不是AI毁灭派百度宣布终止收购 YY;比亚迪 2023 年销量破 300 万;ChatGPT 变笨了?学界给出新解释 | 极客早知道曝理想汽车发超大年终奖,多位员工拿了8个月,李想回应;智界被曝独立已是板上钉钉;奔驰宝马在华建合资企业丨汽车早报ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议ChatGPT 超级进化一周:每天诞生上千个 GPT,全世界疯狂了一年的时间,ChatGPT是怎样改变世界的?Copilot 正在吞噬世界,与 ChatGPT 一起谁是你的同党!以色列和哈马斯的地道战为什么可怕?[日签] ​​​​​​今天的微小改变,会带来全然不同的明天。【数据】1.数据分析与数据解释:揭示并解释趋势OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源科学解释:为啥上班只是坐着,但这么累啊?!!?每5个中国人就有3个感染这种病菌!不仅致癌还可能伤脑;GPT-4变笨的原因,有了新解释|本周论文推荐这是 GPT-4 变笨的新解释ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?新旧文明社会制度的生死搏斗澳越来越多餐厅收取“服务费”!老板解释:不强迫,透明可取消我不会原谅把别人的痛苦当做笑谈的人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。