Redian新闻
>
打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉

打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4变懒的问题,又有新进展。

就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!

关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:

完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。

对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。

但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加了,但是很多都是车轱辘话,干正事依旧摆烂。

他让ChatGPT把一些文本翻译成17种语言,结果叽里呱啦说了一堆就是不翻译。

为了消除个体差异,有网友用数据集测试了新的ChatGPT,结果……

新版反而更懒了?

这位网友用GitHub上开源的一套“lazy benchmark”测试了0125(24年1月最新版)和1106(23年11月的上一版)GPT-4模型,发现新版甚至还不如以前,变得更懒了。

这个测试数据集包含了与代码相关的任务,用正确完成的比例间接反应“懒惰”程度,完成率越高说明“惰性”越小。

结果,对于其中的代码比较(Unified diffs)任务,旧版能完成的比例尚且超过了一半,为57%,新版的完成率却仅有44%,降低了近四分之一。

直观感受上,也有人发现ChatGPT的“懒惰”变本加厉了——

以前就算偷懒至少还会糊弄一下,给出个大概的框架让用户自行补充,现在直接就是摆烂说自己干不了。

而针对网友们的这番发现,也有人给出了锐评:

几周之前奥特曼就说过GPT-4表现变好了,但是有人感觉到差别吗?

这次,关于GPT-4变懒的原因,以及到底采用了什么优化策略,奥特曼也未做进一步说明。

“土办法”可降低惰性

不过,之前的一项研究表明,GPT-4的惰性可能与时间相关,这一结论与GPT-4“变懒”的现象出现在年末的12月相吻合。

按照这一理论,新年伊始,模型的表现的确会有所提升,但似乎解释不了表现不升反降的现象。

不过,网友们也总结了一些“土办法”,能在一定程度上降低ChatGPT的惰性。

比如告诉它“我没有手指”,就能得到相对完整的代码,而不是一段段碎片。

又或者,告诉ChatGPT自己会“给小费”,也能激发它的工作动力。

甚至有人专门针对“小费”的金额进行了研究,发现10美元的性价比是最高的。

那么,你觉得ChatGPT是变好了还是更懒了?

参考链接:
[1]
https://twitter.com/sama/status/1754172149378810118
[2]https://aider.chat/docs/benchmarks-0125.html

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
公布秘密邮件、指控OpenAI沦为微软子公司…马斯克状告奥特曼,要求开源GPT-4!“哄哄模拟器”24小时爆火,70万网友在线哄赛博女友!10亿token一天烧完周杰伦诉网易一审败诉;奥特曼专访自曝全新GPT-5细节;东方甄选开设烤肠工厂直播间;小米回应测试车被指高速超时逃费...奥特曼倾情总结近40年人生,网友:你的“成功学”可不适合我“巴黎世家2300的发夹是镶钻了吗?”网友无语:戴上我能和奥特曼结婚吗!英伟达中国特供芯片遇冷:阿里腾讯看不上;苹果或6月发布生成式AI工具;OpenAI CEO奥特曼与男友在夏威夷秘密结婚丨AI周报买圣诞礼物,全美平均花975美元创新高,比去年多百元董明珠谈格力最大底气:不断有年轻人承载格力发展!去年招了三四千人,今年还会继续招好消息!由于美国国税局的新税率,2024年的退税可能会比去年更多,增幅可达10%!安安静静的日子,生日快乐刚刚!奥特曼放出来了GPT-5的内容:能力提升幅度超乎想象ChatGPT有记忆了!OpenAI官宣记忆功能开启测试,奥特曼称GPT-5更智能奥特曼最新万字访谈:GPT-5能力提升超乎想象,算力将成为未来最重要的货币“哄哄模拟器”爆火:70万网友在线哄赛博女友!10亿token一天烧完比去年多两倍!咬一口就四肢麻痹!安省蜱虫季提前:小心这种虫子奥特曼,10亿美元砸向AI芯片AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3GPT雪降下奥特曼回应一切:GPT-5、董事会宫斗、Ilya当时看到了什么GPT-5,奥特曼最新剧透GPT-5 即将面市!山姆 奥特曼最新剧透最美朝霞奥特曼专访自曝全新GPT-5细节:性能跃升超想象,算力足可达AGI!48岁佘诗曼,手持5套香港千万豪宅,不恋爱不结婚…网友:单身富婆的快乐果然难以想象!2023年江苏省投融资报告丨一级市场发生融资事件1462个,智能制造行业最热;65家企业完成IPO,比去年下降20%马斯克为何要起诉OpenAI奥特曼,AI爆火利好中美哪些板块?吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果说一个有关Open AI的Chat GPT 创投人和我家的小故事免费领 | 58岁的奥特曼,38部戏的剧情精华,一起回顾奥特曼带给我们的快乐!附英文版资源【唱坛好声音】《我的楼兰》- 叉总艾茶战队PK全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选奥特曼回应一切:GPT-5细节、董事会宫斗、Ilya当时看到了什么...2023美国华人黑五消费调查报告 | 超半数认为今年折扣比去年...重磅!ChatGPT放大招!GPT Store应用商店今天上线!超300万GPTs,内卷之下的赚钱机会!「哄哄模拟器」24小时爆火,70万网友在线哄赛博女友!10亿token一天烧完【囧事】写一写囧故事
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。