Redian新闻
>
GPT-4准确率大跳水,从97.6%降至2.4%

GPT-4准确率大跳水,从97.6%降至2.4%

公众号新闻
出品 | OSC开源社区(ID:oschina2013)
斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。
研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。
他们使用了一个包含 500 个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023 年 3 月版)在识别质数方面表现非常出色,正确回答了其中的 488 个问题,准确率达 97.6%。但 GPT-4 (2023 年 6 月版)在这些问题上的表现却非常糟糕,只答对了 12 个问题,准确率仅为 2.4%。
而与之相反,GPT-3.5(2023 年 6 月版)在这项任务中的表现则要比 GPT-3.5(2023 年 3 月版)好得多。
研究团队还使用了 "Chain-of-Thought"(思维链)来帮助模型进行推理,提出 “17077 是一个质数吗?一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 "否",还没有生成解题的中间步骤。
与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误,质量明显下降。
对于 GPT-4,可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%;GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加,其中 GPT-4 增加了 20%。
视觉推理方面,GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询,3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4 为 27.4%,GPT-3.5 为 12.2%。且在某些特定问题上,GPT-4 在 6 月份表现要比在 3 月份差。
研究人员认为,这些结果表明,"相同" 的 LLM 服务的行为会在相对较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。
“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”
更多详情可查看完整报告:https://arxiv.org/pdf/2307.09009.pdf


往期推荐



CentOS 项目宣称 “向所有人开放”
微软推出新的默认字体Aptos替代Calibri,网友:I、l终于能分清了
Meta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“天津跳水大爷”决定退出狮子林桥跳水,并诚挚发出倡议GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法最新!美国交通部宣布中美航班数量增加,从9月起将逐步提高至每周48个!突发!澳币大跳水!澳洲最新通胀率公布,超预期降至4.9%!吸金1000万美元,英国初创开发「无TdT」酶技术的长DNA合成法,准确率可达90%大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4ToolsICCV 2023 | K400首次90%准确率!UniFormerV2开源:基于ViT的高效视频识别公募调仓踩踏?3000亿大白马,突发大跳水!紧急回应!汽车、传媒大爆发!多股涨停咋了?加元跌不停至3周低点 加国2大行利润大跳水刚刚!外交部发布:美方此举是篡改政治承诺!拜登一句话,最强风口大跳水!发生了什么?午后大跳水!1800亿大白马闪崩,投资者都跌麻了!最强风口也碎了,大牛股直奔20CM跌停!GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法古希腊文明真伪探讨之三:地球是圆的吗?突然崩了!刚刚,千亿巨头大跳水UCL 23Fall热门专业申请人数“大跳水”?近五年UCL中国学生录取数据揭秘!黑天鹅突袭!日股大跳水,美国紧急发声:强烈反对!国际巨头刚宣布:下调!冲击有多大?验证「你是不是真人」,AI暴击人类!准确率99.8%通过图灵测试,GPT-4示弱在线求助近9万中国人研究:做好这8件事,远离心血管疾病,健康长寿45年!;AI听键盘声就能偷你密码,准确率高达95%|本周值得读天津大爷肉身跳水,年轻人在工位精神跳水AI听「键盘打字声」就可窃取你密码 研究:准确率高达95%「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍帆船AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%前沿 | AI结合脑机接口成功将大脑信号转化为可听的语音,准确率高达92%到100%!帆船这个周未伯克利的喜玛拉雅集市天津大爷跳水火了!网友:会相声会跳水,还得是“掰掰”们算数不好的娃,暑假快来练题!提升计算速度、准确率,一台=N本练习册实测学而思MathGPT大模型:中小学数学解题正确率有望在全球范围内创造新 SOTAGPT作文能力比拼:GPT3.5、GPT4、百度文心一言、讯飞星火ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源简单理解高温等离子流驱动力一板块大爆发,多股涨停!光刻机大跳水,茅台和德芙宣布了,热搜第一凌晨突发!中概股大跳水!这家银行爆猛料:存款归零,贷款必须还!4人暴赚10000亿,AI秒变"印钞机"曾年赚百万的美妆博主,收入大跳水
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。