国际科技财经博客移民网络热点娱乐民生时事公众号

>

GPT-4作弊被抓！吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

GPT-4作弊被抓！吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

公众号新闻

2023-11-13 11:11

梦晨发自凹非寺
量子位 | 公众号 QbitAI

GPT-4解决网络名梗“吉娃娃or蓝莓松饼”，一度惊艳无数人。

然鹅，现在它被指出“作弊”了！

全用原题中出现的图，只是打乱顺序和排列方式。

结果，最新版全模式合一的GPT-4不但数错图片数量，原来能正确识别的吉娃娃也识别出错了。

那么为什么GPT-4在原图上表现的这么好呢？

搞这项测试的UCSC助理教授Xin Eric Wang猜测，原图在互联网上太流行，以至于GPT-4在训练时多次见过原答案，还给背了下来。

图灵奖三巨头中的LeCun也关注此事，并表示：

警惕在训练集上测试。

泰迪和炸鸡也无法区分

原图究竟有多流行呢，不但是网络名梗，甚至在计算机视觉领域也成了经典问题，并多次出现在相关论文研究中。

那么抛开原图的影响，GPT-4能力究竟局限在哪个环节？许多网友都给出了自己的测试方案。

为了排除排列方式太复杂是否有影响，有人修改成简单3x3排列也认错很多。

有人把其中一些图拆出来单独发给GPT-4，得到了5/5的正确率。

但Xin Eric Wang认为，把这些容易混淆的图像放在一起正是这个挑战的重点。

终于，有人同时用上了让AI“深呼吸”和“一步一步地想”两大咒语，得到了正确结果。

但GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”，也暴露了原图确实可能存在于训练数据里。

最后也有人测试了经常一起出现的“泰迪or炸鸡”测试，发现GPT-4也不能很好分辨。

但是这个“蓝莓or巧克力豆”就实在有点过分了……

视觉幻觉成热门方向

大模型“胡说八道”在学术界被称为幻觉问题，多模态大模型的视觉幻觉问题，已经成了最近研究的热门方向。

在EMNLP 2023一篇研究中，构建了GVIL数据集，包含1600个数据点，系统性的评估视觉幻觉问题。

研究发现，规模更大的模型更容易受到错觉的影响，而且更接近人类感知。

另一篇刚出炉的研究则重点评估了两种幻觉类型：偏差和干扰。

偏差指模型倾向于产生某些类型的响应，可能是由于训练数据的不平衡造成的。
干扰则是可能因文本提示的措辞方式或输入图像的呈现方式造成去别的场景。

研究中指出GPT-4V一起解释多个图像时经常会困惑，单独发送图像时表现更好，符合“吉娃娃or松饼”测试中的观察结果。

流行的缓解措施，如自我纠正和思维链提示并不能有效解决这些问题，并测试了LLaVA和Bard等多模态模型存在相似的问题。

另外研究还发现，GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。

比如GPT-4V能正确数出七个小矮人+白雪公主，却把七个葫芦娃数成了10个。

参考链接：
[1]https://twitter.com/xwang_lk/status/1723389615254774122
[2]https://arxiv.org/abs/2311.00047
[3]https://arxiv.org/abs/2311.03287

— 完 —

「量子位2023人工智能年度评选」企业申报倒计时！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！扫码参与评选 ⬇️

MEET 2024大会即将开启报名！点此了解详情。

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

LeCun和xAI联创对呛，GPT-4重大推理缺陷无解？网友：人类也是「随机鹦鹉」LeCun引战，LLM根本不会推理！大模型「涌现」，终究离不开上下文学习北欧的囚犯，正在训练AI chat gpt 怎么上不去了？彻底罢工了图灵奖得主LeCun：为什么未来几年AI更可能变得像狗一样聪明，而不是人类？1个token终结LLM数字编码难题！九大机构联合发布xVal：训练集没有的数字也能预测！高达25%！中国留学生本科退学率惊人，81%学生因作弊被开除！浙江东湖，水中乌篷船雷军辟谣冰冷的40亿：人生不是爽文；普华永道上千员工涉培训考试作弊被罚700万美元；腾讯“小世界”将更名为“QQ短视频”丨邦早报开放模型权重被指将导致AI失控，Meta遭举牌抗议，LeCun：开源AI社区如火如荼纽大具身智能新进展：靠视觉反馈学会开罐头，任务成功率提高135%，LeCun点赞土耳其以弗所(Ephesus)，海中城堡自动驾驶独角兽如此造假，LeCun都服了 AI搜索引擎再吸金5.28亿，英伟达贝佐斯入股，LeCun一众大佬夹道祝贺！网友：干翻谷歌图灵奖得主吵起来了，LeCun：Bengio、Hinton等的AI灭绝论是荒谬的吴恩达加入图灵三巨头混战，炮轰Sam Altman：AI监管「不会管不如不管」，LeCun转赞神秘的大杂院（十）石匠的婚事猿视角: xxn作弊被抓, 拍女监考员骂媚男只收女小抄, 害惨同学被全校通缉!AI读脑成真，延迟仅0.25秒！Meta里程碑新研究：MEG实时解码大脑图像，LeCun转赞 Hinton和LeCun再交锋，激辩LLM能否引发智能奇点！LeCun：人类理解能力碾压GPT-4 卷积网络又行了？DeepMind推翻Transformer最强传说，LeCun怒赞 11月必看！“新世界三大男高音”Juan Diego Flórez首次亮相澳洲！暗恋【案例】伊利诺伊香槟分校考试作弊被抓，如何申诉？红色日记金训华 12.1-15 【案例】Chegg作弊被抓，不要以为自己可以“瞒天过海”斯坦福公开十大主流模型透明度！Llama 2位列第一，GPT-4透明差，LeCun炮轰：盈利完全理解时间的湾 1 华裔小哥再获融资7360万美元！天才程序员联合创办，LeCun大佬纷纷站台 GPT-4不知道自己错了！ LLM新缺陷曝光，自我纠正成功率仅1%，LeCun马库斯惊呼越改越错生成模型构建交互式现实世界模拟器，LeCun觉得非常酷 AI实时解读大脑信号，7倍速还原图像关键视觉特征，LeCun转发 UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了违背直觉！打乱字母顺序，GPT-4竟能完美复原......GPT turbo 看了没？！这真是大批失业人员在路上。《自然》确认：牛羊肉的这种成分可以抗癌；GPT-4作弊被抓｜本周论文推荐研究称AI绘画碳排放仅为人类画家1/2900，LeCun转发实测腾讯AI文生图！王者荣耀画风一键直出，小程序就能玩

热点事件追踪