Redian新闻
>
大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题,一个没做对:

读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”

但是呢,这种人类乍一看绝对会错的图,它又成功答对:

以及这样的错位图,它对了又没完全对。。

(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)

看完这些,是不是觉得很迷?

整个一“该对的不对,该错的又对了”。


测试者则表示:

在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。

不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!


所以,这到底怎么回事?

GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

(1)除了开头的两颗小树图,还有这个:

问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。

(2)还有这张稍微复杂一点的:

两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。

(3)这张就更别提了,直接被糊弄地死死的。

当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色

其次是会产生动态错觉的图。

(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。

(2)这张也没有难倒它。

但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。

接下来是另一类比较平面的错觉图。

(1)如开头所示的这张:

一般人类真的表示很懵圈,但是GPT-4V居然对了。

But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。

然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。

大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。

总的来说,对于这种错觉陷阱是完全没问题。

(2)我们自己也测了一个长度错觉题:

结果是so easy~

再来一组找隐藏信息的图。

很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。

(1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。

(2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。

它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。

不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。

最后是一组真实世界的错位图。

(1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。

(2)这张惊悚图,也OK。

(3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。

(4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。

为什么会这样?

所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?

首先,对于颜色错觉的图,网友首先认为是提示词的问题。

就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。

我们自己的测试也是如此:

但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。

不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。

甚至有网友还用测色计实测了一把:


但!又有人指出如果只显示一部分时,两者明明一样。

暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。

另外,网友发现:

如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答

至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。

即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。

因此,还有人戏谑:

看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。

(手动狗头)

你认为该如何让GPT-4V的错觉识别能力更强呢?

One More Thing

值得一提的是,我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。

比如这张判断球颜色的:

还有这个:

尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。

参考链接:
[1]
https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一次美国小学的家长会,简直让我大跌眼镜...微软发布 166 页 GPT-4V 测评报告,ChatGPT 的高阶用法都在这|Hunt Good 周报比Siri更懂iPhone!GPT-4V可“操作”手机完成任意指令,无需训练乾隆皇帝真实长相,被意大利画家偷偷画下,颜值让人大跌眼镜GPT turbo 看了没?!这真是大批失业人员在路上。《华尔街日报》2024全美最佳大学发布!排名结果大跌眼镜!纽大才排166?“假期抢票大作战实录?”救命我已经在哭了...连葫芦娃都数不明白,解说英雄联盟的GPT-4V面临幻觉挑战“无聊报个警玩”?民警核实身份后大跌眼镜!竟报假警70多次……ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?美国学校教娃躺平?华裔妈妈:​一场家长会让我大跌眼镜...这2种食物提高大肠癌风险…它让人大跌眼镜!现场惊人! 特斯拉Cybertruck首例严重车祸 与丰田正面相撞 结果大跌眼镜!ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相《军营飞来一只白灵》&《我想我是海》chat gpt 怎么上不去了? 彻底罢工了在麻州没有开车上路却收到罚单!原因让人大跌眼镜千不该万不该,不该和潮汕人斗茶……(福建人:下战书!6002 血壮山河之随枣会战 “和平运动 ”2冷却的不止季节(106)— 提醒挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩那些好色的女贪官!大跌眼镜!MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务大跌眼镜!锻炼可能不是长寿的关键,它甚至可能加速你的衰老挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标有钱的加拿大人大跌眼镜,澳洲移民大改!考虑对这些人大赦?大跌眼镜!哈马斯不小心说了实话……澳洲麦当劳经理真实薪资曝出,众人跌破眼镜!澳洲小众高薪职业,时薪高达$300,不过华人却不太乐意干...大跌眼镜!澳洲大学不再吃香:多州大学人数下降!时间的湾 1U.S. News发榜前夕,四大美国高校排名抢先出炉,让人大跌眼镜想象的翅膀刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!澳华女员工擅自转走$20万公款,被公司告上庭,反诉竟大获全胜!个中内情大跌眼镜书籍推荐 | 好莱坞也在“抄”,《长相思》以她为原型,央视为她拍纪录片:这部国产大作我们不该错过!大跌眼镜!英国树丛惊现女性遗骸,警方侦查30小时结果竟是…我给两个孩子测了下智商,结果大跌眼镜:学啥都慢半拍的老二居然有140……
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。