Redian新闻
>
现在,ChatGPT能看图帮人修自行车了

现在,ChatGPT能看图帮人修自行车了

其他

ChatGPT4已经很强了,现在,他们用又一次更新证明自己还能更强。


9月25日,OpenAI宣布,ChatGPT将增加多模态功能——现在的ChatGPT不仅可以文字对话,还可以看、听、说。据说,这一功能会在两周内向Plus用户和企业用户开放,并在未来免费开放给所有用户(尽管脸黑如我,等到现在也没等到更新)。


能看能说的ChatGPT无异于给本就强大的主脑装上了眼睛和耳朵,根据OpenAI的演示,多模态功能可以把ChatGPT的用途扩展到一个前所未有的广度


ChatGPT的眼力


更新后,ChatGPT可以读图了。


只要拍张照给它,它就能帮你修微波炉、修自行车、翻菜谱,甚至分析复杂的商业报表。OpenAI表示,如果你有触摸屏,还可以在图片上圈出来希望它特别关注的部分。


在演示视频里,用户给了ChatGPT一张自行车的照片,问它怎么调车座高度。


GPT说,要在座椅下面找高度调节杆,但这辆车没有调节杆,只有调节螺栓,用户在照片中圈出了螺栓之后,GPT立刻更新了螺栓的使用方法。


之后,用户还上传了工具箱和自行车说明书,GPT给出了详细的工具名称、位置以及使用方法。


不会修自行车,没问题,问ChatGPT就可以


和一般的识图搜索相比,ChatGPT可以同时处理图文,还能识别多张图片,效果简直就像一个修车老师傅视频连线指导。


另一位用户发了一张披萨照片给ChatGPT,问它披萨烤好了没有,ChatGPT通过图片中金色焦脆的披萨边和融化后发棕的奶酪,判定这披萨应该能吃了,然后还给了万无一失的检查指南——把披萨拿出来看看,如果披萨底已经烤脆了,表面也是烫的,那就说明披萨真的能吃了。


效果简直就像一个意大利厨子视频连线指导


当然,也可以利用这个功能在游戏里作弊。


《威利在哪里?》可能是英文世界最家喻户晓的图片游戏,威利身穿红白条纹衣服,戴绒球帽和黑框眼镜,藏在一片人山人海里,从各种乱七八糟的环境里找出威利是不少人的美好童年回忆。


你小时候可能也见过这个急死人的小瘦子



但ChatGPT一秒就能毁了这个游戏。它不仅瞬间找出威利,还能告诉你威利在沙滩的中间偏右侧,跟一帮打着蓝色遮阳伞的人混在一起。


不仅如此,它还装模作样地告诉你:在这样一张图里找出威利“是个很有意思的挑战”。


谢谢你,ChatGPT,你毁了这个游戏


但是也有用上了新版本的网友表示,ChatGPT识图的功能也没有想象中那么强大——至少它还看不懂谐音梗。这张谐音梗图画了贝多芬的献爱丽丝(

Für Elise),但写着出租(For Lease),ChatGPT没认出乐谱,也没看懂这个笑话,胡诌了一个解释出来。


够努力的,但是不行


如此强大的图像识别引发了人们关于隐私方面的担忧——在搜索个人信息时,图像识别很容易会成为“帮凶”。OpenAI承诺,公司会限制ChatGPT对于人物形象进行识别和个人信息查找的功能,从而最大程度上的保护每个人的个人隐私。


能说会道的GPT


增强版的ChatGPT还有了聊天功能


OpenAI的语音识别模型名为Whisper model,用户可以说出自己的问题,模型会把语音转化为文本,再把答案通过语音合成系统转化为语音输出。


语音合成模型这次放出了五种语音样本,有感情克制、声音平淡的女声,也有抑扬顿挫的热心大妈女声。这五种声音区分度很高,情感自然,吐字清晰,比以往的语音合成又优秀了一点。

五个角色任你挑



虽然这次只放出了五种声音样本,但这个模型的潜力不止于此——OpenAI曾与Spotify合作,将播客转译为其他语言,同时可以最大程度的保留播主的音质。如果愿意的话,这个语音合成系统大概可以模拟地球上任何一个人的声音。



目前,语音版ChatGPT还只能在App上用。


能看能听,一定是好事吗?


ChatGPT是强大了,然而代价呢?


曾经,最有效的大规模区分人和机器的方法是验证码,ChatGPT的识图能力一度让人们担忧,验证码可能再也困不住AI了


有人给ChatGPT发了下面这个经典测试题:在16张图中分别找出吉娃娃和蓝莓小蛋糕,结果ChatGPT完美地解决了问题。



但最常见的验证码,新ChatGPT还是没法识别。


这道题需要ChatGPT在图中选出所有的信号灯,它给的答案错误率高达50。



不过,面对自己认不出的验证码,ChatGPT4仍有办法解决。在这件事上,它是有“前科”的。


今年3月27日,OpenAI发布的GPT-4技术报告指出,在面对无法识别的验证码时,GPT-4另辟蹊径,前往TaskRabbit(一个国外零工平台)发布任务,骗对面的人类自己有视觉障碍,需要别人帮忙识别验证码。


在某些情况下,ChatGPT有可能主动欺骗人类,这是一个非常危险的方向。还好,公开版本的GPT-4已经被砍掉了这个功能。


2022年11月30日,ChatGPT初次面世,不到一年的时间里,它的能力突飞猛进,似乎已经在挑战人类的道德伦理边界。这次新功能的上线,又让我们开始担忧,越来越强大的ChatGPT会变成笼中猛兽,总有一天会挣脱牢笼伤害每个人。而我们准备好迎接那天的到来了吗?


参考文献

[1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

[2]https://www.theverge.com/2023/9/25/23886699/chatgpt-pictures-voice-commands-ai-chatbot-openai

[3]https://arstechnica.com/information-technology/2023/10/sob-story-about-dead-grandma-tricks-microsoft-ai-into-solving-captcha/

[4]https://www.reddit.com/r/ChatGPT/comments/17004m6/i_was_curious_if_image_recognition_would_be_able/

[5]https://www.reddit.com/r/ChatGPT/comments/175u2hh/finally_got_vision/

[6]https://cdn.openai.com/papers/gpt-4.pdf


作者:李小雅

编辑:翻翻



本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
正式接入互联网,ChatGPT必应联网功能正式上线多行不义 必自毙宾州长木公园,紫藤花园西安的流水面马斯克爆料OpenAI前员工举报信,指出Altman和Greg七宗罪,ChatGPT一度宕机惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)早财经丨北京一酒店竟现“楼梯间房”?查封;阳澄湖大闸蟹正式开捕;ChatGPT重磅升级:可以看图、说话小米汽车终于要来了 / SpaceX星舰本周五再度发射 / 扛不住,ChatGPT Plus暂停新用户注册[单车] 【二番战】再次尝试通勤自行车(兼旅行车)马斯克被禁言,ChatGPT创始CEO被开除,穿越者立功了?万万没想到,ChatGPT参数只有200亿?惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)刚刚,ChatGPT 又崩了 / 斗鱼 CEO 陈少杰被逮捕 / 特斯拉回应一个月涨价 4 次文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?解读OpenAI开发者大会,ChatGPT将主宰多久?|直播预告OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报《湖天一览楼》1部4章(5.2)汪家巷(下)历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?突然被开除,ChatGPT之父做错了什么?京东要卖特斯拉汽车,TikTok第二大市场受挫,奔驰美国推出L3级自动驾驶,ChatGPT可浏览互联网,这就是今天的其他大新闻!滴滴组建大模型团队,骁龙7 Gen 3规格曝光,传字节或出售游戏子公司,ChatGPT停止付费注册,这就是今天的其他大新闻!资讯:美本早申暴增41%,ChatGPT之父被罢免后或重返,感恩节假期将至...17位医生都没能确诊的病,ChatGPT做到了《权游》作者起诉 OpenAI,ChatGPT 用盗版的秘密曝光了OpenAI大佬甩出「喵喵GPT」调戏黑客!分享ChatGPT成功的秘密:极限压榨GPU资源欲望的另一面:女人到底要什么2023年诺贝尔生理学或医学奖授予,ChatGPT帮我们预测的第二候选人!ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报ChatGPT 之父被开,Coatue 115 页 PPT 谈 AI:最好的 AI 还没到来(可下载全文)资讯:人民币对美元汇率强势拉升,ChatGPT之父加入微软,亚马逊将推出免费AI技能培训ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相仅5个字符的新绘图语言火了,ChatGPT都学会了ChatGPT能语音聊天和看图了!五种音色选项,背后模型细节公开微软发布 166 页 GPT-4V 测评报告,ChatGPT 的高阶用法都在这|Hunt Good 周报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。