国际科技财经博客移民网络热点娱乐民生时事公众号

>

ChatGPT多模态解禁，网友玩疯！拍图即生代码，古卷手稿一眼识别，图表总结超6

ChatGPT多模态解禁，网友玩疯！拍图即生代码，古卷手稿一眼识别，图表总结超6

公众号新闻

2023-09-29 06:09

新智元报道

编辑：桃子

【新智元导读】ChatGPT多模态能力终于可以尝鲜了！

这周三，OpenAI刚刚宣布解禁ChatGPT多模态能力。

如今，一上线，网友们瞬间玩疯了。

接下来，一起看看，ChatGPT的识图能力，究竟有多强？

拍照传图，即生代码

一位网友录制了一段上传开会时的一张白板图，然后让ChatGPT写出代码。

还有，你可以上传一张手绘的草稿图，然后要求ChatGPT在HTML创建网页。

嗖嗖嗖，代码分分钟都出来了。

这简直就是，今年GPT-4刚刚发布时，Greg Brockman所展示的多模态能力。

再比如，把你的to do list本子拍一张照片。

然后让GPT-4做一个Python Tkinter GUI，然后就实现了...

古卷手稿，一眼转译

再来一张来自17世纪的炼金术师Robert Boyle的手稿图，GPT-4能不能读懂它？

这简直对它来说，小菜一碟。

在比如「加泰罗尼亚语关于药用木乃伊的药物手册」。

ChatGPT同样能够转录并翻译出来。

来自UCSC的历史学副教授Benjamin Breen表示，

这将对历史学家产生重大影响。试想一下，一个定制的多模态GPT-4可以对一组特定的手稿进行训练。它不仅可以转录，还可以翻译和分类。(正是这一点，不使用LLM进行写作，在我看来才是一件大事）。

图表总结也很6

你还可以命令GPT-4根据图表提取数据。

然后可以创建Python代码来复制图表，让它更像图表。

再把股票趋势图丢给它，还能分析总结特征。

识图「智商超群」

给GPT-4一张抽象的图。

它竟然可以准确的识别出这4张图想表达的「沟通的重要性」的隐喻，这也太离谱了。

GPT-4V甚至可以阅读医生的字迹。

还有日本网友直接用「七龙珠」中孙悟空考ChatGPT了。

还有各种「你是不是人」的验证码。

上传一张自己的作品，GPT-4还能为你提出改进建议。

还有网友发现，GPT-4V对kosmos-1论文中的这道题给出了正确答案，但推理过程却出现了错误。

有了这个功能，小朋友们再也不用做作业了。

网友大波总结

除了以上体验之外，还有网友写了一篇长文，介绍了自己对GPT-4V的测试。

测试一：视觉问答

给一个表情包，看看GPT-4V理解程度有多好？

GPT-4V成功地解释了为什么有趣，并提到了图片的各个组成部分以及它们之间的联系。

值得注意的是，所提供的括号备注中，GPT-4V能够读懂并利用文字做出回应。

尽管如此，GPT-4V还是犯了一个错误，炸鸡标记为「NVIDIA BURGER」，而不是「GPU」。

然后，再用硬币，一张美国便士的照片测试。GPT-4V能够成功识别硬币的来源和面值。

但如果是多枚硬币图片，并问GPT-4V，我有多少钱？

这时，它只能够识别硬币的数量，但无法确定货币类型。

测试二：OCR识别

截取网页中的文本图像上传，GPT-4V可以很好地读出内容。

测试三：数学OCR

数学OCR是一种专门针对数学方程的光学字符识别的特殊形式。

网友向GPT-4V提出了一个数学问题，并用文档截图形式呈现出来。

这个问题涉及在给定2个角度的情况下计算拉链线的长度，在图像上提示「解决它」。

模型识别出的问题可以用三角法求解，识别出要使用的函数，并逐步提出如何解决问题的走查。然后，GPT-4V提供了问题的正确答案。

话虽如此，GPT-4V系统卡指出模型可能会遗漏数学符号。

不同的测试，包括用手写在纸上的方程或表达式的测试，可能表明模型回答数学问题的能力不足。

测试四：对象检测

让GPT-4V检测图像中的狗，并提供与狗的位置相关的x_min、y_min、x_max和y_max值，GPT-4V返回的边界框坐标与狗的位置不匹配。

虽然GPT-4V在回答图像问题方面的能力非常强大，但在你若是想知道一个物体在图中的位置，该模型不能替代微调目标检测模型。

测试五：验证码

发现GPT-4V能够识别图像中包含验证码，但经常无法通过测试。

在一个选取红绿灯格子的示例中，GPT-4V少选了一些包含红绿灯的格子。

测试六：填字游戏和数独

在数独测试中，GPT-4V识别了游戏，但误解了棋盘的结构，因此返回了不准确的结果。

顺带提一句，ChatGPT联网功能又回来了。

参考资料：

https://twitter.com/skirano/status/1706853658523005378

https://twitter.com/emollick/status/1707076651320770870

https://twitter.com/search?q=GPT-4V&src=trend_click&vertical=trends

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

GPT-4写代码不如ChatGPT，误用率高达62%！加州大学两位华人开源代码可靠性基准RobustAPI 就这厨艺也交到女朋友了实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT，最接近AGI的大一统多模态大模型来了历经3年、17位医生都没有确诊的病例，靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱？GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC ChatGPT突现惊天大BUG！全功能GPT-4免费用，网友玩嗨了惊呆！某院医生4个月用ChatGPT写了16篇论文，发表5篇！(附ChatGPT干货）GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发报告丨这份AI研究报告，快速搞清楚ChatGPT、Gen-AI、大模型、多模态...ICML 2023｜CMU大牛全面总结「多模态机器学习」六大挑战：36页长文+120页PPT，全干货！GPT-5明年降临？爆料人泄露多模态Gobi就是GPT-5，已初现自我意识种几棵香椿树，受益匪浅惊了！某院医生用ChatGPT4个月写了16篇论文！成功发表5篇！(附ChatGPT干货教程）清华系ChatGLM3现场怼脸演示！多模态直逼GPT-4V，国产Code Interpreter来了 ChatGPT最重大更新来了：多模态将上线，能说会看了对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4 一块石头的悲哀文末送书 | 4个维度讲透ChatGPT技术原理，揭开ChatGPT神秘技术黑盒！AI搞定谷歌验证码，最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队 Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩《星级男人通鉴》第12章谁才是美丽华女收诈骗短信一眼识破，觉得好玩回复了，结果后悔惨了！提醒华人：连短信也不能乱回规模小、效率高：DeepMind推出多模态解决方案Mirasol 3B 无限量访问GPT-4！ChatGPT企业版来了，可扩展32k上下文，代码解释器随便用 MiniGPT-4升级到MiniGPT-v2了，不用GPT-4照样完成多模态任务 ChatGPT代码生成飙升10%！北大华人一作：细化prompt，大幅改进大模型代码能力一提到妖魔鬼怪，中国人就嗨了！不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone 纽约一华裔男子竟然用盗窃来的资料买豪车？？幸好这位sales销售一眼识破...GPT-4V被曝离谱bug：突然执行神秘代码，空白图片读出打折信息，网友们都看呆了伪专家荒谬言论再次引发窃选论狂潮，如何一眼识别谣言？一文总结13个国内外ChatGPT平替产品：是时候可以不那么依赖ChatGPT了~用一个月重构了同事写的烂代码，我总结了8条重写烂代码的经验！OpenAI回应ChatGPT服务故障；新研究以99%准确率识别ChatGPT生成化学论文；三星发布自研大模型丨AIGC日报上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生

热点事件追踪