国际科技财经博客移民网络热点娱乐民生时事公众号

>

GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发

GPT-4V多模态能力惊人！公式截图直出代码，「龙与魔法世界」瞬间生成，OpenAI总裁激动转发

公众号新闻

2023-10-17 05:10

新智元报道

编辑：润

【新智元导读】GPT-4在默默更新了多个功能之后，早已有了惊艳世人的各种新能力，简直是上体入地无所不能！

最近，GPT-4一直在默默更新，加入了多模态，语音交互等功能。

但是与年初OpenAI每次发布的新功能，都能引得外界一阵惊呼的阵仗相比，现在GPT-4的声量似乎小了很多。

不知道是不是担心自己产品发布太过于耀眼，导致监管和官司不断找上门，OpenAI除了3周前更新了文生图模型DALL-E 3外，在发布了GPT-4之后的7个月内，官方没有公开发布任何新的产品和功能。

但是OpenAI总裁Greg Brockman自己却在X（推特）上，不断转发利用新版的GPT-4来实现的各种天马行空的功能。

利用GPT-4V的多模态能力和代码能力，直接把一个写在书上的数学公式转化成一段Python代码。

而利用GPT-4刚更新不久的语音功能，有人开始把它当成商务谈判的教练来进行模拟练习了。

就在这个帖子下面，这位帝国理工学院商学院的学习设计师留言称，他们已经开始使用GPT-4的语音功能为MBA设计培训课程了。

直接用ChatGPT集成的的DALLE 3来为游戏设计师生成世界观和原画设定图。

只要几行Prompt，一个飞龙世界的文字描述和原画风格图就出来了。

直接用DALLE 3来生成自己想要的GIF文件。

一颗玉米如何成为爆米花。

一只跳舞的狗子。

我们就一起来看看如何利用GPT-4来完成这一系列的功能。

GPT-4理综版

网友发现，只要通过截图，可以将几乎任何数学公式，通过GPT-4转化为Python代码。

当然，因为模型还是存在出现幻觉的可能，所有的结果不能直接拿过来就用，还是要认真检查其中的错漏。

比如截图中第六行的代码，「d_hat(i, j)」应该是「d_hat(i)」。

虽然有小错误，但是网友们依然对这个功能给与了非常高的评价。

这位MIT博士，AI初创公司的创始人认为，如果没有额外的上下文，GPT-4无法识别这个函数，但它确实知道它正在做什么……非常酷。

另一位开发了一个金融AI工具的开发人员称，这个用例非常棒！有无穷的想象空间。

并且他给出了两个具体的用例。

可以截图研究论文中的复杂数学方程并在本地快速运行。

2. 可以截屏（任何内容）并让GPT生成代码来实现 UI。

同样，除了数学公式，它还可以直接读取分子式，直接输出制备方法。

给它投喂一个耳机的电路图，它就能告诉你组装这个设备的大致步骤。

GPT-4V对于多模态的良好支持，结合它的编码能力，以及广博的知识面，可以组合出几乎无穷的使用方案。

几句Prompt 生成龙与魔法的世界

另外一位网友分享了它通过ChatGPT创造了一个和龙有关的奇幻世界的过程。

GPT-4生成了和龙有关的概念、解剖结构，甚至龙的栖息地。

龙的头部特写。

龙的骨架和解刨图。

以及龙的生存环境原画和描述。

首先，需要指定出你想要的图像样式。

作者想要那种技术信息图表风格的美术风格，他使用了这个Prompt，几乎就是普通的英语描述。

「Can you generate me a technical engineer's drawing of a dragon, with labels of its various parts? Use a wide aspect ratio：」

就得到了下面的结果：

接下来，生成龙头的特写。

然后让他生成栖息地的环境原画图和介绍。

如果不满意，就再进一步细化你的要求，让GPT-4来满足。

作为游戏设计师，想要设计一个和龙有关的场景，直接动手就能出可以使用的结果。

另外一位网友根据这个用例的启发，生成了一个和藏红花相关的介绍。

「Can you generate me a technical engineer's drawing of a saffron, with labels of its various parts? Use a wide aspect ratio.」

用这个提示词生成了一个藏红花的结构图。

再生成了一幅藏红花束的特写。「Can you generate a close up of saffron strand in wide aspect ratio?」

藏红花田的远景图片。「Please generate an aerial view of saffron field in wide aspect ratio.」

最后生成了藏红花的剖面图。「Anatomy of saffron strand in wide aspect ratio.」

一个非常复杂的潜艇结构图！

高达的结构示意图。

头部的详细结构图。

足部的详细结构图。

武器的结构图。

面包机的超详细结构图。

网友纷纷表示，完全停不下来。

参考资料：

https://twitter.com/gdb/status/1713301320961036466

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

11Labs：声音模态能否突围OpenAI？ChatGPT多模态解禁，网友玩疯！拍图即生代码，古卷手稿一眼识别，图表总结超6 GPT-4V被曝离谱bug：突然执行神秘代码，空白图片读出打折信息，网友们都看呆了传OpenAI秘密训练GPT-5；腾讯混元大模型或本周亮相；首个中英语音多模态LLM开源通义千问爆甩开源全家桶！最强720亿参数超车Llama 2，新上视觉模型看图直出代码警惕！多华人被骗「微信群换汇」瞬间不见数千元……挑战GPT-4V！清华唐杰&智谱开源多模态14边形战士，在线可玩刚刚开源！中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V，助力模型霸榜多项多模态榜单！GPT turbo 看了没？！这真是大批失业人员在路上。112页报告深挖GPT-4V！UCLA等发布全新「多模态数学推理」基准MathVista 时间的湾 1 生图直出，倪妮红毯状态好绝什么都涨价, 看看降价的 GPT-4惨遭削弱，偷懒摸鱼绝不多写一行代码，OpenAI已介入调查任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2 MiniGPT-4升级到MiniGPT-v2了，不用GPT-4照样完成多模态任务 1000+AI智能体复活，OpenAI版元宇宙上线？ ChatGPT+VR百分百还原「西部世界」BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发挑战GPT-4V，浙大校友推出开源版多模态大模型，获GitHub 6k+星标清华系ChatGLM3现场怼脸演示！多模态直逼GPT-4V，国产Code Interpreter来了 AI搞定谷歌验证码，最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队红色日记 3.10-31 清华团队攻破GPT-4V、谷歌Bard等模型，商用多模态大模型也脆弱？LLM一句话瞬间生成3D世界，未公布代码已获141星！或将引发3D建模行业革命妄想症房客被抓走，我还被告了（续完）突破！科学家找到清除艾滋病病毒方法：一次性注射搞定 chat gpt 怎么上不去了？彻底罢工了上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生正面硬刚GPT-4V！浙大校友开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完 2023年不当麻瓜！他们在Bellevue造了一个哈利波特魔法世界！ChatGPT代码生成飙升10%！北大华人一作：细化prompt，大幅改进大模型代码能力传谷歌开始小范围测试Gemini：比训练GPT-4算力大5倍，多模态能力大提升实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT，最接近AGI的大一统多模态大模型来了 DALL·E 3瞬间生成素材，零成本制作数千万流水游戏！OpenAI总裁转赞全球首个开源多模态医疗基础模型：人工打分平均超越GPT-4V、支持2D/3D放射影像正面硬刚OpenAI！智谱AI推出第三代基座模型，功能对标GPT-4V，代码解释器随便玩我浑身缺点但是活成了我自己想要的样子超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能

热点事件追踪