Redian新闻
>
DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”

DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”

科技

DALL·E 3 能力升级,OpenAI 多模态能力逐渐成熟。
作者 | 黄楠 孙溥茜

编辑 | 陈彩娴

时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。

DALL·E 3 的巨大飞跃主要体现在两大方面。

第一,只需要提示词,ChatGPT 可自动对词语进行拓展,极大地弱化了提示工程的约束,生成图画细节更多、描述更精准。

第二,Chat GPT 原生,模型在理解用户指令及将文本转化为图片的能力增加了。OpenAI 表示,DALL·E 3 比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。

可以看到,DALL·E 3 不仅在推理能力上更强大了,同时用起来也更加简单,给了大家无限的创作可能性。



1

DALL·E 3 的巨大飞跃

DALL·E 3 最大的突破,无疑是将文生图模型与 ChatGPT 的结合,极大地降低了提示词的门槛。

用户只需要输入简单的词语,ChatGPT 可自动对提示词进行扩展、生成定制的详细提示,从简单的句子到详细的段落,勾画出一副细节感满满的画面。

来看几张由 DALL·E 3 生成的图片:

满月映照下的繁华都市街道,熙熙攘攘的行人正享受着夜生活。

在街角的摊位上,一位满头红发、身着天鹅绒斗篷的年轻女子正在与脾气暴躁的老摊主讨价还价。


这位脾气暴躁的小贩身材高大、为人老练,他穿着笔挺的西装、留着引人注目的小胡子,正兴致勃勃地用他的蒸汽朋克电话在交谈。

拟人化的秋叶组成了一支民间乐队,在乡村的森林中,它们演奏着传统的蓝草音乐,点缀着满月撒下的柔和月光。

荔枝纹风格的球形椅子,具有凹凸不平的白色外观和豪华的内部,衬托着热带壁纸。

精彩的细节刻画,加上精致的图像画面,可以看到,DALL·E 3 在弱化了提示词约束的同时,还具备了 ChatGPT 原生的优势,用语言指导大型神经网络执行各种文本生成任务。

目前来看,DALL·E 3 在理解用户命令和文生图方面都展现了更为出色的能力,这也是此前 AIGC 领域存在的短板之一。一位 OpenAI 研究员也表示,语言的进步使 DALL·E 3 能够更好地解析复杂指令,避免混淆详细请求中的元素。

而如果出现图像与文本描述不相符的情况时,用户可在 ChatGPT 中随时进行调整。

关于 DALL·E 3 更多细节,Sam Altman 还分享了一个可爱的宣传视频。

视频中,家长通过向 ChatGPT 提问“5 岁小朋友口中的‘超级向日葵刺猬’的样子是什么样?”,获得了四段不同风格的提示词,并由 DALL·E 3 生成对应图像。

由用户选定了图像风格、并为小刺猬起名 Larry 后,ChatGPT 又为故事添加了更多丰富的元素,包括森林的背景、小房子、以及带有 Larry 名字的小信箱等等,ChatGPT 综合了前面的信息后,还可以生成一个完整的故事情节。

可以说,从童话故事到插图,ChatGPT 和 DALL·E 3 全包了!有网友评价称,Sam Altman 放出的小刺猬 demo 视频,是《30 分钟做一本儿童绘本》的实例。

而与此前 DALL·E 系列模型相比,根据同一句提示词“一名篮球运动员扣篮、被描绘成一个星云爆炸的油画”,使用 DALL·E2 和 DALL·E3 分别进行图片生成。可以看到,两代模型在生成图片的效果存在明显的差异。

和左侧相比,DALL·E 3 图片中的细节描绘、场景明亮度等效果都更好。

在 DALL·E 2 发布的一年多时间,期间 Stable Diffusion 掀起了一阵扩散模型热潮,后者一时风光两无。
如今,OpenAI 带着最新版的 DALL·E 3 汹汹来袭,似乎将要改变这一局面。



2

新一轮文生图战局打响了

早些时候,约 400 左右参与测试了 OpenAI Discord 服务器上的 DALL·E 3 Alpha 版本,网友评价:生成图片的准确度碾压 Stable Diffusion 、MidJourney。
MidJourney 的语文水平一直被用户吐槽,这一点在 DALL·E 3 上大有改观。
DALL·E 3 可以通过 Prompt 提示,在图片中生成连续准确的单词拼写,像下图中的“HELLO”,在以往的文生图模型中还没有模型可实现这一点。
这张“DALL·E CAN SPELL”的图片放大后,也可以看到在图片深处的“DALL·E ”有拼写成“DALE”的情况,但是整体看,在遵循提示和生成连贯细节方面 DALL·E 3 已经有了极大的突破。
除了文字的细节,在对 Prompt 理解方面,DALL·E 3 与早一期的版本也有极大的进步。
提示词是“雾蒙蒙的森林里,地面非常泥泞,一场自行车比赛正在进行,一个粉红色的小丑骑着用奶酪做成的自行车,和跟熊猫击掌,熊猫很生气。”
在 5 月 DALL·E 版本中可以看到,熊猫和小丑的手掌是扭曲的,自行车用奶酪制成这一细节不太明显,熊猫表情面露微笑,这一点显然和提示词的内容不符合。
到了 DALL·E 3 的版本中可以看到,小丑和熊猫击掌,小丑明显的五根手指,自行车车轮完全是奶酪元素,包括车轮激起的泥点细节等, DALL·E 3 在理解提示词语义和呈现画面方面有了非常明显的进步。
当在 Stable Diffusion 、MidJourney 中输入相同提示词时,呈现的画面与提示词的关系,不能说一点不同,也差不多是毫不相关。看到 DALL·E 3 的表现,很多网友表示 Stable Diffusion 、MidJourney 无法在这个级别上与其竞争。
就在上周,有消息爆出谷歌正在小范围内测 Gemini,传言称,Gemini 将比 ChatGPT 强大 20 倍,这也给 OpenAI 带来了一定程度上的舆论压力。
随后,OpenAI “悄悄”更新了 GPT-3.5-Turbo-Instruct,此前有消息传出,OpenAI 正紧锣密鼓地将 GPT-4 与类似于 Gemini 提供的多模态功能结合起来,不少业内人士猜测,OpenAI 获将在即将召开的首家开发者大会上发布多模态大模型,比如 GPT-4-Vision。
大模型局势扑朔迷离,作为大模型的引领者,谷歌和 OpenAI 在互相试探,二者真实实力几何,还有多少颠覆我们认知的能力,尚且未知。
目前, DALL·E 3 背后的技术细节并未公布。但在安全和版权保护方面,OpenAI 已对 DALL·E 3 投入了大量的工作,包括采取缓解措施拒绝提供公众人物姓名、与外部的“红队”成员(对模型进行压力测试的团队)合作、在内部开发来源分类器等。
此外,DALL·E 3 拒绝提供在世艺术家风格图像,艺术创作者也可选择将其个人作品从 DALL·E 3 未来图像生成模型的训练中剔除。
据悉,DALL·E 3 将于 10 月初面向 ChatGPT Plus 和 Enterprise 用户上线,用户使用 DALL·E 3 创建的图像无需 OpenAI 授权即可转载或者出售。
下半年,大模型原生应用有望在哪爆发?欢迎添加作者微信(finfl26est和sunpx33)交流,互通有无。
参考链接:https://openai.com/dall-e-3

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
不到 600 行代码实现了《愤怒的小鸟》翻版,GPT-4+DALL·E 3+Midjourney 撼动游戏圈!ChatGPT与DALL·E 3之间的行业「黑话」被人发现了勒内·马格里特(René Magritte):艺术,就是用想象力去窥探我们的内心GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升拿破仑的阳刚美和老佛爷的女人腿体验 ChatGPT+DALL·E 3 王炸组合后,我再也回不去了科大讯飞回应美国AI芯片出口管制;DALL·E 3正式上线ChatGPT Plus和企业版丨AIGC日报微软深夜放大招:GPT-4 、DALL·E 3、GPTs免费用,自研大模型专用AI芯片OpenAI救了Stable Diffusion!开源Dall·E3同款解码器,来自Ilya宋飏等DALL·E 3 微软Bing抢先测!马骑宇航员难题攻破!一张画指定50个物体DALL·E 3瞬间生成素材,零成本制作数千万流水游戏!OpenAI总裁转赞体验 DALL·E 3 + ChatGPT 王炸组合后,我感受到了甲方的快乐DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”chatGPT 太好用了OpenAI 真有钱啊,7年经验硕士码农前四年平均年薪170万美元《水韵江南》&《等待》OpenAI祭出绘画神器,Midjourney一夜下台!DALL·E 3联手ChatGPT,无需prompt一笔成神我最近特别喜欢 Margaritas !DALL·E 3内部实测效果惊人!Karpathy生成逼真灵动「美国小姐」,50个物体一图全包西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」随便哼两句就能变歌曲,还有国宝歌手帮你演绎,音乐的 Dall·E 2 时刻来了DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证OpenAI扔出DALL·E 3!能画画的ChatGPT要来了:简单提示,讲出“超级向日葵刺猬”连环画GPT-4写代码,DALL·E 3+MJ搞定画面,AI版「愤怒的南瓜」来袭Adobe新版AI绘画炸场,2k分辨率在线就能玩,网友:效果比DALL·E 3更强GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报现代文明和近代中国 (1-6 章,目录链接)国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面直接细节爆炸DALL·E 3正式上线ChatGPT;智谱AI今年已融资25亿元;科大讯飞回应美国AI芯片出口管制丨AIGC大事日报ChatGPT 成功诊断 4 岁男孩怪病,击败 17 位医生,这意味着什么?DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修DALL·E 3辣眼图流出!OpenAI 22页报告揭秘:ChatGPT自动改写Prompt无限访问GPT-4!史上最强企业版ChatGPT上线,3.2万token,OpenAI颠覆打工人传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报Midjourney V6来袭!性能对标DALL·E 3,争夺地表最强作图AI称号对标DALL·E 3!Meta最强文生图Emu技术报告出炉
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。