DALL·E 3 推理能力炸裂提升，OpenAI 抢跑“ChatGPT 原生”

科技

2023-09-21 05:09

DALL·E 3 能力升级，OpenAI 多模态能力逐渐成熟。

作者 | 黄楠孙溥茜

编辑 | 陈彩娴

时隔一年半，OpenAI 直接玩了个大的，把文生图和 ChatGPT 做了结合，带着最新版本 DALL·E 3 来了。

DALL·E 3 的巨大飞跃主要体现在两大方面。

第一，只需要提示词，ChatGPT 可自动对词语进行拓展，极大地弱化了提示工程的约束，生成图画细节更多、描述更精准。

第二，Chat GPT 原生，模型在理解用户指令及将文本转化为图片的能力增加了。OpenAI 表示，DALL·E 3 比以往系统更能理解细微差别和细节，让用户更加轻松地将自己的想法转化为非常准确的图像。

可以看到，DALL·E 3 不仅在推理能力上更强大了，同时用起来也更加简单，给了大家无限的创作可能性。

DALL·E 3 的巨大飞跃

DALL·E 3 最大的突破，无疑是将文生图模型与 ChatGPT 的结合，极大地降低了提示词的门槛。

用户只需要输入简单的词语，ChatGPT 可自动对提示词进行扩展、生成定制的详细提示，从简单的句子到详细的段落，勾画出一副细节感满满的画面。

来看几张由 DALL·E 3 生成的图片：

满月映照下的繁华都市街道，熙熙攘攘的行人正享受着夜生活。

在街角的摊位上，一位满头红发、身着天鹅绒斗篷的年轻女子正在与脾气暴躁的老摊主讨价还价。

这位脾气暴躁的小贩身材高大、为人老练，他穿着笔挺的西装、留着引人注目的小胡子，正兴致勃勃地用他的蒸汽朋克电话在交谈。

拟人化的秋叶组成了一支民间乐队，在乡村的森林中，它们演奏着传统的蓝草音乐，点缀着满月撒下的柔和月光。

荔枝纹风格的球形椅子，具有凹凸不平的白色外观和豪华的内部，衬托着热带壁纸。

精彩的细节刻画，加上精致的图像画面，可以看到，DALL·E 3 在弱化了提示词约束的同时，还具备了 ChatGPT 原生的优势，用语言指导大型神经网络执行各种文本生成任务。

目前来看，DALL·E 3 在理解用户命令和文生图方面都展现了更为出色的能力，这也是此前 AIGC 领域存在的短板之一。一位 OpenAI 研究员也表示，语言的进步使 DALL·E 3 能够更好地解析复杂指令，避免混淆详细请求中的元素。

而如果出现图像与文本描述不相符的情况时，用户可在 ChatGPT 中随时进行调整。

关于 DALL·E 3 更多细节，Sam Altman 还分享了一个可爱的宣传视频。

视频中，家长通过向 ChatGPT 提问“5 岁小朋友口中的‘超级向日葵刺猬’的样子是什么样？”，获得了四段不同风格的提示词，并由 DALL·E 3 生成对应图像。

由用户选定了图像风格、并为小刺猬起名 Larry 后，ChatGPT 又为故事添加了更多丰富的元素，包括森林的背景、小房子、以及带有 Larry 名字的小信箱等等，ChatGPT 综合了前面的信息后，还可以生成一个完整的故事情节。

可以说，从童话故事到插图，ChatGPT 和 DALL·E 3 全包了！有网友评价称，Sam Altman 放出的小刺猬 demo 视频，是《30 分钟做一本儿童绘本》的实例。

而与此前 DALL·E 系列模型相比，根据同一句提示词“一名篮球运动员扣篮、被描绘成一个星云爆炸的油画”，使用 DALL·E2 和 DALL·E3 分别进行图片生成。可以看到，两代模型在生成图片的效果存在明显的差异。

和左侧相比，DALL·E 3 图片中的细节描绘、场景明亮度等效果都更好。

在 DALL·E 2 发布的一年多时间，期间 Stable Diffusion 掀起了一阵扩散模型热潮，后者一时风光两无。

如今，OpenAI 带着最新版的 DALL·E 3 汹汹来袭，似乎将要改变这一局面。

新一轮文生图战局打响了

早些时候，约 400 左右参与测试了 OpenAI Discord 服务器上的 DALL·E 3 Alpha 版本，网友评价：生成图片的准确度碾压 Stable Diffusion 、MidJourney。

MidJourney 的语文水平一直被用户吐槽，这一点在 DALL·E 3 上大有改观。

DALL·E 3 可以通过 Prompt 提示，在图片中生成连续准确的单词拼写，像下图中的“HELLO”，在以往的文生图模型中还没有模型可实现这一点。

这张“DALL·E CAN SPELL”的图片放大后，也可以看到在图片深处的“DALL·E ”有拼写成“DALE”的情况，但是整体看，在遵循提示和生成连贯细节方面 DALL·E 3 已经有了极大的突破。

除了文字的细节，在对 Prompt 理解方面，DALL·E 3 与早一期的版本也有极大的进步。

提示词是“雾蒙蒙的森林里，地面非常泥泞，一场自行车比赛正在进行，一个粉红色的小丑骑着用奶酪做成的自行车，和跟熊猫击掌，熊猫很生气。”

在 5 月 DALL·E 版本中可以看到，熊猫和小丑的手掌是扭曲的，自行车用奶酪制成这一细节不太明显，熊猫表情面露微笑，这一点显然和提示词的内容不符合。

到了 DALL·E 3 的版本中可以看到，小丑和熊猫击掌，小丑明显的五根手指，自行车车轮完全是奶酪元素，包括车轮激起的泥点细节等， DALL·E 3 在理解提示词语义和呈现画面方面有了非常明显的进步。

当在 Stable Diffusion 、MidJourney 中输入相同提示词时，呈现的画面与提示词的关系，不能说一点不同，也差不多是毫不相关。看到 DALL·E 3 的表现，很多网友表示 Stable Diffusion 、MidJourney 无法在这个级别上与其竞争。

就在上周，有消息爆出谷歌正在小范围内测 Gemini，传言称，Gemini 将比 ChatGPT 强大 20 倍，这也给 OpenAI 带来了一定程度上的舆论压力。

随后，OpenAI “悄悄”更新了 GPT-3.5-Turbo-Instruct，此前有消息传出，OpenAI 正紧锣密鼓地将 GPT-4 与类似于 Gemini 提供的多模态功能结合起来，不少业内人士猜测，OpenAI 获将在即将召开的首家开发者大会上发布多模态大模型，比如 GPT-4-Vision。

大模型局势扑朔迷离，作为大模型的引领者，谷歌和 OpenAI 在互相试探，二者真实实力几何，还有多少颠覆我们认知的能力，尚且未知。

目前， DALL·E 3 背后的技术细节并未公布。但在安全和版权保护方面，OpenAI 已对 DALL·E 3 投入了大量的工作，包括采取缓解措施拒绝提供公众人物姓名、与外部的“红队”成员（对模型进行压力测试的团队）合作、在内部开发来源分类器等。

此外，DALL·E 3 拒绝提供在世艺术家风格图像，艺术创作者也可选择将其个人作品从 DALL·E 3 未来图像生成模型的训练中剔除。

据悉，DALL·E 3 将于 10 月初面向 ChatGPT Plus 和 Enterprise 用户上线，用户使用 DALL·E 3 创建的图像无需 OpenAI 授权即可转载或者出售。

下半年，大模型原生应用有望在哪爆发？欢迎添加作者微信（finfl26est和sunpx33）交流，互通有无。

参考链接：https://openai.com/dall-e-3

更多内容，点击下方关注：