OpenAI扔出DALL·E 3！能画画的ChatGPT要来了：简单提示，讲出“超级向日葵刺猬”连环画

2023-09-21 13:09

AI绘画，要被重新定义了？

作者 | 香草

编辑 | 李水青

智东西9月21日消息，今天凌晨，OpenAI宣布其文生图工具DALL·E即将升级至DALL·E 3，并将原生集成至ChatGPT中。

相比去年发布的DALL·E 2，在提示词相同的情况下，DALL·E 3对文字的理解程度及生成的图像质量显著提升。时常被诟病的“无法在图像上生成文字”的问题，也在这次升级中得到了解决。

▲DALL·E 3（右）和DALL·E 2（左）生成图像效果对比图，提示词为：在暴风雨的大海中，一个半透明玻璃制成的人类心脏矗立在一个基座上。阳光穿透云层，照亮了心脏，揭示了一个微小的宇宙。“寻找你内心的宇宙”这句话在地平线上用粗体字蚀刻着。（图源：OpenAI、Sambhav Gupta）

而DALL·E 3与ChatGPT的结合，更是产生了奇妙的化学反应。用户不再需要学习如何使用合适的提示词来描述自己想要的图像，因为ChatGPT可以直接理解自然语言，帮你完成这一切。

▲在ChatGPT中使用DALL·E 3直接生成图像（图源：OpenAI官网）

升级版的DALL·E 3将于10月首先向ChatGPT Plus和企业版客户开放，之后在秋季稍晚些将提供API接口并面向公众开放。

此外，OpenAI特别强调DALL·E 3已采取多方面安全措施，包括暴力内容限制、拒绝生成含公众人物图像、拒绝模仿在世艺术家风格等，且允许创作者提交删除自己图像的申请。

那么DALL·E此次升级究竟实现了怎样的效果？和ChatGPT的集成又将擦出什么样的火花？OpenAI通过一段视频演示以及多张图像示例，向我们生动地展示了DALL·E 3的强大之处。

01.

原生集成于ChatGPT

DALL·E 3可以直接“讲故事”了

DALL·E此次升级，最大的亮点无疑是与ChatGPT的原生集成。OpenAI称，现在的文生图系统大多将重点放在生成图像的质量和水准上，而忽略了文字和描述的重要性，这使得用户不得不学习复杂的提示词工程。

而DALL·E 3通过集成ChatGPT，使文字生成图像这一过程中的“文字”部分实现了质的飞跃。

过去，当用户使用DALL·E 2、Midjourney等文生图AI工具时，通常的做法是：首先通过ChatGPT等聊天机器人，用简单的提示词生成丰富的图像描述文本；然后再进入文生图软件，用图像描述文本生成图片。如果生成效果不佳，就需要反复操作多次，步骤十分繁琐。ChatGPT+DALL·E 3的组合则直接省去了中间步骤，一步到位。

OpenAI提供了一个视频来展示DALL·E 3的使用效果。这是一个家长为5岁孩子将想象带到现实中的故事。

当家长询问：“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子？”

ChatGPT生成了四段描述该刺猬的文字，随后根据文字生成了相应的图像。

家长选择了其中一张图像，追问道：“我的女儿说这只刺猬名字叫Larry，可以提供更多它的图像吗？”

ChatGPT此时根据用户选择的刺猬形象，生成了更多不同画风的图像。

随后，家长说想看看Larry的房子，ChatGPT便生成了一张Larry在房门口检查信箱的画面。

值得注意的是，他的信箱上甚至写着自己的名字“LARRY”。这意味着DALL·E 3实现了在图像上写字的功能。

结合ChatGPT的文字生成功能，这只小刺猬还可以拥有自己的“人设”。

当家长追问：“是什么让他如此‘了不起’？”ChatGPT回答，是因为他有着向日葵花瓣作为“刺”，并且很善良。

家长继续追问，他的善良是如何体现的？ChatGPT便生成了一幅漂亮的插画，画面上，Larry和蝴蝶、小鹿以及其他的小刺猬伙伴们一起在草丛上玩耍。

此外，ChatGPT在画风迁移方面也完成得很好。可以生成不同风格的Larry，比如贴纸风：

最后，当家长提出是否可以基于这些内容讲一个睡前故事，ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。

当然，ChatGPT也可以继续为自己讲的这个故事创作插图。

不得不说，ChatGPT和DALL·E的结合可以实现1+1>2的效果。比起之前提供多个独立、专业提示词的生成方式，现在的DALL·E 3更像是以讲故事、聊天的方式，完成了图像的生成和二次创作。

02.

相同提示下

DALL·E 3生成图像质量显著改进

DALL·E 3和ChatGPT的集成之所以能够产生优秀的“连招”效果，离不开DALL·E 3模型本身的性能提升。

DALL·E 3在图像生成方面比DALL·E 2改进了很多。OpenAI提供了一个例子，对于同样的提示词“一幅表现篮球运动员扣篮的油画，描绘成星云的爆炸”，同时使用DALL·E 2和DALL·E 3生成图像并进行对比。

可以看出，DALL·E 3对“扣篮”这一动作的描绘更加准确，对“星云爆炸”这一风格的迁移也更加相似。相比之下，DALL·E 2描绘的图像手绘质感更强烈，对提示词的表现没有那么贴近。

▲DALL·E 2（左）与DALL·E 3（右）生成图像对比（图源：OpenAI）

OpenAI在旗下社交媒体Instagram上分享了多张由DALL·E 3生成的图像，并分享了用于生成这些图像所使用的文字和描述。

比如下图，所使用的提示词为：一个牛油果坐在治疗师的椅子上说，“我只是觉得内心很空虚”，它的身上有一个坑大小的洞。治疗师是一个勺子，正在潦草地记着笔记。

▲DALL·E 3生成的插画（图源：OpenAI）

一位AI爱好者Sambhav Gupta在其社交媒体X上分享了他利用OpenAI提供的提示词在DALL·E 2中生成的图像。可以明显看出，DALL·E 2对于这种自然语言提示词的理解差了很多，也无法生成准确的文字，看起来更像是乱码。

▲Sambhav Gupta使用DALL·E 2生成的图像

Gupta尝试了OpenAI公开分享的9张图像的提示词。可以看出，无论是从准确性上，还是画面的精致程度上，DALL·E 3比起DALL·E 2都有较大的提升。

▲Sambhav Gupta使用DALL·E 2生成的图像与DALL·E 3生成图像对比

DALL·E 2于去年4月发布，并于同年7月面向公众开放。时隔一年多，OpenAI宣布新版DALL·E 3将于10月首先向ChatGPT Plus用户和企业版用户发布，随后在秋季晚些时候提供API接口并面向公众开放。

03.

注重安全、版权保护

创作者可提请删除作品

9月20日，OpenAI宣布面向全球公开招募“红队网络”，邀请有兴趣提高OpenAI模型安全性的领域专家组成一个社区，帮助评估和抵御风险提供信息。

此前，OpenAI曾多次被起诉侵权，指出其大模型训练未经允许使用他人的作品。也许是为了规避类似的情况，此次更新时，OpenAI特别强调了安全性和版权问题。

OpenAI声称，团队已采取相应的措施来限制DALL·E 3生成含有暴力、成人、仇恨等违规内容的能力。此外，他们与红队网络合作，提高了风险领域的安全性，拒绝生成包含公众人物的内容。

在图像侵权方面，OpenAI称DALL·E 3将拒绝要求模仿在世艺术家的风格，且创作者们可以通过填写表单，要求OpenAI将他们的作品从模型训练中删除。

▲OpenAI为创作者提供的申请表单（图源：OpenAI官网）

和DALL·E 2一样，用户使用DALL·E 3创建的图像可自由使用，用户对图像拥有使用权、商用权等。

此外，在最近备受关注的数字水印方面，OpenAI称正在研究识别AI生成图像的最佳方法。他们正在测试一种新的内部工具，用于识别图像是否由DALL·E 3生成，并且希望利用这一工具可以更好地了解图像的生成方式。该工具相关的信息也将尽快公布。

04.

结语：DALL·E 3+ChatGPT

重新定义AI绘画方式

今天凌晨，OpenAI宣布将在10月开始陆续向ChatGPT Plus版、企业版等原生集成升级后的DALL·E 3。从目前公开的资料来看，DALL·E 3将会是一次巨大的变革，不仅通过与ChatGPT的结合颠覆了文字描述的方式，在生成图像的质量上也实现了显著的进步。

尽管OpenAI此次更新特别强调了安全及版权相关的问题，但在AI绘画领域，相关的争议仍备受关注。此外，AI绘画工具对于艺术创作者而言究竟是辅助还是威胁，创作者是否会因此失业等问题，也值得企业和社会思考和反思。

无论如何，DALL·E 3的此次更新势必会引发大范围的讨论和争议，甚至可能直接重新定义AI绘画的方式。未来，AI绘画领域将如何发展，是我们共同关心的问题。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章