国际科技财经博客移民网络热点娱乐民生时事公众号

>

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

DALL·E 3关键技术公开！19页论文揭秘如何对提示词“唯命是从”

公众号新闻

2023-10-20 04:10

萧箫发自凹非寺
量子位 | 公众号 QbitAI

出场即炸场的DALL·E 3，又有新动向了！

这次直接宣布对ChatGPT Plus和企业版用户开放，还连带公开了更多“官方推荐案例”。

不仅如此，OpenAI还一纸论文透露了DALL·E 3的关键技术细节。

相比其他AI，DALL·E 3表现最优秀的地方，应该就要属对提示词的完美遵循了。

无论是整体的环境描写，还是精确到物体数量、着装、颜色这种细节叙述，DALL·E 3都能很好地理解，并生成对应的画作，丝毫不漏重点。

论文一公开，可以说是解决了“如何让DALL·E 3遵循指令”这一让诸多人困惑的问题，有网友感叹：

OpenAI终于又Open了？

一起来看看这篇DALL·E 3论文的关键细节，以及它的更多用例。

用数据集让DALL·E 3“唯命是从”

先来看看DALL·E 3论文最大的亮点：提示词遵循（prompt following）。

此前，不少绘画AI会刻意忽略提示词中的某些关键词、或是混淆提示词的含义（多义词如column，列还是柱子），简单来说就是文本提示词和画面细节没对齐。

OpenAI的研究人员在经过一番分析后认为，这是数据集的锅。

现有的图像文本对数据集，文字对图像的描述可以说是“惜字如金”。

尤其是从互联网上扒下来的数据集，大多数对图像的描述只有一句话，更别提细节了。包括环境、物体在内，容易忽略的文本描述主要有4类：

场景中物体描述，如厨房里的水槽、人行道上的停车标志等；
物体位置和数量描述
物体颜色和大小描述
图像中的文本描述（如呈现在商店招牌上的字母/汉字）

除此之外，还有不少互联网上扒下来图像的文本描述，直接就是错误或不相关的，例如梗图或Alt文本（图像加载失败时网页上呈现的文字描述）。

为此，有必要将这些图像对应的文本数据重新整理一遍，更准确地描述图像中的场景和物品进行描述。

光靠人力是不太可能的，毕竟要生成的“废话文学”太多了。

和RLHF一样，OpenAI同样将这个过程“自动化”了一波，让AI来完成这件事。

他们训练了一个“图像字幕器”（image captioner），专门用来给数据集中的图像重新生成文本描述。

这是“图像字幕器”给数据集中的部分图片生成文本描述的效果：

这下子描述就详细多了。

那么，用AI来合成文本，实际训练出来的模型是否真能提升生成效果？

研究人员用开源模型（如CLIP）测试了一波，得出的结论是可以。

不过也不能完全使用合成的文本描述，毕竟AI生成的内容可能有些“神秘共性”，直接全盘接受容易导致图像过拟合。

因此，OpenAI还在CLIP上尝试了一波合成文本描述-图像数据集的效果。

他们发现，数据集中混杂95%的合成文本-图像数据时，CLIP的效果是最好的。

最终，他们决定95%的图像用合成文本描述，剩下的5%图像依旧使用人工描述，用这个比例的文本-图像数据集重新训练了DALL·E 3，取得了不错的效果。

最后，OpenAI也采用人工评估的方法，对DALL·E 3和其他模型进行了测试。

评估方法大致像这样，询问人类哪个图像能更好地遵循提示词、或生成更好看的图像。

结果显示，DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2，在提示词遵循、风格匹配等任务测试上均取得了不错的效果。

已向企业版和Plus用户开放

除了这篇论文以外，OpenAI这次还公布了DALL·E 3的另一动向——向ChatGPT Plus和企业版开放。

在宣布这一消息的同时，OpenAI也给出了企业和机构使用DALL·E 3的建议，例如做科学项目：

搞网站设计：

或是帮企业设计LOGO：

当然，无论是ChatGPT Plus还是企业版，仍然也属于收费项目。

目前唯一可以免费玩到DALL·E 3的地方，应该还是微软的New Bing。

对于OpenAI带来的DALL·E 3新消息，不少网友感觉振奋。

有网友表示，DALL·E 3的出现真正给设计圈带来了改变，例如设计饮料包装等：

还有网友已经在催API的到来了：

但也有网友对这次更新不甚满意，尤其是对DALL·E 3论文涉及的技术信息表示了嘲讽：

直接用谷歌的T5文本编码器和卷积解码器，这就是公司发展太快的结果吗？

这里是网友提到的DALL·E 3论文细节：

要是对DALL·E 3的更多技术细节感兴趣，也可以到论文中找找答案~

论文地址：
https://cdn.openai.com/papers/dall-e-3.pdf

参考链接：
[1]https://twitter.com/OpenAI/status/1715050642560151963
[2]https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

DALL·E 3瞬间生成素材，零成本制作数千万流水游戏！OpenAI总裁转赞 OpenAI救了Stable Diffusion！开源Dall·E3同款解码器，来自Ilya宋飏等《山水中国美》&《他离开我认输》我的帮助不是从东，不是从西，乃是从上面夜里移民生活（23）一个白领女子的诉讼之路 GPT-4版微软Win11下周二见；千亿参数生物医药大模型面世；DALL·E 3模型将接入Bing丨AIGC大事日报龙行龘（dá）龘（dá）！2024央视春晚宣布→Midjourney V6来袭！性能对标DALL·E 3，争夺地表最强作图AI称号 DALL·E 3辣眼图流出！OpenAI 22页报告揭秘：ChatGPT自动改写Prompt 微软深夜放大招：GPT-4 、DALL·E 3、GPTs免费用，自研大模型专用AI芯片体验 ChatGPT+DALL·E 3 王炸组合后，我再也回不去了体验 DALL·E 3 + ChatGPT 王炸组合后，我感受到了甲方的快乐随便哼两句就能变歌曲，还有国宝歌手帮你演绎，音乐的 Dall·E 2 时刻来了微软Copilot进化完全体，代码解释器、DALL·E 3，ChatGPT有的它都有对标DALL·E 3！Meta最强文生图Emu技术报告出炉西交、清华等发布多模态大模型，有望成为「DALL·E 4」技术路线？和AI一起「白日作梦」OpenAI祭出绘画神器，Midjourney一夜下台！DALL·E 3联手ChatGPT，无需prompt一笔成神生命银子向心流 DALL·E 3 微软Bing抢先测！马骑宇航员难题攻破！一张画指定50个物体不到 600 行代码实现了《愤怒的小鸟》翻版，GPT-4+DALL·E 3+Midjourney 撼动游戏圈！OpenAI扔出DALL·E 3！能画画的ChatGPT要来了：简单提示，讲出“超级向日葵刺猬”连环画 DALL·E 3=Midjourney+PS？OpenAI悄悄推出「种子」功能，生图之后还能精修 Adobe新版AI绘画炸场，2k分辨率在线就能玩，网友：效果比DALL·E 3更强 OpenAI一夜颠覆AI绘画！DALL·E 3+ChatGPT强强联合，画面直接细节爆炸 ChatGPT与DALL·E 3之间的行业「黑话」被人发现了 DALL·E 3必应开测！马骑宇航员难题攻破，一张画指定50个物体，微软前所未有深度参与研究 GPT-4写代码，DALL·E 3+MJ搞定画面，AI版「愤怒的南瓜」来袭 DALL·E 3 推理能力炸裂提升，OpenAI 抢跑“ChatGPT 原生”龙行龘（dá）龘（dá）！度假加勒比（七）波多黎各（Puerto Rico）龙行龘（dá）龘（dá）！这些三叠字怎么念？DALL·E 3正式上线ChatGPT；智谱AI今年已融资25亿元；科大讯飞回应美国AI芯片出口管制丨AIGC大事日报科大讯飞回应美国AI芯片出口管制；DALL·E 3正式上线ChatGPT Plus和企业版丨AIGC日报 DALL·E 3内部实测效果惊人！Karpathy生成逼真灵动「美国小姐」，50个物体一图全包

热点事件追踪