新品尝鲜还是付费测试？DALL-E 2 即将发售

2022-07-28 13:07

日前，OpenAI 已经做好准备，将要向等待名单上的一百万客户出售 DALL-E 2，但这一根据文字生成图像的模型仍有不少缺陷需要修复。

DALL-E 2 生成的“混搭”图像

（图片来源：OpenAI）

自今年4月的邀请制发布以来，已经大约有10万人试用过 DALL-E 2 了。而今，这家位于旧金山的公司将这一 AI 产品变成了一项付费服务，并向10倍于此的人开放。

OpenAI 产品和合作伙伴关系副总裁 Peter Welinder 表示，“人们的兴趣远远超出了我们的预期，比 GPT-3（同样由 OpenAI 研发的大型 AI 语言模型，能够逼真地模仿人类书写文本，入选2021年《麻省理工科技评论》“全球十大突破性技术”）发布的时候还要受欢迎。”

GPT-3 入选2021年《麻省理工科技评论》

“全球十大突破性技术”

付费客户可以将他们用 DALL-E 2 创作的图像用作商业用途，例如童书中的插画、电影和游戏的概念图以及营销手册等。不过，目前这一强大 AI 的推出方式是分阶段向客户发布，并在出现问题时随时解决，这种方式本身也是 OpenAI 迄今为止做过最大的公开测试。

订阅 DALL-E 测试版并不昂贵，15美元就可以买到115个积分，一个积分就可以提交一次文本请求，而它一次会返回四张图片。换句话说，就是15美元可以买到460张图片。此外，用户在第一个月可免费获得50积分，此后每个月可免费获得15积分。不过，由于用户通常一次生成几十张图片，并且只保留最好的，重度用户可能很快就会耗尽这个配额。

DALL-E 2 生成的动画风格怪兽图像

（图片来源：Chad Nelson）

在这次发布之前，OpenAI 一直在与早期用户合作以排除该工具的问题和缺陷。第一批用户源源不断地创造出各种超现实的、引人注目的图像，比如可爱动物的混搭，以惊人的还原度模仿真实摄影师风格的图片，餐厅的情绪板以及球鞋设计图等等。这使得 OpenAI 能够很好地探索其工具的优势和劣势。OpenAI 的产品经理 Joanne Jang 表示，“用户们给我们提供了大量很棒的反馈”。

还原真实摄影师个人风格的 AI 生成图片

（图片来源：Michael Green）

OpenAI 已经采取了一些措施来限制用户可以生成的图像，比如名人的图像就是不能生成的。在为这次商业发布做准备时，OpenAI 也应对了早期用户标记出来的另一个严重问题，也就是4月发布的 DALL-E 版本经常生成带有明显性别和种族偏见的图像，例如 CEO 和消防员的图像都是白人男性，而教师和护士就都是白人女性。

7月18日，OpenAI 发布了一个修复方案。他们声称，当用户要求 DALL-E 2 生成一个包含了一群人的图像时，AI 现在会调用一个更能代表全球多样性的样本数据集。根据其自身测试的结果，OpenAI 表示，用户报告 DALL-E 2 生成的图像包括来自不同背景的人物的可能性如今提高了12倍。

还原真实摄影师个人风格的 AI 生成图片

（图片来源：Michael Green）

这当然是一个必要的修正，但不免太流于表面了。OpenAI 解决其用户标记的大多数问题的方式，是对人们输入的文字请求进行筛选过滤，或是直接对底层模型生成的东西进行审查，但这并没有修复模型本身，也没有解决其训练数据集中的问题。诚然，这种方法让 OpenAI 得以进行快速修复，但一些人会说，这样的做法只是修修补补，没有从根源上解决问题。

DALL-E 2 模仿英年早逝的奥地利表现主义画家

埃贡·席勒 (Egon Schiele) 创作的画作

（图片来源：Stefan Kutzenberger)

“算法中存在的社会偏见问题非常大”，伦敦经济学院的 Judy Wajcman 如此说道，她同时也在图灵研究所研究数据科学和人工智能中的性别问题，“大量的精力被用在了技术修复上，我尊重也赞许这样的努力，但它们不是长久之计。”

DALL-E 2 生成的特色菜“毕加索巧克力慕斯”概念图

（图片来源：Tom Aviv）

OpenAI 表示，其在处理性别和种族偏见方面问题的工作相当于一颗定心丸，使得它有信心进行全面开放。然而，这还远远没有结束，AI 中的偏见是一个有害又难以解决的问题，而随着新问题的出现，该公司将不得不继续它的“打地鼠”行为。对此，OpenAI 表示，只要产品需要调整，它就会随时暂停首发。

DALL-E 2 生成的超现实图像

（图片来源：Daneille Baskin）

Welinder 表示，这是一种平衡的举措。这些调整有时会以意想不到的方式干扰用户的创作，比方说，当 OpenAI 第一次发布其针对性别偏见的修复时，一些用户抱怨说，他们现在得到了过多的女性超级玛丽奥。这种情况是很难预测的，Welinder 解释道，“真正看到人们试图用它创作什么东西可以帮助我们进行微调和校准。”

DALL-E 2 生成的匡威鞋设计

（图片来源：Don Allen Stevenson III）

不过，监控由一百万甚至更多用户创作的数以亿计的图像将是一项庞大的工程。Welinder 不愿透露将会需要多少名真人来审核，但表示他们将会是内部员工。公司将采用人机搭配的方式进行审核，将人工判断与自动审查结合起来。Welinder 表示，团队的组成可以根据需要进行调整，可能加入更多的审核人员，也可以通过调整人机之间比例的平衡来实现。

DALL-E 2 作为艺术家想象力的“转译工具”

（图片来源：August Kamp）

5月份的时候，谷歌展示了自己的图像生成 AI，称为 Imagen，这一技术与 DALL-E 2 一样，是基于生成式对抗神经网络（作为“对抗性神经网络”入选2018年《麻省理工科技评论》“全球十大突破性技术”）发展而来的。不过与 OpenAI 不同的是，谷歌就其对于这项技术的计划几乎只字未提。谷歌发言人 Brian Gabriel 表示，“关于 Imagen，我们暂时还没有什么新东西可以分享”。

对抗性神经网络入选2018年《麻省理工科技评论》

“全球十大突破性技术”

早在2015年成立时，OpenAI 是作为一个纯粹的研究性实验室出现的，它相信通用人工智能，并承诺确保该技术将造福人类——如果哪一天它真的实现了的话。不过，在过去几年中，它已经转型成为一家提供产品的公司，并向付费客户出售其强大的 AI 。

大愿景是没有变的，Welinder 表示，“我们使命当中的一个关键就在于将我们的技术作为产品进行规模化部署，在利害关系比较小的早期，就围绕技术进行实用性和安全性方面的迭代是非常重要的。”

OpenAI 在今年四月初使用 DALL-E 2 生成的惊人图像“马背上的宇航员”

（图片来源：OpenAI）

参考资料：

1.https://www.technologyreview.com/2022/07/20/1056238/openai-product-launch-dall-e-million-customers-ai-bias/

2.https://www.technologyreview.com/2022/04/06/1049061/dalle-openai-gpt3-ai-agi-multimodal-image-generation/

3.https://openai.com/blog/dall-e-2-extending-creativity/

4.twitter.com

5.instagram.com

原文作者：Will Douglas Heaven

编、译：Gabriel

-End-

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章