侵权、抢功争议不断，Stability AI 陷入漩涡

科技

2022-10-26 00:10

解释最新科技进展，报道硅谷大事小情

点击上方“硅星人”关注我们~

侵权、“抢功”争议不断，Stability AI 陷入漩涡。

——

文｜杜晨编辑｜VickyXiao 图片来源 | Stability AI

无数创业产品和业余项目出现，谷歌、字节等巨头公司也都纷纷入局——最近 AI 创作这条赛道有多拥挤，已经无需多言。

所有参赛选手当中，最火的一家莫过于 Stable Diffusion。该项目背后的公司之一 Stability AI，也成为了行业的当红炸子鸡。号称“要让10亿人用上开源大模型”的它，前不久刚刚完成了1亿美元融资，估值达到10亿美元跻身独角兽行列，

然而就在上周，Stable Diffusion 项目，以及这家风头正劲的公司，突然接连卷入两场争议：

不仅被艺术创作者“群起而攻之”，

还被合作伙伴“反水”，被质疑“抢功”……

/ 偷风格，算偷吗？ /

上周，美国媒体 CNN 采访了多位艺术家。这些受访者愤怒地表示：无法接受 Stable Diffusion 用他们的作品，却砸他们的饭碗。

这些艺术家的作品，或者更准确来说，他们在作品中所体现的风格，都被 Stable Diffusion 用于训练模型了。

受访者之一是在艺术节有一定知名度的油画家 Erin Hanson。她的油画作品用色风格非常独特，采用了更加多样化、具有视觉冲击力的色彩，且饱和度极高，已经在艺术圈内形成了个人特色。

前段时间 Stable Diffusion 爆红之后，Hanson 注意到有人用这个模型生成的一些图片结果，竟然有自己作品的味道。

经过进一步调查，她更加惊讶了：用户甚至可以在生成图片的时候，直接输入“Erin Hanson 风格”作为文字提示的一部分。Stable Diffusion 生成的结果，和 Hanson 已经发表的作品几乎一模一样……

如果不注意画中 Hanson 的签名水印的话，你可能完全会以为两张都是 Hanson 的亲笔创作：

图片来源：Erin Hanson（左）、Rachel Metz via Stable Diffusion（右）

但其实左边有签名水印的才是 Hanson 的正版作品 "Crystalline Maples"；右边则是 CNN 记者通过 Stable Diffusion 生成的结果，使用的文字提示包括：水晶油画，光和影，背光的树，强烈轮廓，彩色玻璃，现代印象派，Erin Hanson 风格等。

“如果我把它挂在我的墙上，应该毫不违和吧？”Hanson 对 Stable Diffusion 的“创作能力”表示相当惊讶。

但在仔细研究了 Stable Diffusion 工作机制之后，她才明白过来：这个 AI 模型根本没有自己的创作能力。

因为它的风格，属实是“抄”来的。

Stable Diffusion 是一个具备文字转图片/视频能力的生成模型，可以用几秒钟时间就生成高分辨率、具备真实性和/或“艺术性”的视觉结果。在训练方面，这个模型的初代版本采用了大约4000台A100显卡集群，用了一个月的时间。

而它的训练数据，则来自于德国AI非营利机构 LAION（全称大规模人工智能开放网络）。初代版本所采用的的训练数据集，包括了近60亿条图片-文字平行数据。

很多和 Henson 一样感到愤怒的艺术家们发现，原来是自己的作品，以及对应的文字平行数据（比如姓名），被收录到了 LAION 相关数据集里——才导致了自己的作品和风格，被这个爆红的 AI 创作模型所“剽窃”。

从网上大规模搜集资料作为 AI 模型的训练数据，早已不是什么新鲜事。事实上，今天我们正在使用的很多基于 AI 的技术和产品，包括并不限于搜索引擎、短视频推荐算法、翻译、图像识别等，背后的模型在训练阶段都重度使用了一些知名数据集。

这些数据集的内容，绝大多数是没有版权/使用目的限制的，无论最终是商业还是非商业目的，任何人都可以使用，只需要遵守相应的来源引用和使用规范即可。

一些比较常用的图片数据集举例图片来源：Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples

不过，随着AI技术越来越先进，应用领域越来越多样，新的使用场景（比如今天讨论的AI文字生成图片）就对更大规模的训练数据集，更多来自公开网域的各种形式（文字、图片、音频、视频等）的信息和资料，产生了巨大的需求。

当数据集从几万，几十万张图片，“扩容”到几亿甚至几十亿张的规模时，这一过程当中，难免存在一些权利方面的漏洞。

而今天这些出离愤怒的艺术家们，就成为了权利漏洞，以及利用这些漏洞进行商业化获益行为的受害者。

他们的愤怒并非没有理由。

毕竟 AIGC（AI生成内容）这一或将导致艺术家们失业的新技术领域，已经成为现如今科技创业的大热门，无数创业者、投资人疯狂涌入。结果夺走他们工作的这个玩意儿，居然正是用他们的创作风格所训练出来的。

本来艺术家们已经是一个普遍比较拮据的群体了。现在这些 AI 端了人家的碗，还要砸人家的锅——你说他们能不生气么……

Erin Hanson 图片来源：本人

在艺术家和版权人士的呼吁和努力之下，现在已经有人开发出了一些工具，帮助权利人在大型数据集当中搜索自己主张权利的作品。

比如 LAION 自己做了一个网页工具可以把文字转换为 CLIP embedding，用于搜索描述相同或者相似的内容。

再比如还有一个取名很巧妙的网站，叫做“Have I Been Trained”，帮助创作者搜索 LAION 数据集，查看自己的作品是否被用于训练了。

图片来源：Have I Been Trained?

“Have I Been Trained” 的背后是一对居住在德国的艺术家和开发者，他们表示：在帮助艺术家确认自己的作品是否被大规模数据集收录之余，他们很快还将发布一套新的工具，允许艺术家能够自主选择作品是否被数据集所收录。为此，这两位开发者已经和多家从事大规模 AI 模型研发的机构和公司进行了接洽。

对于“艺术家应该掌握作品是否被收录控制权”这件事，Stability.AI 和 LAION 也表示同意。

然而即便如此，Stable Diffusion 也只是众多 AIGC 类模型的其中一个而已。还有更多模型/产品/项目处于未开源状态，艺术家和权利人想要正当维护自己的权益，所面临的挑战和阻碍，只会随着时间变得更多和更艰难。

直到这一问题在全行业通过规范或制度解决之前，Stable Diffusion，以及包括 DALL·E 2、Midjourney 等在内的主流模型，仍将作为“AI侵权”指控的对象长期存在。

/ 多方心血，一家独占？ /

由于 Stability AI 这家公司在过去一直正面和侧面将自己宣传为 Stable Diffusion 项目幕后的功臣，像侵权这样的锅，也被该公司背上了。

然而侵权只是 Stability AI 当前面临的诸多烦恼之一。就在前不久该公司完成1亿美元融资，正式晋升为独角兽之际，它突然发现：

正因为揽了太多的功劳，过去一起做项目的好伙伴，对自己意见很大……

故事要先从上周四说起：一家名叫 Runway ML 的公司，在 Twitter 账号上表示发布了 Stable Diffusion 1.5 版本。

网友一下子懵了：

等一下，你们这是正式版吗？为啥 Stability AI 没有任何公开宣布或者支持呢？

图片来源：@ScottieFoxTTV

你们这个是 Stability AI 做的么？

图片来源：@buZztiaan

紧接着就在发布当天，发布网站 Hugging Face 透露，收到了来自 Stability AI 的删除请求：

Stability AI 表示这个版本属于其“知识产权泄露”，并要求 Hugging Face 下架这一发布……

就连 Hugging Face 自己也懵了，因为这样的请求过去几乎从没有过。它在这个删除请求下面加了一行字：为了保证过程透明公开，请这个repo的所有者（Runway）和Stability AI 提供更多资料……

图片来源：Hugging Face

这究竟是怎么一回事呢？

首先我们需要再回顾一下 Stable Diffusion 的来历：

需要明确的是，Stable Diffusion 的技术本身，其实来自于慕尼黑大学机器视觉学习组，和 Runway 公司。

今年的 CVPR22 大会上，这些研究者共同发表了一篇论文，研究的是潜伏扩散模型，论文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是这篇论文里的研究，在后来成为了 Stable Diffusion 模型的理论技术基础。