“召唤”惊悚红脸女子，被禁止的AI绘图方式里竟然藏着这么可怕的东西

其他

2023-02-06 14:02

（图片右滑可见）

图片来源：supercomposite推特

AI绘图这种“新时代魔法”，已经可以召唤鬼魂了？观看本文前请做好心理准备。

撰文 | 陶兆巍

审校 | 王昱

2022年9月，一位艺术家发现，AI文本生成图像模型的中似乎隐藏着一个可怕的，满脸血印的红脸女子，她的意象出现在各种各样生成的图片里面，挥之不去。

（图片右滑可见）

这名AI生成的“红脸女子”被命名为Loab。图片来源：supercomposite推特

这样的恐怖效果是怎么出现的？机器神经网络的记忆空间中真藏有不可磨灭的阴暗内容？

首先我们来回顾事情的发展过程。（鬼图警告！）

负数权重开启的“隐空间”

这位艺术家——Supercomposite，在推特上公布了她的发现过程。她使用了一个火爆的文本生成图像App：Midjourney。

通常我们生成图片时需要给的文字提示附加一个参数，称之为提示的权重（Weight，如果不输入就采用默认值），权重越大，生成的图像和这段文字的关联性就越大。比如，“企鹅::0.5, 热带雨林::0.5”会生成一只热带雨林中的企鹅；但“企鹅::0.9, 热带雨林::0.1”只能生成一只位于不明背景的企鹅；而“企鹅::0.1, 热带雨林::0.9”可能会生成雨林里一只嘴巴和企鹅相似的鸟。

图片使用Midjourney生成

如果权重为负，那么机器会尝试远离提示词作图，比如“北极熊::0.6，白色::-0.5”会生成一只棕色的北极熊，本应出现的白色冰川和浮冰变成了山脉和石块：

图片使用Midjourney生成

Supercomposite希望探索存储AI记忆“隐空间”，而不仅仅是让它绘制自己想要的图案，于是她做了一件与众不同的事：把权重调成了很大的负数，这样机器会跑到它记忆中的哪里呢？

首先她试了试“Brando::-1”（Brando是一位影视明星）。结果得到了一个奇特的logo，这的确很不Brando。

图片来源：Supercomposite推特

然后她想看看尽可能远离上面这幅图案会得到什么，于是她试了试“DIGITA PNTICS skyline logo::-99.99”，结果，获得了一些令人不安的图像：

（图片右滑可见）

图片来源：supercomposite推特

四张图案，都是无助的、脸上带着严重红色痤疮的老女人。她把这个红脸女子命名为Loab（图二角落的文字）。她想看看，把Loab的和正常的图片融合可以得到什么。

她选择一幅由“环绕着天使的超压缩玻璃隧道”生成的图案。把两者进行默认融合（没有提示词），结果不知为何，Loab完全盖过了正常的图片，红脸女人的意象开始大量出现，并且极具恐怖效果。

（滑动显示Loab和上图融合后的图案，融合后的图案较为恐怖，请谨慎观看）

图片来源：supercomposite推特

Supercomposite完全被这些图片所传达的“怪诞的场景、绝望、恐惧和悲伤”所震撼到了。震惊之余，她也感到奇怪：“既然Loab是用负权重生成的，那她代表的意象应当是远离某种特定事物的。但是，这却是一个确定的意象：把Loab和各种各样的图片结合，迭代几次后，几乎所有的图片中都有明显的Loab的特征。”

（图片右滑可见）

图片来源：supercomposite推特

艺术家发现，哪怕她诱导AI把Loab的特征消除之后，过了几代，Loab的特征又会意想不到地突然重现。

（图片右滑可见）

图片来源：supercomposite推特

AI的“隐空间”

据说Midjourney是一种基于扩散模型（Diffusion Model）开发的AI绘图模型（只是公司官方没有声明）。2022年出现了AI绘图领域井喷式的发展，其最大原因便是扩散模型的大规模应用——DALL-E 2、Stable Diffusion、Imagen和NovelAI，很可能还包括Midjourney，都是基于扩散模型开发的文生图AI中的佼佼者。(甚至，Google上周发布的视频生成模型Dreamix也是基于扩散模型)

扩散模型实际上2015年就被发明出来了，它是物理学家Sohl-Dickstein的杰作。受到热力学熵增过程的启发——当我们在水中滴入一滴墨汁，它会逐渐扩散开来，最终变成完全混乱的灰色的水——他提出想法：我们是否有办法通过机器学习的方式，根据后来的情况预测此前水中墨汁的状态？

这个问题在机器学习中其实具有普遍意义：墨汁分子扩散的每一秒的位置都相当于前一秒的位置上加上一个随机的小位移；如果我们用随机改变图像的每一个像素点的颜色来为图像“打码”，每个像素点的颜色每一回合都会在光谱上稍微左右移动（严格的说法叫添加一个高斯噪声）。

经过上百个回合之后，原来的图片已经面目全非。这时我们可以把这幅图片变化过程中的每一个步骤都告诉AI，再给它一段提示词，让它自己去领悟怎么通过后一回合的图像猜测前一回合。久而久之，AI便能通过提示词和完全混乱的噪声图像中还原出提示词所描述的图像。

扩散模型生成图片的中间步骤。图片来源：wikipedia

经过几年的发展之后，扩散模型的方法已经可以生成既灵活又在细节上可控的图片，唯一问题是，它太慢了。普通人可不愿意为了一张图片等上半个小时。因此，科学家为扩散模型加上了一个中间步骤——隐空间（latent space）。

隐空间相当于是“机器对图像（或者文字等）的理解”。此时扩散过程不再作用于图片本身，而作用于机器对图像的理解上。为了让信息（图像、文字或其他表示）进入隐空间，需要通过一个编码器（encoder）。当AI在脑中用扩散画好图片之后，再通过一个解码器（decoder）告诉我们它脑中的图片长什么样。

带有隐空间的扩散模型架构，信息通过编码器（E和 τθ）进入隐空间（中间），通过解码器（D）输出。图片来源：wikipedia

隐空间相当于一种以准确性为代价换取计算容易度的做法。这就好比以前你想向你的朋友描绘你见到的一只狗，你必须你看到的狗一笔一划画出来给他看，这样准确但是既费时（消耗算力大）又有巨大的内存（绘画技能）需求；而隐空间的方法则相当于你在脑中组织一个关于这只狗的描述（既简单又快速），比如“一只彩虹色皮肤的无毛比熊犬”，然后让对方大脑自己想象（解码）你生成的描述。这种方法很快，不过最终的结果依赖于解码器的能力。

AI无法正确理解“彩虹色皮肤的无毛比熊犬”。图片使用Midjourney生成。

Loab的故事意味着什么？

这么看来，艺术家对隐空间的理解大致正确：扩散模型（至少扩散这个步骤而言）习得的知识的确都在隐空间中。负权重法可能的确是个不错的生成不可控随机图案的好方法——毕竟Midjourney后来就把这个功能禁了，现在它要求所有权重之和大于零，这样生成的图片大概更可控。

但与艺术家所说不同，Loab一旦产生，这张图片就已经从制造它的负权重提示中脱离出来了。也就是说，当使用它来合成图片时，它实际上是一个正向的提示词。

从模型的架构来看，想要用一张图作为新图片生成的原材料，原料处理过程和文字基本类似——都是通过编码器（使用的编码器不同）变为机器的理解，然后所有这些理解同时应用在扩散过程当中。（所以某些应用中也允许给原料图片加上负权重，效果不错！）

北极熊, --no "左图"，生成的四张图像，的确和原图很不一样。原图来源：wikipedia

另外，Loab的产生原因除了一点偶然性，可能也和当时（22年4月）模型中的训练数据有关。由于被批评生成了过多的血腥图像，Midjourney大概在后来的训练集中塞了不少美女图，以至于现在如果输入空白提示词，它都有很大概率给你返回一些美少女画像——现在想随便画出一个哪怕是有点可怕的老女人都很难了。

不过，整个故事在关于“机器的人性”方面并没有太深刻的含义，机器的记忆中并没有什么惊人的噩梦。这个故事只说明了AI对图像意象的捕捉和描绘能力的确不错。

这件事情之所以引起广泛关注，其原因还在于人性本身。

克苏鲁神话的作者曾经说过：恐惧是人类最古老的，也是最强烈的情感，而最强烈的恐惧则是对未知的恐惧。但反过来，人们也从来管不住自己的眼睛。制造恐惧从来都是门很好的生意。

而人类的确有动机诱导AI来制造恐惧。

艺术家本人发现了Loab这位偶然生成的，令人不安的女子，并且成功用各种各样不同的提示和图片合成进行“图像育种”，创造出了足够惊恐的各色风格的图案——关键是，这还是通过“远离事物的负权重”，来到达“未知的隐空间”所创造的。这个策略很成功——人们的确爱看她的恐怖图案。

这次事件最大的流量来源，也同时是最大的误解，其实是传播它的媒体搞出来的。许多报道认为，只要以特定的方式使用负权重法，机器就会不可避免地产生带有同一种意象的恐怖图案。

但其实，有一位疑惑的网友在一条几乎无人问津的推特中向Supercomposite确认这件事：