Redian新闻
>
“召唤”惊悚红脸女子,被禁止的AI绘图方式里竟然藏着这么可怕的东西

“召唤”惊悚红脸女子,被禁止的AI绘图方式里竟然藏着这么可怕的东西

其他



(图片右滑可见)

图片来源:supercomposite推特


AI绘图这种“新时代魔法”,已经可以召唤鬼魂了?观看本文前请做好心理准备。

撰文 | 陶兆巍
审校 | 王昱

2022年9月,一位艺术家发现,AI文本生成图像模型的中似乎隐藏着一个可怕的,满脸血印的红脸女子,她的意象出现在各种各样生成的图片里面,挥之不去。





(图片右滑可见)

这名AI生成的“红脸女子”被命名为Loab。图片来源:supercomposite推特


这样的恐怖效果是怎么出现的?机器神经网络的记忆空间中真藏有不可磨灭的阴暗内容?


首先我们来回顾事情的发展过程。(鬼图警告!)


负数权重开启的“隐空间”


这位艺术家——Supercomposite,在推特上公布了她的发现过程。她使用了一个火爆的文本生成图像App:Midjourney。


通常我们生成图片时需要给的文字提示附加一个参数,称之为提示的权重(Weight,如果不输入就采用默认值),权重越大,生成的图像和这段文字的关联性就越大。比如,“企鹅::0.5, 热带雨林::0.5”会生成一只热带雨林中的企鹅;但“企鹅::0.9, 热带雨林::0.1”只能生成一只位于不明背景的企鹅;而“企鹅::0.1, 热带雨林::0.9”可能会生成雨林里一只嘴巴和企鹅相似的鸟。


图片使用Midjourney生成


如果权重为负,那么机器会尝试远离提示词作图,比如“北极熊::0.6,白色::-0.5”会生成一只棕色的北极熊,本应出现的白色冰川和浮冰变成了山脉和石块:


图片使用Midjourney生成


Supercomposite希望探索存储AI记忆“隐空间”,而不仅仅是让它绘制自己想要的图案,于是她做了一件与众不同的事:把权重调成了很大的负数,这样机器会跑到它记忆中的哪里呢?


首先她试了试“Brando::-1”(Brando是一位影视明星)。结果得到了一个奇特的logo,这的确很不Brando。


图片来源:Supercomposite推特


然后她想看看尽可能远离上面这幅图案会得到什么,于是她试了试“DIGITA PNTICS skyline logo::-99.99”,结果,获得了一些令人不安的图像:





(图片右滑可见)

图片来源:supercomposite推特


四张图案,都是无助的、脸上带着严重红色痤疮的老女人。她把这个红脸女子命名为Loab(图二角落的文字)。她想看看,把Loab的和正常的图片融合可以得到什么。

她选择一幅由“环绕着天使的超压缩玻璃隧道”生成的图案。把两者进行默认融合(没有提示词),结果不知为何,Loab完全盖过了正常的图片,红脸女人的意象开始大量出现,并且极具恐怖效果。




(滑动显示Loab和上图融合后的图案,融合后的图案较为恐怖,请谨慎观看)

图片来源:supercomposite推特


Supercomposite完全被这些图片所传达的“怪诞的场景、绝望、恐惧和悲伤”所震撼到了。震惊之余,她也感到奇怪:“既然Loab是用负权重生成的,那她代表的意象应当是远离某种特定事物的。但是,这却是一个确定的意象:把Loab和各种各样的图片结合,迭代几次后,几乎所有的图片中都有明显的Loab的特征。




(图片右滑可见)

图片来源:supercomposite推特


艺术家发现,哪怕她诱导AILoab的特征消除之后,过了几代,Loab的特征又会意想不到地突然重现。




(图片右滑可见)

图片来源:supercomposite推特


AI的“隐空间”


据说Midjourney是一种基于扩散模型(Diffusion Model)开发的AI绘图模型(只是公司官方没有声明)。2022年出现了AI绘图领域井喷式的发展,其最大原因便是扩散模型的大规模应用——DALL-E 2、Stable Diffusion、Imagen和NovelAI,很可能还包括Midjourney,都是基于扩散模型开发的文生图AI中的佼佼者。(甚至,Google上周发布的视频生成模型Dreamix也是基于扩散模型)


扩散模型实际上2015年就被发明出来了,它是物理学家Sohl-Dickstein的杰作受到热力学熵增过程的启发——当我们在水中滴入一滴墨汁,它会逐渐扩散开来,最终变成完全混乱的灰色的水——他提出想法:我们是否有办法通过机器学习的方式,根据后来的情况预测此前水中墨汁的状态?


这个问题在机器学习中其实具有普遍意义:墨汁分子扩散的每一秒的位置都相当于前一秒的位置上加上一个随机的小位移;如果我们用随机改变图像的每一个像素点的颜色来为图像“打码”,每个像素点的颜色每一回合都会在光谱上稍微左右移动(严格的说法叫添加一个高斯噪声)。


经过上百个回合之后,原来的图片已经面目全非。这时我们可以把这幅图片变化过程中的每一个步骤都告诉AI,再给它一段提示词,让它自己去领悟怎么通过后一回合的图像猜测前一回合。久而久之,AI便能通过提示词和完全混乱的噪声图像中还原出提示词所描述的图像。


扩散模型生成图片的中间步骤。图片来源:wikipedia

经过几年的发展之后,扩散模型的方法已经可以生成既灵活又在细节上可控的图片,唯一问题是,它太慢了。普通人可不愿意为了一张图片等上半个小时。因此,科学家为扩散模型加上了一个中间步骤——隐空间(latent space)。


隐空间相当于是“机器对图像(或者文字等)的理解”。此时扩散过程不再作用于图片本身,而作用于机器对图像的理解上。为了让信息(图像、文字或其他表示)进入隐空间,需要通过一个编码器(encoder)。当AI在脑中用扩散画好图片之后,再通过一个解码器(decoder)告诉我们它脑中的图片长什么样。


带有隐空间的扩散模型架构,信息通过编码器(E和 τθ)进入隐空间(中间),通过解码器(D)输出。图片来源:wikipedia


隐空间相当于一种以准确性为代价换取计算容易度的做法。这就好比以前你想向你的朋友描绘你见到的一只狗,你必须你看到的狗一笔一划画出来给他看,这样准确但是既费时(消耗算力大)又有巨大的内存(绘画技能)需求;而隐空间的方法则相当于你在脑中组织一个关于这只狗的描述(既简单又快速),比如“一只彩虹色皮肤的无毛比熊犬”,然后让对方大脑自己想象(解码)你生成的描述。这种方法很快,不过最终的结果依赖于解码器的能力。


AI无法正确理解“彩虹色皮肤的无毛比熊犬”。图片使用Midjourney生成。


Loab的故事意味着什么?


这么看来,艺术家对隐空间的理解大致正确:扩散模型(至少扩散这个步骤而言)习得的知识的确都在隐空间中。负权重法可能的确是个不错的生成不可控随机图案的好方法——毕竟Midjourney后来就把这个功能禁了,现在它要求所有权重之和大于零,这样生成的图片大概更可控。


但与艺术家所说不同,Loab一旦产生,这张图片就已经从制造它的负权重提示中脱离出来了。也就是说,当使用它来合成图片时,它实际上是一个正向的提示词。


从模型的架构来看,想要用一张图作为新图片生成的原材料,原料处理过程和文字基本类似——都是通过编码器(使用的编码器不同)变为机器的理解,然后所有这些理解同时应用在扩散过程当中。(所以某些应用中也允许给原料图片加上负权重,效果不错!)


北极熊, --no  "左图",生成的四张图像,的确和原图很不一样。原图来源:wikipedia

另外,Loab的产生原因除了一点偶然性,可能也和当时(22年4月)模型中的训练数据有关。由于被批评生成了过多的血腥图像,Midjourney大概在后来的训练集中塞了不少美女图,以至于现在如果输入空白提示词,它都有很大概率给你返回一些美少女画像——现在想随便画出一个哪怕是有点可怕的老女人都很难了。


不过,整个故事在关于“机器的人性”方面并没有太深刻的含义,机器的记忆中并没有什么惊人的噩梦。这个故事只说明了AI对图像意象的捕捉和描绘能力的确不错。


这件事情之所以引起广泛关注,其原因还在于人性本身。


克苏鲁神话的作者曾经说过:恐惧是人类最古老的,也是最强烈的情感,而最强烈的恐惧则是对未知的恐惧。但反过来,人们也从来管不住自己的眼睛。制造恐惧从来都是门很好的生意。


人类的确有动机诱导AI来制造恐惧。


艺术家本人发现了Loab这位偶然生成的,令人不安的女子,并且成功用各种各样不同的提示和图片合成进行“图像育种”,创造出了足够惊恐的各色风格的图案——关键是,这还是通过“远离事物的负权重”,来到达“未知的隐空间”所创造的。这个策略很成功——人们的确爱看她的恐怖图案。


这次事件最大的流量来源,也同时是最大的误解,其实是传播它的媒体搞出来的。许多报道认为,只要以特定的方式使用负权重法,机器就会不可避免地产生带有同一种意象的恐怖图案。


但其实,有一位疑惑的网友在一条几乎无人问津的推特中向Supercomposite确认这件事:


图片来源:supercomposite推特

“等等,所以其实上,你是在把这个女人的原始图像和新提示词混合;你没有说“她”总能被你给的负权重提示完美地生成出来,对吧?”


“没错。”


不过不管怎样,现在Loab已经占满了艺术家本人的主页封面——这是她这辈子最得意的作品。


参考链接:

https://twitter.com/supercomposite/status/1567162288087470081

https://dreamix-video-editing.github.io/

https://arxiv.org/abs/1503.03585

https://supercompo.site/


《环球科学》1月新刊正在热卖

各电商平台均有销售


点击【在看】,及时接收我们的内容更新 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
齐邦媛:我不赞成任何狂热的东西,狂热的东西都不持1死1伤!炸响日落区的民宅内,竟然藏着1座制毒工厂...千万不要这么做!登机牌背后竟藏着这么多危险信息!90%的华人不知道...你退休会搬到这样的地方么?洗衣机里竟然藏着这个?用它掏出3年老污垢水果蔬菜竟然这么脏!用华中农大研发的果蔬净,泡洗出的东西真把我吓坏了都说美国治安可怕,是因为枪击事件频繁,但是比枪击事件更可怕的,却很少人知道...突发:疫情肆虐下,缅甸小国!居然隐藏着比黄金更加保保值的东西!拿骚,姐来了女子被禁锢在史岛!可怕男友对其暴打、镣铐 逃脱后直奔警局求助学霸推荐!真牛,6米长的画卷里竟藏着5千年中国历史,让孩子惊呼看100遍都不够...深度曝光:成本500!标价10000,翡翠产业竟然隐藏着这么多不为人知的秘密。。。(值得收藏)长期吃短效避孕药有什么可怕的副作用?女子没穿内衣乘公交,被色狼袭胸!更可怕的还在后面…朝阳CBD里竟然藏着一个“小联合国学校”?帝都妈妈群爆火的乐成学校开放日来了传统的CAD出图方式,会被取代吗?ChatGPT,原来这么可怕!这对中国父女40年在同一地点拍照片,火遍国内外!甲方最爱的构图方式,没有之一!XBB.1.5不可怕,可怕的是无知专题 | 日本精致农业的背后,原来藏着这些秘密!纽约的亚洲小吃食堂,竟然藏在NYU边上?澳洲华人小心!千万别晒登机牌!背后藏着这么多恐怖信息!如果登机牌上出现这4个字母,你已经被盯上了!有人损失惨重!邻居得了COVID之后杭州“凶宅”170万元成交,我看到这世界上比鬼更可怕的东西…36万辆!特斯拉大举召回,市值一夜蒸发2600亿,马斯克吐槽:你们管这叫“召回”?GNOME 截图工具的新旧截图方式 | Linux 中国重磅!新西兰政府更新入境指南!这些东西被禁止入境了!伦敦周边竟然藏着电影取景热门地?让人去了就不想离开!普京失业不可怕,可怕的是这些人失业你吃的东西里,藏着你的三观齐邦媛:我不赞成任何狂热的东西,狂热的东西都不持久36万辆!特斯拉大举召回,一夜大跌2600亿!马斯克吐槽:你们管这叫“召回”?最揪心最魔幻最荒诞的两个案子“美国私人拥枪很可怕”,更可怕的是这个,很多人假装不知道
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。