“这图一眼就是AI！”那你能展开讲讲么？

其他

2024-02-10 14:02

互联网有一条经典的“第 34 号规则”（Rule 34）：如果一个东西存在，那么它必然会被用来搞黄色。AI 绘画就很好地说明了这一点——目前最流行的几个 AI 绘画分享网站，都有至少三分之一的内容是各种黄图。

图源：GIPHY

但是这里出现了一个小小的问题：人们普遍觉得，这些图里的大多数，虽然黄，但不“色”。

是千篇一律的僵硬神色和动作？或许是扭曲不自然的姿态？又或许是依旧容易画错的手指和奇怪的透视？是什么让人能够一眼分辨出某些图是 AI 画的？我们真的要乞灵于“灵性”“灵魂”这样的词语吗？

当我们能够理解，是什么让人能够判断出一张图是否是 AI 画的，我们就能够更好的理解 AI 绘画本身。

妙，可不可言？

如今，我们都多少大致了解过 AI 绘画的原理：首先，我们要有一个训练数据集，这个数据集里包括一系列的图片，和与图片对应的、描述图片元素的一系列文本；把这些数据喂给 AI，AI 就能学会将这些文本和图片之间联系起来；专业的术语，就是将图片中的内容翻译成一个“高维的文本向量”；如果这种内容到向量之间的翻译足够合理，那么我们就可以将这个翻译机制，也就是“多层神经网络”反过来使用，通过一系列的文本提示词（prompts），将文本向量重新翻译回相应的画面。

如果我们将中间的 diffusion model 之类的技术细节省略，我们会发现一个目前 AI 绘图和人类绘画最基本的逻辑区别：AI 绘画是从文字语言出发的；而人类的视觉艺术，是从视觉本身出发的。人类在画一幅画的时候，首先是从脑袋里想象出某个视觉形象，然后一步步细化，构成画面，这中间可以完全没有任何语言的参与；而 AI 绘画则要求你首先去总结出画面中的元素，形成文字，然后再通过文字反向去描述出画面。

图源：GIPHY

从这个角度，我们可以察觉出它与本雅明所谓“机械复制时代的艺术”有着某种本质性的区别：视觉艺术，从本质上是不可言说的，或者更准确的说，是在语言之外的；这点是因为人类大脑处理视觉图像与处理语言根本上不是同样的区域，我们看到一幅图像所激发起的感情，我们创作一幅图像所投入的感情，本质上都是语言之外的东西。

而目前的 AI 绘画则实际上是我们要用语言去描述视觉，那么它注定只能传达出我们对于整个视觉世界中能够用语言描述的那一小部分。

所以，当我们在使用 AI 绘图的时候，我们给出的提示词，绝大多数情况下给出的是绘图中的“元素”；而不是绘图的“上下文”（context），或者说逻辑；因为目前的这套通过文本生成图片的 AI 算法本质上是无法理解逻辑的。图像中的逻辑也很难通过文字描述出来。最简单的例子，就是我们鉴别 AI 曾经常用的“手指法”（如今已改进许多）：AI 可以很容易地画出一个美少女，但是很难把美少女的手指数量画对。而手指数量的问题，实质上就是一个绘图逻辑问题：人类都知道人类每只手上都长着五根手指，但是 AI 是无法通过目前的这套文本到图形的关联算法里学到这个基本知识的。

图源：网络

而为什么 AI 无法理解绘图的逻辑？这就要涉及我们要说的目前 AI 面临的最基本的问题：世界模型。

关于智慧的“模型”

发明出“人工智能”的同时，人类科学家们需要回答一个同等重要的问题：什么是“智能”？

而随着人工智能 / 认知科学的进步和发展，我们现在对于“人类智能是如何运行的”，有了更清晰的认识：人类，或者准确的说已知所有生物智慧的运行基础，都依赖于一个“世界模型”——我们依赖于对世界的认识，反过来界定我们自身的存在。

图源：unsplash

我们与周遭的世界和环境，与其他人的接触，都是我们对于这个“世界模型”的调用和运行；如果没有这个世界模型，智能本身就不存在了。在认知科学里，这叫做“具身认知”：我们身体和外界的关系构成了我们“认知模型”里非常重要（甚至是最主要）的部分。而人类的抽象思维和语言（最关键的思考工具），则基本上完全依赖于对于这个物理世界的类比和模拟，这被称作“具身模拟”。

相关的内容可以参考几本书

《我们赖以生存的隐喻》《我们赖以生存的意义》《表象与本质》

这种对于物理世界的认识和建模，则是目前人工智能开发里最大的障碍：如何让人工智能建立一个世界模型？让它能够理解它看到了什么，而不是作为一个单纯的统计分类机器？自动驾驶实际上就卡在这里：机器智能机械的分类它接受到的影像数据并且做相应的反应，而很难将这些数据统计和归纳，建立一个世界模型，所以自动驾驶才会出那么多的无穷无尽的 corner case。

图源：GIPHY

AI 绘图与人类绘画根本差异的原因也就在此：绘图 AI 是没有世界模型的。所谓的“上下文”或者说“逻辑”，就是这个世界的基本的规律；人手一般都会有五根手指，这就是规律之一。绘图 AI 要能够理解它看到了什么，而不是神经网络单纯的记住了，某些元素和另一些元素一同出现的概率比较高，它才能表现得像一个人类画师。

曾有很多人质疑，AI 绘图是否能真的从事“创造性”工作，最本质的原因，就在于“创造性”本身就需要深刻的理解规律。

太似媚俗，不似欺世

中国各地的景点一向有一个我很不喜欢的传统：一块石头，一座山峰，甚至是岩壁上的纹路，都要强行的把它攀附成某种具象的形象，然后再编出一段神话，相传这里原本有一个巨大的天界的 XXX，因为惹怒了玉皇大帝被打入凡间，然后流落此地化成了这块巨石 / 这座山峰云云。这座小丘山势平缓似乌龟，就叫乌龟岭；这座山峰形如蹲狮，就是狮子峰。我想果壳的读者在祖国各地旅游的时候，应该经常碰见类似的这种景点描述，茫茫多数不胜数。

图源：GIPHY

那么这跟 AI 绘画又有什么关系呢？这种强行地，要把自然的随机起伏特征强行解释为有意义的特征，在统计学上，叫做“过拟合”。当然，如果用自然语言，这就叫用力过猛。

所以除开“手指法”，我们识别 AI 绘画的一个很重要的手段，就是 AI 绘画经常会“用力过猛”。人类画师画的图一般而言都会有自己的轻重缓急：画师会为自己想要强调的画面增加更多细节，而其余的部分就可以糊一点、简单一些，自己省力之外观众也能自然而然地注视那些更重要的部分；而 AI 生成的画面往往是平均的，AI 会在整个画面上不分青红皂白地堆满各种似是而非的细节，让整个画面显得没有重点。

一个熟悉 AI 绘画的人能够一眼鉴 AI，很多时候就在于这种视觉上的疲劳感觉：所有东西都很清晰，都很细致，都没有必要。这就跟你听导游讲了一万遍“这个石头像 XXX 所以叫 XXX，又叫 XXX”一样。

但是这种用力过猛如果放在合适的情境下，就不再是用力过猛了：使用合适的模型和充满脑洞的提示词，AI 绘画能画出那些人类画师不太可能画出来的离奇的图出来。相信人类历史上没有画师会画出一张“猫咪单板滑雪”图出来（也不一定，我猜《猫和老鼠》里应该能找到类似画面），或者老虎脑袋老虎毛皮的螃蟹（也不一定，没准《猫和老鼠》里也有……）。总之，当你看到这些离谱图的时候，你现在应该知道它肯定都是 AI 的作品。