沉迷AI画图三天后，我逐渐理解了一切

科技

2022-10-20 10:10

2022年10月的第二个星期五，大约是五六点快下班的时候，我的一个微信群里突然开始聊起了AI画图的事情。

正当大家聊的兴起的时候，一个老哥不声不响地发了一段“平平无奇”的神秘代码：

我当时正在兴头上，于是便立刻注册了NovelAI的用户，输入了他给的这段代码。

原图我就不放了，放了号就没了，我只能说：

画面很逼真，效果很哇塞。

实际上，2022年10月的第二个星期的的确确是属于AI绘画的——一个名为NovelAI的网站悄然上线。对于这个AI模型，真正有意思的是它的素材——NovelAI所使用的数据主要来自两处，一部分来自国外的著名二次元网站Danbooru，另一部分则采集自著名的P站—老司机们应该对这两个网站的成色十分清楚——都不是什么正经的地方。

TMD……这帮洋人程序员，果然是懂人性的。

虽然NovelAI利用技术手段从这两个网站上扒数据进行学习的事情引起了不小的舆论风潮甚至法律纠纷，但毫无疑问的是，NovelAI成功了。

NovelAI大获成功之后，国内外的诸多游戏/科技媒体纷纷都在传递着一个消息：AI已经学会画涩图了。

本着“体验前沿科技成果，紧跟技术发展潮流”的精神，局长开始了为期三天的AI画图之旅。

三天后，我好了，除了精神有些萎靡。

但，我逐渐理解了一切。

我的AI绘画体验

我选择体验的AI绘画平台是NovelAI。原因很简单，因为它的训练素材实在是“给了我一个无法拒绝的理由”。

唯一的不足就是需要花钱且有点贵——先交80块钱作为会员，它会送你1000个点券，然后还可以再花80块钱买10000个点券——每出一张图就要花至少5个点券，看样子倒是不贵，但若是想生成一个没有瑕疵、满意的作品，往往需要调整好几次。平均下来，最后生成一张足够满意的图可能需要几十上百个点券。

10000个点券虽然看上去还挺多，实际上一点也不经用。

对这种收费模式，我的朋友表示：NovelAI的这个生意做的好，让我们这些用户自掏腰包帮他们训练模型。我感觉她内涵我，但我没有证据。

正式进入之后，就可以开始操作了。

所谓的操作，其实就是输入恰当的Prompt（提示词）从而实现预期的效果。

莎士比亚说过“一千个观众眼里有一千个哈姆雷特”，在AI作图上也是如此，人们的恶趣味各有不同，所以prompt的内容也五花八门。但总而言之，prompt无非就是一些简单的描述，比如“黑长直的头发，戴眼镜，打湿的白衬衣，紧身牛仔裤”等等......

由于命令AI生成满意的图片往往需要极度详细且冗长的prompt，因此网友们便将promt戏称为“咒语”，调整/输入prompt的过程则被称为“念咒”“施法”或“吟唱”。

一个AI绘图平台竟然能在这个灵气稀薄的末法时代里催生出满地的魔法师，霍格沃茨看了都得高呼内行。

除此之外，Prompt的内容还可以分成两类，一类是“你希望实现的效果”，被称为“Positive Prompt”（正咒），另一类则是“你不希望实现的效果”——Negative Prompt（反咒）——之所以会出现“反咒”，主要还是因为现阶段的AI模型开发得还不算完备，一旦遇到需要精确表达且结构形状复杂的东西就会立刻抓瞎。用户们必须想尽办法来消除掉那些可能毁掉画面效果的瑕疵。

比如，当你需要你需要画面中的人物“用手撩着头发”的时候，AI就经常做出一些令人感到迷惑的东西。

不过，虽然这些离谱的bug暂时还没有被修正，但人们显然已经学会了用“反咒”或者其他方式“糊弄”过去——比如我就经常要求AI把人物的手隐藏起来，反正只要看不见就不能说有问题。

除了精致的人物之外，NovelAI在风景、场景上的表现也是可圈可点。这个画质虽然肯定比不过顶级的插画师的手艺，但用在一些对画面并不太讲究的地方还是没什么问题的。

相比之下，国内某大厂开发的AI模型就显得有点尴尬了。

在自然景物的呈现上，国产AI模型表现出了极致的效果，选择输出“写实主义”风格的作品时，效果基本已经有了接近照片级的真实感，可以说是吊打NovelAI。

但一旦要求其绘制人物肖像，一种莫名其妙的诡异感觉便显示了出来。

不过这并不算什么大问题，NovelAI团队之前是做“AI续写小说”的，在模型搭建的过程中自然会对文学类语言以及影视、动漫形象有更深刻的理解，加上训练素材也大多来自动漫形象或特殊渠道，所以在人物表现力上自然会更强。

“AI作图”背后是什么？

如今，AI已经开始渗透到了各行各业——“人工智能”，这个起源于1956年的概念，在近70年的发展史中先后经历了两次起伏，最终在2006年深度学习算法突破后开始进入了新的一轮高潮——2017年以来，AI研究开始呈现爆发趋势，“算力，算法，数据”成为了本轮AI大潮的主要动力。

以NovelAI为例，提供算力的各种硬件设备当然是最最基础的，联网版本的NovelAI就不多说了，单机版的NovelAI极度依赖于电脑显卡的性能——而GPU恰恰就是如今最主流的“算力引擎”之一——说实话，这几年显卡算是彻底火了，前几年是用显卡挖比特币，现在是用显卡画画。

除了算力，数据也是极为重要的。NovelAI的作品之所以有极为浓厚的二次元和游戏CG风格，正是因为其训练所使用的素材绝大多数都来自于D站和P站——当然，这也解释了为什么NovelAI生成的图片总有点离谱。

最后则是算法——这可以说是AI的灵魂所在，也就是为什么能做到“从文字生成图像”。目前来看，最热门、最受欢迎的就是Diffusion model(扩散模型)，市面上绝大多数需要通过“吟唱”来绘画的AI平台用的都是这个。

Diffusion model的原理很有意思，简单来说就是不断地“加密”一张图片（添加噪点），直到这张图片变成彻底人鬼莫辨的模糊样子。然后，人们再让AI模型尝试着一步步地将其还原成为最初的样子。

要知道，当加密过程结束后，最后得到的东西是一张已经完全模糊的图片。而当AI模型能够从这样的一团混沌中解析出来正确的图片，也就意味着AI掌握了“无中生有”的能力。

不过，如果只有diffusion model，那顶多也就是一个生成图像的工具，我们还不能随心所欲地“召唤”自己想要的画面——我们只需要一个东西将文字和Diffusion model连接起来，而目前，担任这个连接器的东西叫CLIP（Contrastive Language-Image Pre-training）——粗暴点说，它相当于是一个给AI看的“儿童识字图册”，让AI把文字和相关的图像对应起来。

因此，整个AI绘画过程大概是这样的：当我们输入了一大串Prompt“咒语”，CLIP就会产生一个相应的结果“A”（学名叫“表征”）。与此同时，diffusion model里也会随机生成一张图片，而CLIP也会给一个相应的结果“B”。然后，通过不断地计算A和B的相似程度，让A和B无限接近，最终就能够实现“A=B”，也就是让我们输入的描述和电脑生成的结果一模一样。