AI的超现实主义美学
编辑| Zhang
出品 | 青投创新
近日,罗马教皇方济各身穿白色蓬松羽绒服的照片在网络上疯传。大家之所以对这张照片感兴趣,并不是因为这张照片有什么特别之处,而是因为这张照片不是“照片”,是“照骗”,是Midjourney的绘画作品,但是骗过了很多人。
AI绘画需要几步
要让AI替我们完成绘画,需要几步呢?其实很简单,只需要两步:第一步,告诉AI我们想要一幅什么样的画;第二步,等待AI完成绘画。操作起来很简单,但是背后涉及的技术很复杂。
从第一步走到第二步,AI首先需要做到准确理解我们给出的信息,而这项技术取得突破性进步是在2017年,那一年 Google 发布了名叫Transformer的深度学习模型。Transformer在自然语言处理(NLP)领域的效率奇高,极大地提高了AI理解文字的能力,后来成为诸多大语言模型的底层技术,比如现而今大火的ChatGPT。
在Transformer的基础上,OpenAI在文字生成图片的领域取得了关键性突破。他们训练了超过 4 亿个图文对,证明训练后的人工智能模型既可以根据文本提示较精确地找出图片,反过来也能看懂图片,也就是说AI学习到了文本-图像对的匹配关系。这就是CLIP的诞生。
今天的Midjourney、OpenAI自己研发的DALL·E2、百度的文心一格等等文生图产品,要么直接用、要么借鉴 CLIP 的技术来理解语义和图像之间的关系。
AI理解了我们给出的信息以后开始作画,它们的画法和我们人类当然是不一样的,它们的画法叫做“扩散模型”。
人类画画是做加法,而“扩散模型”画画是做减法。简单来说,AI作画时会先有一个色块,这个色块包含的信息太多,且杂乱无章,AI通过不断擦除多余的信息、多余的颜色,让剩下的部分向它所理解的文本信息靠近,这个过程会重复很多次,直到AI认为剩下的部分已经完美符合给定的文本信息。就这样,文本被翻译成了图画,文本与图画之间的次元壁被打破。
漏洞百出的AI一往无前
现在的AI作画远远称不上完美,甚至可以说是漏洞百出。以文章开头提到的教皇的图片为例,虽然咋一看很真实,但是经不起仔细观察,比如有一只不完整的手以一种奇怪的方式抓着一只不完整的咖啡杯、十字架的直角不够直、眼镜镜框和镜面产生的阴影并不真实等等。这些细节表明这张图片是人工智能的产物,它知道现实是怎样的,但是它还不能完全理解在现实世界中控制物理对象如何相互作用的基本规则。
百度的文心一格则在理解文本方面还有一些欠缺,但是只需简单的输入就可以获得一张完成度很高的图画,并且能够做到字面意义上的“要素齐全”,虽然距离我们想要的图片有些距离,却有意外之喜(字面意思,喜剧效果)。
无论如何,AI的潜力肉眼可见。现在的AI就像是一个新兵,缺乏经验,有些笨拙,甚至有些滑稽,但是绝不缺乏勇气,即使漏洞百出,它也一往无前。只要人类还有意推进这项技术继续进步,只要人们还一直致力于改进模型、一直投入时间和资源去训练AI,那么AI的进步就是无疑议的,甚至是无止境的。
实际情况也确实是这么发展的,Midjourney的V5版本已经解决了图像生成模型长期存在不会画手的问题,百度也表示最新版本的文心一格已经分得清楚老鼠是老鼠、鼠标是鼠标,对文本的理解不再仅限于字面意思。
AI绘画的存在感如此明显,以至于已经明显形成了一种风格:由完美的照明、光滑的表面、戏剧性的姿势和饱和的颜色定义的美学。有人将其称之为超现实主义,一种模拟取代现实的文化。
AI绘画真的可以混淆现实吗?目前来看并不可以,但是它们正逐步向现实靠近。未来,AI要完全掩盖想象与真实之间的区别并非不可能。甚至AI可以自主地创造一个世界,一个人类走入其中,并没有发现这个世界不是现实。
「往期推荐」
微信扫码关注该文公众号作者