十多年前,AI画的猫脸还是一个满是噪点、模糊不清的剪影,但如今,从2021年DALL·E画出的那把牛油果椅子,到今年DALL·E 2勾勒出的宇航员在太空中骑马的形象,这些出自AI之“手”的作品已经变得相当栩栩如生了。DALL·E是OpenAi旗下的人工智能在线绘图应用,其第二代产品DALL·E 2在今年7月公测。相较于上一代,DALL·E 2能够以4倍的分辨率,根据自然语言字幕生成更逼真、准确的图像,同时还可以根据原图像二次创作——或混合两张图片形成新图片,或创建基于原图的系列变体。DALL·E 2让即时设计联合创始人周凝看到AI作画在未来广泛应用的可能,他将DALL·E到DALL·E 2的技术迭代比喻为“从呱呱坠地的婴儿一晃就变成了一个职业的画家”。如果说在256x256分辨率之下,牛油果椅子还是一种基于现实的创作,那么由璀璨星空与骑在马上的宇航员构成的图景,以及可以媲美摄影作品的质感,则释放了一个信号:得益于丰富的知识图谱、自生成以及将多个元素组合在一起后形成新画风的特征,AIGC(AI-generated content),即AI生产内容的能力已经越来越强大了。不过,随着AI作图软件及作品越来越多地出现在大众视野中,它也迎来诸多质疑——比如人类该如何使用这些作品?AI绘画公司能赚多少钱?用户使用AI作画并商用算不算抄袭?以及,对于画师来说,它会构成威胁吗?
今年8月,一家创立于2020年的人工智能公司Stability AI宣布将文本至图像的AI模型Stable Diffusion开源,以期围绕该模型和其他模型搭建一个开放的生态系统。 根据文本提示,Stable Diffusion能够生成逼真的图像以描述提示中的场景,像素为512x512,能在消费者级别的GPU(图形处理器)上运行。开源的消息惊动各国极客圈,以Stable Diffusion开源模型为基础的应用程序此后也层出不穷。目前主流的AI绘画工具,如Stable Diffusion、Disco Diffusion、DALL·E 2、Midjourney,都是在诸如Stable Diffusion这样的开源模型的基础上生成的。而国内的Tiamat、6pen、文心一格等则更多是重新修改开源代码而成。AI模型训练成本高与算法升级难是如今AI绘画大规模推广的主要阻碍。Stability AI的创始人Emad Mostaque在Twitter上回应称,Stable Diffusion模型使用了256个A100显卡,共计15万小时,按照市场价格计算,训练模型所需的成本是60万美元。 To C的一部分AIGC公司,通过收取用户订阅费来回收成本,比如Midjourney,按账户数和时长收费;还有一部分公司,按照图片生成的大小和张数以及精细度收费,这种方式本质上就是在卖“算力”。 对于ToB公司而言,则更直接,要么大规模地提供“结果”,即生成的优质图片给客户,要么直接以提供API接口的方式来提供算力服务,甚至是直接按时长和配置提供GPU服务器来卖“算力”。在Midjourney的使用手册上,有“免费试用”、“基础版”、“标准版”、“公司版”四个等级,其中每位新用户拥有25次免费生成图片的机会,“试用”完毕后,基础版10美元一个月,每个月可以生成200张图片;标准版30美元一个月,每个月可以生成不限量图片,且可以无限调用空余GPU运行时长。此外,购买基础版或标准版的用户如果想确保生成的图片仅个人浏览,则需要在原来的购买版本基础上再加20美元。如果购买公司版,价格则为每年600美元,仅限所在公司年收入大于100万美元的员工。 自7月份开始公测以来,Midjourney已经积累了近270万用户。虽然Midjourney没有公布训练模型花费的价格与付费用户构成,如果只有1%的用户按照基础版付费,那么三个月来,Midjourney可以获得81万美元的营收。如果付费用户将所得图片商用且收益超过每月2万美元,则需要支付Midjourney 20%的分成,特殊情况可以与官方签订协议,商讨其他分成比例。不过并非所有的公司都收费,比如Disco Diffusion、Imagen、Dream by WOMBO在现阶段都可以免费使用。并且绝大多数公司都放弃了AI生成图片的版权。今年11月3日,新西兰、印度和英国制定了赋予AI艺术生成器开发人员版权的法律。其中,英国的版权法规定,生成文学作品、舞蹈、音乐或视觉艺术的AI程序开发人员是合法创作者和版权所有者。 不过由于AIGC仍然是一个新生事物,针对这一部分的立法仍普遍滞后,并且现有的相关版权法律也存在模糊、不可适用的空间。比如依照中国《著作权法》的相关解释,一个作品的作者要么属于自然人,要么属于法人或非法人组织,但AI本身均不属于这几类。根据现行法律解释,使用AI创作作品的人、AI程序的开发人员、人员所在的公司或组织,能否被认为是作者,有较大争议。 因此,做设计的周凝认为,即使一些平台主张版权归自己所有,这种宣称也未必合法。但同样,如果AI生成的图片与某些人类作品极为相似,那么拿此类图片售卖和使用不一定没有侵权风险。 “这是一个有争议的地带,各方起诉都有胜诉概率,只能期待未来出现谁起诉谁、援引什么法案、如何判决的司法案例,并以此推动法案的修正。”周凝对《第一财经》YiMagazine说。 不过,即使现在火速立法,也不代表AI绘画就可以大规模商用。技术不够成熟,是最主要的制约因素。 比如虽然Midjourney已经可以绘制惟妙惟肖的人物肖像,以及极具质感的风景大作,但这些场景通常是单物体、单对象,或者是宏大图景,并且很多是静态的画像。Midjourney绘制的人物肖像画(左)与风景图(右),图源:Midjourney社区此前,一些用户发现,号称“能画尽天下事”的AI绘画在实际绘画过程中其实总会出现偏差。比如输入“三文鱼逆流而上”,出现的图片是三文鱼片在水里游泳,输入“熊吃三文鱼”,AI则没有识别出“吃”这个动作。“三文鱼逆流而上”(左)与“熊吃三文鱼”(右),图源:公开资料整理为了测试AI作图工具还能画出多离奇的图画,有用户输入“少女拿筷子吃面”,出现的图片是少女一只手把面塞到嘴里,一只手拿着筷子;当输入“少女睡在地板上”出现的画面则更加奇怪。“少女拿筷子吃面”(左)与“少女睡在地板上”(右),图源:公开资料整理周凝对此解释称,当输入两个以上的角色介绍时,扩散模型可能会混淆属性,并且AI通常很难理解“动作”描述。比如输入“少女拿筷子吃面”这句描述,AI对于“拿”和“吃”这两个动词通常是无法精准理解并绘制的;诸如输入“宇航员在太空拽住了一匹马的尾巴”这种相对更复杂的表述,AI更是没有办法理解。DALL· E 2 绘制的“宇航员在太空拽住了一匹马的尾巴”此外,基于英文为主的模型训练出的国内AI作图工具,往往也很难识别具有当地文化特征的词语,比如在国产AI作图软件Tiamat中输入“龙在天上飞”,默认出现的是西方意象中以蜥蜴、鳄鱼为原型,大型有翼、鳞片坚硬、四肢粗壮的恶龙,而非中国以蛇为原型,大型无翼且悬浮、两个杈角、长须蛇身四足的龙。如果想要画出中国龙,则需要加一些限定词。“龙在天上飞”(左)与“没有翅膀的中国龙”(右),图源:Tiamat绘制当然,无论如何,技术突破带来的新鲜感总能吸引一众“尝鲜者”,广告与文娱成为AI作图软件最具商业化落地可能的行业,在游戏、电影场景绘制、绘本、插画概念图选择等具有高成本和低效能特征的场景中,AI也能以参与者的身份成为产业链中的一员。
刘琳是一家文创公司的创始人。一次,刘琳的团队想画一个类似宫崎骏风格的绘本,在圈内朋友的推荐下,她尝试了Midjourney。这是一款在今年下半年名声大噪的AI作图工具。今年8月在美国科罗拉多州举办的艺术博览会中,39岁的游戏设计师Allen就是用Midjourney生成了一幅图片,在经过Photoshop加工之后,这幅名为《太空歌剧院》的作品战胜人类画手摘得数字艺术类别的桂冠。此举引发艺术界与技术界诸多争议。使用后,刘琳发现,Midjourney画出的作品的确非常逼真,并且,作品完成度已经可以达到她所预期的70%,构图、色彩不必挑剔,只需要让修图师修一修,很多图都可以成为概念图。刘琳随后便买了Midjourney的会员。 在刘琳所在的插画行业,“概念图”是一个非常重要的概念,它是文本内容创作的基础。而在概念图的工业化批量生产中,人类的创造力已经无法赶上AI了。面试插画师时,刘琳发现,能“超越”AI作图软件想象力的插画师寥寥无几,“我接触到很多插画师,遇到不感兴趣的题材就卡壳了,不知道怎么画,但AI的想象力没有边界,即使画的不好,它也能画出来,无论是组合、色彩还是构图都很棒,虽然技术细节有一些问题,但也能提供思路,节省成本。” 以刘琳所使用的Midjourney为例,今年7月12日,Midjourney面向公众开放了测试版本,任何人都可以调用它的AI机器人程序,输入自己的关键词(prompt)绘制图片。使用Midjourney,用户可以在1分钟内收到4张图片,且可以回复调试词语予以修改。不过,刘琳团队在制作绘本时,仍延续着传统的人工绘制方式,Midjourney的作用更多是在创作初期寻找“人设”上。比如在以北京兔爷儿为原型的绘本制作过程中,插画师就是通过一些与兔子相关的词汇,使用Midjourney生成上百张兔子图片,再在其中选择原型,并加以修改、调整。Midjourney生成的兔子(左)与团队最终的兔子概念图(右),图源:刘琳提供为什么直接用AI作图工具生成绘本不大可能?刘琳向《第一财经》YiMagazine解释道:“虽然AI可以‘引经据典’,从数十亿张图片中学习绘画风格、技巧,但它本身不具备用严谨的逻辑讲故事的能力。”而对于绘本来说,文字能力与绘画能力同样重要。商业需要逻辑,绘画也需要逻辑。如果对这些AI生成的图片稍作细致分析便会发现,AI所绘带有故事性的画面往往有较大瑕疵,比如房子和房子会重叠出现,上下篇章的绘画风格也因AI生成图片的随机性而无法统一。 在周凝看来,“图片转文字”依然是一件拥有一定门槛的事。如果要让AI画出称心如意的作品,用户需要熟练掌握“关键词”。而Midjourney以及国内各类AI作图软件也各自都有相应的社区分享关键词。对于绝大部分的用户而言,输入适合的“关键词”仍然是非常复杂的技能——不是人人都能掌握,更不是掌握了就一定能够稳定产出的。因此,虽然从大V、博主、UP主到新媒体小编,再到所有需要海报、包装设计、产品展示的从业者,他们都可以借助AI获得“绘画自由”,但如果想要一下变成“画家”,会用AI作图工具还远远不够。其一定的“门槛”,也让AI作画/修图随即成为了一项新职业。不过在周凝看来,虽然确实有一批人率先掌握AI作图的能力,并以此“日赚千元”,但是这只是新技术出现早期的信息差所带来的认知红利。“‘日赚千元’是不可持续的。AI的发展速度很快,或许半年后,AI作画就会变得非常普及。而且目前AI生成的图片,其版权处于混沌状态,这样做会有潜在的侵权风险。”部分插画师需要具备AI修图能力,图源:Boss直聘小程序刘琳则认为,AI绘画的确可以取代一些基础的、繁琐的、执行层面的作画过程,这要求画师只能通过不断寻找更新锐的创意、更自我的风格来脱颖而出,在一定程度上提高了画师就业的难度,但据她预估,在未来5到10年内,最好的画师不会被取代。 “AI可以不断训练、提升绘画技能,但画师创作过程中涌现的想法是很难被取代的,而这些创意想法、创造能力、对人类社会逻辑关系的把握,才是顶尖画师之所以成为高手的重要原因。”
伴随AI技术的进步,“AI是不是要超过人类”似乎总能成为每一次新技术推广时人们谈论的热门话题。如今,AI是否具备自主意识,仍然是一个无法被证实也无法被证伪的概念。今年6月,Google人工智能开发团队的软件工程师Blake Lemoine因与第三方分享项目机密信息而被停职后公开声称,在公司服务器上遇到了“有感知能力”的AI,尽管这一判断并非以科学家的立场提出。Lemoine认为,Google应用语言模型LaMDA已经具有自我意识,其表现类似七八岁小孩,他试图用实验来证明这一点,但当他在公司内部提出这个问题时,被公司高级管理人员拒绝。Google发言人回应称,对话模型没有感知能力,证据不支持工程师的说法。 周凝表示,追溯AI绘画的全流程,前期AI作图软件的模型需要大量的人类作品的“喂养”,AI生成的图片是否被接受,对其审美、质量的评价体系也建立在人类审美认知的基础上。AI绘制的内容,其诞生更多是基于人类授予的命题与构想,AI本身并不具备自主的生产意识,因此,目前在AIGC这件事情上,它只能作为一个辅助人类创作的工具而存在。 “AI作图软件是一个很好用的工具,对我们来说,其最大的价值就是作概念图,AI的‘想象力’是无边界的,可以让人类低成本试错。但AI并不能将学习到的技法变成灵感、创意的来源。每个AI在自己所在的环节做能做的事情就够了。”刘琳说道。 时下,除了火爆的AI作图软件,反AI数据库,以及illuminarty(https://www.illuminarty.ai)等识别AI作画的软件也相应而生。今年10月,插画网站Pixiv发布公告,今后将为AI生成的作品打上单独的“AI生成作品“标签,以便和人类画手的作品完全区分开,用户可以单独搜索AI作品,AI作品也会有专门的排行榜。 Pixiv认为,正如迄今为止诞生的素材、图像制作软件等,AI技术今后也有可能成为创作者们的得力助手。不过在刘琳看来,在商业世界,区分人类创作者与AI创作者其实缺乏意义,当她来判断概念图可否采用时,更多是看作品是否达到产业的标准。周凝则将这些由AI绘画引起的连锁反应统称为“副产物”,“这只是阶段性的现象,新的技术出现,往往会重塑一个行业,或给一个已有产业链带来全新的形式补充。”