AIGC新物种：如何用AI实现创意与生产力的释放？ | 5Y 3Sigma小圆桌

2022-12-07 02:12

AIGC（AI-generated content），即通过AI技术来自动或辅助生成内容的生产方式。过去一年，AI对于内容生成带来了很大变化，AIGC也逐渐引起越来越多研究者与产业界关注。AIGC技术迭代将会走向何方？AI与人的交互将会怎样演进？如何利用AI实现创意与生产力的释放？AIGC产品的价值和壁垒如何实现？

5Y 3Sigma小圆桌第四期，我们再次聚焦于AIGC的话题，在众多报名者中，我们邀请了AIGC领域的8位产业界/创业者进行了探讨，每一位到场嘉宾都进行了精彩的分享干货满满。也欢迎大家持续关注以及报名3 Sigma小圆桌活动！

我们节选了部分内容，希望对你有所启发。

为什么要持续关注AIGC？

五源董事总经理陈哲

在过去一年左右的时间，AI对内容生成带来了很大变化。深度学习从2012年开始进入工业界应用以来，一个很大的核心优势是模型的识别能力。但近年来，随着大语言模型的普及和发展，AI开始由模型的识别进入了模式的生成。

这个趋势最开始是从文本开始，包括像2018年Google推出的BERT，和20年OpenAI的GPT-3，这些超大预训练模型不仅实现了很强的文字理解能力，也有很好的内容生成的能力。随着Diffusion生成算法和CLIP预训练的普及，在图片生成领域，出现了大量新的模型，包括最近在视频领域里也出现了文本生成视频的新尝试。

在其他的模态里面，除了主流的文本、图片和视频，一些新的领域也有生成模型的出现，比如代码、3D模型以及游戏脚本等。

这种大的趋势的变化孕育着新的创业机会，随着技术的逐渐成熟，越来越多的创业产品开始出现，虽然很多产品在 PMF和商业模式上还在早期，很像PC互联网和移动互联网早期应用与场景大爆发的阶段，最开始出现的应用往往不一定是最后获得最大市场的产品，所以还处于持续的迭代中。

这里一个有意思的趋势，几个月前读到 OpenAI的Sam Altman的一个观点，在传统认知里，我们常认为AI会率先替代体力劳动，然后再进入认知劳动，最后才是创造性劳动。这里的假设是，创造性劳动对于今天的算法来说是一个非常困难的事情。但是图片生成引擎的快速发展，出现了一个有意思的现象，实际上这种非常开放的创意型场景里，AI展现出了很强的能力。随着这种大的预训练模型和复杂的生成算法的出现，AI替代劳动的顺序可能会进行反转，可能会率先在开放性、具有一定不确定性和错误容忍率的创造性劳动力领域率先实现突破。这对我们寻找新范式也很有启发。

AIGC不仅改变内容制作的方式，内容的分发也是重要的改变。回看历史上的平台型机会，从最早期人工分类的门户网站，到以搜索为核心的搜索引擎，再到移动互联网时期，内容推荐成为主流的形态。如今当AI有了生成个性化内容的能力，内容的分发方式是否还会以传统方式存在，这是一个全新的问题。

另外，内容的生产关系也在发生变化；一些核心的要素比如说生产资料，消费方式以及分发渠道上也会产生一些系统性的变化。

我们也在持续关注AIGC是否有机会定义新的人机交互方式。不管是像OpenAI还是像我们投资的彩云小梦，在内容的交互上都已经开始进行开放式探索。我们期待未来有没有机会定义一种新的人机交互方式，就像过去十年iPhone定义了人与智能手机的交互方式一样。

同时，因为AIGC的开放性和算法的复杂性，它也带来了相应的一些问题，很多问题今天还没有特别清晰的解决方案，比如未来的数据和算力的头部化，以及数据来源和版权的问题，以及虚假内容的伦理问题等，这些也希望可以在未来的发展中逐渐得到解决。

五源在AIGC领域里已经投资了很多创新的公司，我们也希望可以找到更多的创业者，成为他们最早、最长期和最有影响力的合作伙伴。

圆桌讨论：

AIGC新物种，生成时代的内容、交互与商业化创新

参与者：

KABA（于家博）成均馆大学信息学在读，漫画家、小说家

黄超强产品经理，AIGC自媒体作者

陈春宇极群科技创始人

张宇轩 Artflow.ai创始人

陈哲五源投资人

贺开颜五源投资人

季超五源投资人

陈哲：如何看待最近一年AIGC技术的发展，有什么惊喜或者超出预期的地方？

张宇轩：前一阵出来的 Dreamboth让我大开眼界。我们内部也做了一些尝试，仅仅是手机拿着产品单拍一张图，很随机的角度和光照，基于这张图都可以生成一个不同光照下的全新产品图。这对电商来说意义很大，对于我们想做的story telling来说也意义很大。基本上你能想到什么，就可以把虚拟跟现实做一个连接，把想象到的东西生成出来，对我来说震动还蛮大。

陈哲：我看到Dreamboth也是同样的感受。可能不仅限于生成单个object，而是不同场景不同角度的整个object。未来如果它的灵活性和延展性更强的话，可能有更强的叙事能力，这可能对生成的内容从静态到动态，以及更开放性的叙事都非常有帮助。

陈春宇：我自己其实期待AI在3D模型上能够出来一个像NovelAI这种能直接用的东西，它会让很多事情变得不一样。可能对于游戏来说，它能让更元宇宙一点的创作直接变一个量级。虽然很多创业公司在讲这些故事，但NovelAI出来，你就会知道它可以直接用在game上，但目前3D的都还没有做到这种程度。

陈哲：我在想3D的模型生成可能会有两个路径，一种是与现有的游戏生成的管线进行兼容和适配，算法可以生成一个干净的曲面和曲线，直接用到现有素材里。但可能也有另外一个路径，就是生成的模型并不能在现有管线里进行简易的编辑，但是它可能跟一个新的渲染管线进行结合。这样可能对现在的游戏创作和3D内容创作的工具链本身进行替代。

陈春宇：因为AI最重要的是你能大量输入数据，比如苹果出了雷达以后，每一个有iPhone的人都可以扫一个3D模型，它的数据质量其实也非常差，但胜在非常多，每个人都可以完成操作。如果能有这样的方式重新渲染，或者计算机图形学底层有一些突破的话，可能会有完全不一样的创作方式。

陈哲：如何看待Prompt的生成方式，未来AIGC交互应该怎么演进？

KABA：目前的prompt其实基于我们已有的信息学分类系统，相对偏专业领域的比如DDC之类的分类标准。但如果toC的话，我们会发现很多目前已有的内容创作平台，他们的标签本身就是UGC，用户可以创造和发明一个概念，获得他人认可之后，这个概念会形成非常大的传播。

核心就在于信息的传播格式以及标准的问题。在AI的prompt即所谓的人机交互演进过程中，我们不妨换一个方式思考，我们未必一定要输入一句抽象的话让AI去猜，而是在一个相对成熟的模式下，构建一套比较可行的人机交互的信息沟通范式，这种范式可以作为一种底层的行业技术标准应用在各种平台创作中。在这个基础上我们收集了足够多的数据，进行了足够多的迭代以后，才能进行更进一步的抽象化表达。这是一个层层递进的过程，我的感受是，现在的prompt方式可能步子迈得有点太大了。

陈哲：我的感觉是，今天的生成模型对于文本的prompt非常敏感，非常弱的信号可能会导致结果大的扰动。在这个基础上我们现在也在做一些模型结构上的优化，让某些特征可以进行更稳定、可控的变形。而要如何找到一些表达人的创意的更通用的语言，可能是未来一段时间的重要命题。

张宇轩：我觉得AI辅助创作本质上是一个搜索的问题，需要把人脑海里想象的东西做出来，如果套用把大象关冰箱需要分几步的思路的话，首先是我得知道我想创作什么，用某种方式描述出来，这一步就会有信息损失。描述之后还得让机器能够理解我到底是什么意思，这很大程度上取决于机器对于语义的理解，以及机器本身的库有多大。

比如我们做story telling，文字更多是一个表意，通过描述再让AI做出来是非常难的事情。但如果通过一些其他模块的辅助的话，其实可以比较简单的做出来，比如不同场景的设置。之后我们也会去推出不同的多模态辅助创作的方式来做这个事情。

陈哲：这种多模态的辅助创作方式，是不是可以简单的理解，比如说如果给一个样本图或者效果图，对于AI来说的话是比较好的一种交互方式。

张宇轩：我觉得是方法之一，可能有几个前提，第一就是创作者有能力找到符合期待的图，这本身是有门槛的。我觉得一个更好的方式就是直接把不同的元素抽象出来，比较直白的提供一些模板让大家快速上手。而对于那些pro user，他们也可以不用模板，或者利用多个模板的组合去做更复杂的东西。

陈春宇：我觉得现在的prompt的方式虽然很难搞，但大家都很踊跃去做，用户会有很多奇怪的行为，这件事本身就是一个巨大的PMF的信号，接下来肯定会变得越来越简单。

至于演进的方向，现在可能也和数据没有闭环有关，比如说你一个人在各个平台收藏或者点赞了那么多图片，AI生成模型能不能直接抓取这些数据，看你到底更喜欢哪个风格，直接给你推类似。你可能只需要做一些倾向性的选择，不需要输很多prompt，他就会知道你大概喜欢什么。比如给你10张图，你这次选了一张，它可以从你的选择中学会你的倾向性，逐渐可以生成你想要的图。这个事情上还有很多可以探索的空间。

贺开颜：像刚刚KABA提到用户可能会对着文本框发呆，比如搜索引擎最初时候，普通用户可能也会对着搜索框发呆，而门户网站出来后，他就知道可以去点。我也赞同刚刚春宇说的prompt可以有一些其他可以去操作的东西，而不是刚开始就需要很高门槛的输入，这部分降低门槛还是很有必要。

黄超强：在我实际的观察里，我发现其实一些国内的工具里，输入文字来生成图片的用户量和频度，要少于用户提交一张图来生成一张图。我们在理解prompt时可能得琢磨一下这个事情，默认的输入文字的方式是不是用户真正的想要的方式。

刚才也提到，让用户输入文字，用户可能会对着输入框发呆，我们的想象力真的是有限的，我自己用大量的产品之后发现我也不知道输入什么了。但可能用户见过大量图片，他想在这些图片的基础上生成自己的图片，这就是一种多模态辅助创作的方式。

另外我们可以想一想，现在prompt的逻辑都是单次输入，我跟对话框的交互就是当下我说了什么，模型给我跑出了什么。有没有可能基于我过去所有的数据，知道我想生成什么。

我最近在看CLIP的论文，我发现它的逻辑其实就是提取文字的特征和图片特征来跑出这个图。AIGC的交互逻辑有没有可能在模型本身上发生巨大的改变，我们可以关注一下。

季超：我想补充一个问题，我感觉好像抖音会处在一个非常好的位置，因为它有大量的用户偏好的数据，当然主要是视频，但有些视频也是由图片序列组成的。我好奇假设它来做AIGC生成图片的话，他会不会就把这些数据都用上，根据用户的偏好可以实现个人层面的差异化，在小的模型上有差异？

黄超杰：我觉得这个想法特别好。这确实是抖音的一个优势，知道很多用户偏好。另外一个优势是抖音在某种程度上知道流行的趋势，并且会引导用户往流行趋势去创作内容，我觉得在这两点很有意思。

季超：对，而且这个模型会不会到最后其实有点类似于联邦学习，它有一个母模型，在每个个人层面还有一个小的模型，相当于两个参数的综合，最后每个人生成的图还是有一些区别。

陈哲：最后一个问题想听一下大家的观点，如果要做AIGC的社区，要如何形成闭环或者说找到壁垒？

黄超杰：首先我觉得我们先理解什么叫社区，我可以抛个定义，社区可以认为是一种以内容为载体的社交平台，且内容不能脱离社交来单独讨论。在社区载体里，社交和内容应该是相关度很高的两个要素。

接下来就是几个维度，首先如何冷启动，目前国内几乎都是刚开始做，我认为冷启动一定要切入一个小的细分市场，这个市场最好还是没有人在做的。其次是差异化，我们要帮助社区快速占领用户的心智，社区还要聚集一批彼此认同的用户，引领后续再进来的用户，大家都遵循这一套社区氛围。在做好差异化定位之后，我们要想怎么样给用户提供有价值的内容，保证平台持续产出好的东西，并且激励后续进来的用户持续产出。

在社区背后可能也会有两个大的问题，首先是内容的安全审查机制，需要投入大量的人力维护。其次是在内容层面如何帮助用户形成社交，我也期待能够看到很有意思的创新。

KABA：我也来简单分享一下，所谓的赛博，这个概念本身的核心理念或者说词源其实就是基于控制论。目前的平台可能人工干预比较高，本身是基于一个控制系统在运行。但我个人对AIGC未来的期许，是希望能够用户自发的生成内容。社区决定的是平台的内容下限，AIGC既然是表达的解放的话，应该更多地去鼓励用户的表达与创意，并且基于这套氛围形成社区机制。

陈春宇：社区一定不是自上而下定一个基调，想让它怎样就会怎样，全世界所有做起来的社区产品，创始团队可能都不知道用户是怎么做出这些的，它会有很多底层的生命力。这种底层生命力的产生，需要让用户之间能够互动。比如群聊形态一定要让用户和用户之间能有互动，只有这种人和人之间的互动多了，真正给了用户创作的权利，社区的生命力才会更强大。

小圆桌嘉宾精彩分享（节选）

技术+文创=新时代

浅谈AIGC内容赋能

KABA（于家博）韩国成均馆大学信息学在读，漫画家、小说家

我目前在韩国成均馆大学学习情报学，2015-2016年期间我曾从事一些小说和漫画的创作，目前在学校进行一些更完善的理论体系的研究，主要是信息学对于文化艺术创作实际应用方面的探索。

我们经常听到一个说法，AIGC是创意工具和创作工具，但是可能比较少听到的一个讨论，什么是创意，什么又是创作？

我们其实可以很明确一点，所谓的创意，它不是凭空生成一个完全不存在的东西，尤其在文创领域，它更像是在旧有的概念基础上，进行一个相对自由的结合和发散。比如说做编剧，赛博朋克加武侠会产生什么样的剧情和效果，武侠如果在太空失重的环境下会演变出什么样有趣的设定，进一步细化就成为了创作。

所谓创作是什么？就是在创意的基础上给它赋予逻辑和连续性。基于已有的非常完善的、甚至传承几千年的创作方法论，来表达和阐释一个内容，它是把创意具象化和逻辑化的过程。

所以创意是一个发散性的需求，而创作对确定性和逻辑性是有极高要求的。也就是说当AIGC工具同时应用于创意和创作的时候，就对这个工具提出了一个存在冲突的矛盾点，我们既需要发散性，也需要准确性。准确性可以帮助我们提高效率，但是创意性又可以给我们提供更多的可筛选选项。

创意和创作这个过程不断的循环和验证，整体就是一个非常简化的商业文创模型，包括一些个人的创作也会基于这种模型去思考。文创的最终目的是将创意进行逻辑化构建，表达观点思想，从而在用户社群当中形成共鸣，形成共鸣之后市场价值自然而然就来了。

如果按照认知和技能对目前AIGC的用户分类的话，第一类可能是是设计、影视类的专业人士，受过体系化教育，他们有明确的动机和需求，在使用AIGC模型时候很清楚自己需要什么；第二类可能在技能上有所缺失，但作为资深爱好者群体，可能他们的认知边界在很多时候会超过一部分专业人士，欠缺的是实际操作的技能。

如果我们暂时把AIGC定义为一个工具，那这个工具可能会让第二类认知边界比较广的用户实现弯道超车，跳过所谓的专业技术需求，依靠自身的知识积累和表达能力，形成一个比专业人士更高的表达水平。

还有大部分的普通用户，可能没有明确的需求或者广泛的知识储备，面对AIGC工具时候，他们最常见的反应可能是对着输入框发呆，不知道该输入什么。就算看到其他人生成了华丽的图片，用户自己也产生了这种动机和欲望，但受到认知和审美的影响，可能这种动机也不足以长期维持。目前大部分的图片生成工具可能还是相对早期和原始的状态，这种基于用户的知识积累和认识来输入文字的方式，其实不是特别贴合用户认知方式的模式。

用户的认知方式其实更像这张图，做开发的朋友一定非常熟悉，它的横轴是模型的可解释性，纵轴是复杂度，也就是说复杂度越高的模型，可解释性也就越低。用户的认知其实是一样的，最左上角是算法，算法对用户来说就是技术黑箱，不是通过科普视频就能解决的问题。最右下角是具象文本化的图表规则，让用户能有一个可感知的边界。

所以说何为可控性原则，可控性原则其实就是创意在输入端要实现可控，而创作要在输出端精准可控，而不是太天马行空，因为不符合创作的基本规律。

目前用户本身会对这个技术产生焦虑，因为它不可知。另外用户需要基于自身的能力来适应工具的使用，我自己观察到的最明显的一点是，拥有专业技能的创作者对AIGC工具上手更快，输出的效果更好，而没有专业技能的人就迷茫了。在UGC社区中可能会出现强者更强、弱者更弱的状态，AIGC没有成为大部分人的助力，反而加剧了某种程度上的分化，这可能是很多人始料未及的。但现在毕竟还在早期，所以还有很多机会。

如何避免用户出现这种不知道输入什么、或者精确性不符合的情况，所以我们应该给用户规则。传统意义上大家对于AIGC的期许是绝对自由开放的，但就像玩游戏，给用户规则并不是限制，而是建立一个相对模糊的认知边界，间接的告诉用户产品能做什么，降低用户的上手门槛。提供规则并不是说让用户严格按照某种方式去执行，而是提供一个选项，让用户可以以一个较为平滑的认知曲线成长。

对于具体规则，比如建立用户可以选择、分享的分级标签，以及标准化的认知模板。这样可以形成一个社区中信息沟通的范式，从而降低用户的沟通成本。当用户有更多分享和沟通的欲望，就会形成一个非常早期的社区规则。

最后关于对AIGC技术未来的期望，很多人可能经常说会替代谁、取代谁，真的没必要有这种担心。技术在任何时代都是不可阻挡的，大众的交流与表达的欲望，以及基于这些形成的文创社区，在未来也必然会长期存在。在这两者都存在的前提下，谈论谁会被取代没有意义，更多的是我们要通过有机的耦合去找到那个齿轮契合的点，让现有的技术和生产力得以解放。AIGC更多是扮演了一个合作的角色，把人从无意义的机械劳动中解放出来，将人的创意和思维能力发挥到最佳。

另外我也希望AIGC在解放专业创作者生产力的同时，也可以降低大众的表达门槛，让更多有想法、有认知和知识积累的人，可以绕过非常高的学习成本直接表达。如同印刷机的出现让宗教知识实现了极大的传播，促成了后来的启蒙运动和文艺复兴，我个人期望AIGC技术也可以为人们带来表达的解放。至于这个时代在将来会被如何定义和书写，让我们拭目以待。

互动送礼

欢迎在评论区分享你对AIGC的观点与看法，我们会选取2位精选留言，送出五源纪念卫衣一件。（留言截止到12月12日，请在收到信息的24h内回复收件信息）

五源寻找、支持、激励孤独的创业者，为其提供从精神到所有经营运作的支持。我们相信，如果别人眼中疯狂的你，开始被相信，世界将会别开生面。

BEIJING·SHANGHAI·SHENZHEN·HONGKONG

WWW.5YCAP.COM

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章