AIGC 时代来临,探寻生产力新蓝海机遇|活动回顾
MidJourney 生成
分享嘉宾:徐卓、傅斌、邢曜鹏、温永腾
编辑整理:海外独角兽
排版:Lydia
作为被 Gartner 列为 2022 年顶级战略技术之一,Generative AI (生成式 AI )在过去几个月中引发了全球范围内的广泛关注,Generative AI 不只是通过学习人类艺术实现创作质量上的指数式进步,还在生产效率上实现了弯道超车,红杉美国更是将 Generative AI 以及它所带来的 AIGC 时代称之为“A Creative New World”,那么在这个新时代里,人们也会迎来新一轮生产力的范式转移吗?
Software Is Eating the World, but AI Is Going to Eat Software。AI/ML同样也是拾象团队具有强 conviction 的赛道之一,在过去几个月我们先后研究并开源了 OpenAI、HuggingFace、Cresta、Descript 等 AI 基础设施及上层应用代表公司的投资 memo,也在持续探寻 AIGC 时代最值得期待的公司。
基于此,海外独角兽组织了一场面向「Generative AI」等社群成员的主题讨论,从创业公司、大平台以及投资人的视角探索 AIGC 将如何改造生产力、以及这片新蓝海中有哪些新的机遇。本文为活动整理实录。感谢徐卓、傅斌、邢曜鹏、温永腾参与分享。
作为一个价值交流平台,海外独角兽主张知识平权、相信开放共享的力量,因此,在开源研究之外,我们还发起了「Generative AI」、「Global SaaS DAO」、「Web3 航海家」等一系列社群,以“知识”作为链接点,聚拢了一批聪明的大脑,希望在观点碰撞中过滤出新时代最好的认知和投资实践。我们将持续联动旗下社区,和不同领域从业者、投资者们继续交流行业洞察。
* 友情提示:本文内容为活动回顾,所有分享仅代表嘉宾个人观点,不涉及其公司及团队立场,亦不构成任何投资建议。
01.
AIGC 将如何颠覆视频生成?
💡
分享嘉宾:徐卓
诗云科技联合创始人及 CEO。诗云科技创立于 2020 年底,主要专注于 AIGC 在视频生成领域的应用, CEO 徐卓在创立诗云科技前曾就职于 Snapchat,在 Snapchat 期间,徐卓主要将 Generative AI 的模型用到 C 端的相机上。
生成式 AI 应用的概览图
Source: Sequoia Capital
上图是红杉美国发布的生成式 AI 应用的概览图 ,从这张图可以看出,文本和图像生成是生成式 AI 应用最多的两个模块,有很多技术和产品都相当好的公司。反观视频生成模块的规模,则明显小得多,目前加起来只有 10 个公司左右,但实际上,大众每天投入在视频内容消费的时间比重却相当大,所以视频生成技术的市场前景是非常可观,还有很多需求需要得到满足。
现有的 AI 生成技术主要是一系列基于 Stable Diffusion 的文生图应用,包括 MidJourney 等公司的系列产品。最近 stability.ai 技术也在往视频的方向发展,但视频领域的 AI 生成仍然很少,尽管具体的表现形式和落地方式不尽相同,但从技术原理角度而言,视频的生成是可以实现的,只是它在一个更高维度上需要搭载更加丰富的内容。
现在市面上比较有名的几种技术分别来自 Google 和 Facebook,比如 IMAGEN VIDEO 和 MAKE-A-VIDEO 还有 PHENAKI。除此之外,也有很多人使用 Stable Diffusion 技术,通过多张图片拼接在一起生成视频。这些技术的原理相差不大,还是基于帧与帧之间的连接来生成视频。
AI 视频生成技术的现状与未来
AIGC 在视觉内容上的生成,其实类似于早期的 GPT3,例如我们以前开的是辆马车,但是现在有了新的汽车引擎技术,到底谁会制造出汽车,谁会制造火车,又或者说未来诞生其他形态的交通工具,真正在该场景下当发挥更大的商业价值,其实需要靠后面的产品力量去把它延伸出去,这也是值得大家去关注和时间投入研究的。
现状:
1. 高精度、完全可控的视频生成技术仍然没有被解决,文本生成视频等技术还没有真正被应用在商业场景中:
这是当前视频生成技术发展中最核心的问题——由于视频生成增加了时间上的维度,因此复杂性和难度成倍增加,可控性就会变得十分重要。用 AI 做简单的 demo 没有问题,但是在生成图片和精准的商业素材方面,AI 的可控性都难以把握。
2. 目前文本生成图像/视频的技术主要还是集中在 2D 的视觉内容上,3D 内容生成还有待进一步探索,友好交互的生成技术需要进一步完善。
视频生成中一个重要主题是视频角色和场景交互的达成,这也涉及到一定的可控性问题。本质上讲,我们今天可见的所有技术路线都是基于 2D 的视觉内容进行的,例如常见的基于大模型装载数据的方式。但是 3D 内容生成目前还处于很早期的阶段。实际上,如果要具体到人和场景的交互,比如在一个场景中把一个矿泉水瓶拿起来,还是需要 3D 场景和模型信息,但这个板块还较薄弱。
3. 大模型带来的挑战:数据偏见、推理速度、能耗以及模型交付等。
当前的调整更多是处在技术层面。虽然 Stable Diffusion 这种大模型的思想和理念很早已经提出,近年来也得到飞速发展,但大模型的核心问题在于数据偏见、推理速度、训练体量和模型交付,这些都是阻碍当下工业界进一步拓展的重要问题。
未来:
1. 视频生成技术取得进一步突破,生成质量持续提升。
首先视频生成技术在质量上一定会取得进一步突破。尤其是在 Stability AI 创造了开源的生态环境后,相继进入到这个赛道的公司会越来越多,相应的我们也会得到更多投资和学术资源。
2. 生成的内容更加可控,3D 内容生成成为可能,实现人与场景的复杂交互。
内容的可控性会不断提升。早在文本和图片生成两年前兴起的时候,学术圈就在探讨可控性的问题,并且取得了极大的突破。
3. 虚实结合的生成进一步发展,基于现实图片及视频素材进行创作,实现虚实结合。
举个例子,假设我们要生成一段视频展现 AirPods 这个产品,在视频中,AirPods 或者商品本身的来源一部分基于商家提供的实物,另外一部分是基于某些场景本身来结合生成。我们是会看到一些基于 Finetune 的 Stable Diffusion,但是这其中还需要更多的理论和算法突破,进而更好地把图片、现实世界中的物体或者场景作为参考输入到模型当中,使之生成一系列关于该模型,或者围绕这个模型的客体。
4. 多模态能够生成更复杂的序列:故事脚本、动作、视频、音频。
视频的一大特殊之处是故事脚本,这包括了整个动作的演绎,也就需要更复杂的多模态序列。我们现在常提及的多模态更多是基于文字、图片和声音,但整个故事情节是需要在数学表达式上思考如何建模的,这也是很多学者正在进行的工作。因此总体来说,我们认为视频生成未来可期。
视频生成的产品落地
在当前的讨论语境下,AI 视频生成是指不需要完全由个人来完成内容创作。现在很多人会自己拍视频在抖音、B 站上发布,在视频生成的语境中则意味着,人们将可以完全通过 AI 来完成内容创作,省去了个人去拍摄的环节。
视频制作可以简化为两个步骤:首先是摄制,取得素材是关键,有人会自己拍摄,也有人在网上搜索;第二步是编辑,比如使用 PR、FCP 等软件剪辑视频。这两个模块在 AI 生成技术加入后都会发生相应变化。
首先,AI 生成本身就可以创造视频素材,因此相机的素材捕捉会被 AI 生成所替代,就如同今天可见的用 AI 生成图片一般。
其次是编辑过程,当下很多图片生成都是 Inpainting,比如把一块区域涂掉重新输入,然后再把这个区域再生成,视频生成会延续这种交互形式。
这其中的核心原理是:视频的一个个拼接单元可以类比为一张张图片,当我们能够把这些图片以极强的连续性搭建起来,并且具备了前后的关联性文本后 ,这种 Inpainting 操作就可以生成视频内容。所以在未来,或许我们将不再需要复杂的操作来完成视频创作。Inpainting 并不一定是文字的交互,也可以包含其他形式,我们也可以通过 Inpainting 完成视频编辑,未来会有很多产品专注于某一模块或者并行完成。
在视频生成领域,比较有代表性的我们可以看到 Runway,以及诗云的 Movio 两个产品。
Runway 交互界面展示
Runway 专注于使用 AI 来增强视频的编辑能力和创造新的创作体验。上面展示的是在文字框里输入编辑形成的视频。左边的产品交互形态仍然类似于传统编辑软件,包含了 PR、AE 和 FCP 都设置了的时间轴。Runway 是从现有编辑形式出发,比如通过视频插帧(Video Frame Interpolation)和其他复杂的生成算法,最终将图片连接起来。
Movio 交互界面展示
第二个例子是诗云的产品 Movio。与其他视频生成工具不一样的地方在于,它关注的是角色本身,整个面板的交互形式简洁易用,通过拖拽各种元素就能完成视频创作。Movio 的角色生成在于,我们可以通过文字或语音来直接驱动得到成品。
前面提到,整个视频生成依靠 Generation 和 Inpainting 两大模块进行驱动,对于这款产品而言,无论输入专业文词,还是人物表情呈现,又或是服装的变换都是 Inpainting 的结果,即在 AI 生成的基础上,直接变换语言、样貌以及不同的服装,并且在视频上得到展现。
受制于技术因素,视频生成目前商业投入场景还有限,但 Generation + Inpainting 的路线已经在角色生成上得到验证和应用。针对大家比较关注的时间投入问题,我个人估算 12~18 个月即可实现。
无论是 GAN,还是视频 Generation,抑或是图片和视频的 Inpainting 基本都会成型。尽管无法科学的论证,但回看过去四年里 AI 生成以及 Generative Model 整个发展情形,基本上每 6 个月都会取得一个节点上的突破,并且这种发展速度只会越来越快。最主要的原因在于,越来越多的人开始重视 AI 生成领域,2020 年 AI 内容生成在行业内还是非共识状态,但当共识越来越多,自然也会有更多的资源投入其中,且 AI 作为现代软件的发展,整个开源状态也开始逐渐发生,因而整个 Stable Diffusion 的出现,一定会让更多人聚焦于该领域。
AIGC 时代如何颠覆视频?
“虚拟人”的新解法
现在在做虚拟人生成时一般会提前对人物进行建模,然后根据用户需求使用 AI 来输出一些微表情、动作以及对应的文字,可能在未来能通过训练视频的模型去直接完成内容生成,就这两种形态效果上而言,商业和用户体验上都会有不同的呈现。
“虚拟人”的生成可以被分解为两类问题。一类问题类似基于半身的表达和生成延伸出去一些全身的动作,以及其他更复杂的表现;第二类问题在于动作的生成和渲染,尽管已经有技术能实现,但却只能通过 demo 来表达,没有办法达到商业标准,而 B 端对比 C 端的精度要求而言自然更高。
因此在探索 AIGC 场景落地的时候,意味着技术要帮用户实现的商业内容不能止于 “好玩”,尤其是在技术发展的早期,市场的认知并没有那么深刻,其标准自然就会更加严格,用户对于生成素材质量的期许就像拍摄出来的效果一般,但目前在动作的生成上暂时还不能取代专业、真实的拍摄。但对于半身效果而言,其实已经完全达到了专业级 4K拍摄的能力,只是全身效果更多是作为一种技术路径在呈现。尽管动作的生成已经并不是大挑战,但还需要讨论如何让渲染达到专业拍摄的标准以上。
针对神经渲染板块的技术,在当下动作的精准控制并不是问题,更大的部分在于带动动作本身的角色呈现,其渲染精度是亟待解决的。当下由于 3D 的数据较少,如何去进行突破也有考量。
娱乐视频和 AIGC 将如何结合?
我们在当下去看娱乐性视频的时候会分为短视频和长视频两类内容,本质而言,短视频和长视频的区别不仅仅在于长度,更在于精度,往往长视频的精细化程度更高;另外一点,从技术落地的角度来看,因为短视频的精细化程度没有那么高,落地的可能性自然会更简单。
但实际上就核心来说,短视频、长视频或者中视频只是基于今天的视频创作来区分的,但 AI 生成内容是在底层创作范式上的变化,或能带来整个应用层面的颠覆,因此未来很可能出现新的视频展现形态。
关于娱乐和商业视频的表达则是必备项。就用户本身需求而言,娱乐视频在未来必然有更多进展。其实从 2018 年开始,Snapchat 就发布了第一个可以实时编辑的少儿卡通,已经属于 AIGC 领域触及娱乐场景的应用了,其他许多 2C 娱乐视频在将来也都会有很大颠覆。并且从用户价值端来说,商业视频的要求是一种比较精准的表达,需要体现自身品牌,因此技术实现难度较高;但娱乐视频更强调的是创意和趣味性,因此娱乐视频在短期之内可能就会有很大的影响力。
02.
AIGC 在社交产品中的应用
💡
分享嘉宾:傅斌
腾讯 QQ 影像中心负责人,图像视频领域技术专家。负责 QQ 发布器和腾讯特效引擎中台的搭建,为 QQ 等产品线提供拍摄,视频编辑所需要 AI 能力、编辑引擎和工具链,曾负责天天 P 图,水印相机等创新产品的孵化和迭代。
大家都已经看到了 AIGC 领域质变的发生:2021 年时,Dall-E2 已经出现基础的卡通形象生成产品,是那时的文生图结果,但当时的画质比较差,可控性也较弱。但仅仅一年过后,Dall-E2 的 Stable Diffusion、Parti、Imagen 等技术获得了非常大的突破,Google、OpenAI、Stability AI 等公司亦是如此。无论是大模型还是新技术的应用上都可以产生非常高质量的图像内容。
这里的一个突破点在于 Diffusion 技术,尽管它在剧照等其他商业场景已经被广泛投入使用,但在图片生成领域而言仍属新颖。
AI 生成内容经历了核心思想的变换过程。神经网络起初被用来直接生成图片,神经网络的层数基本可以代表被生成图片的复杂度。现在,求解过程有所改变,相当于基于一张图片或某一图片的特征空间,生成一张更加接近于目标的图片。因为一次生成进化成为 N 次生成,每一次的难度都会比原来降低许多。
Stable Diffusion 的大网络
上图中间位置就是 Diffusion 的模型,基于该模型就能获得高质量的内容生成。与此同时,在 Stable Diffusion 里面也做了参考结构的加速设计。
基于如上模型,Stability AI 成为了 AI 生成领域的“搅局者”,做了最彻底的开源,在这家公司的引导下,大量的 AI 应用都可以在开源模型上构建起来。Stability AI 后来也得到了巨额融资,经过一点点地积累造就了 AIGC 技术在今天的变化。
一方面,近些年 AI 生成在硬件方面获得了长足进步。最早的 AlexNet 就是较次的民用显卡级别,发展到后期,显卡的计算能力也突飞猛进,现下常规的神经网络中只要单机显卡即可。在 AIGC 领域,如果说要生成图像并且拥有 Diffusion 这样的网络,在整体的训练过程中就需要百卡级别,当下的硬件能力和系统已经基本上达到了可用的状态。此外,如果要产生如此效果的网络,参数量同以前的网络参数量是绝不一样的,谷歌发布的 Parti 网络中甚至有 200 亿的参数。尽管在我们自己的实验中发现未必参数量越多越好,但至少在 20 亿这样的级别上还是相当必要的。所以在该节点上,硬件的突破才能让我们接下来完成如此庞大的网络训练。
游戏设计师 Jason M. Allen 在美国科罗拉多博览会的年度艺术比赛中,以 MidJourney生成的作品《太空歌剧院(Théâtre D'opéra Spatial)》
夺下首奖
MidJourney 生成的图片美感度很高,但语义层面就稍微薄弱。此外,另一家比较火的公司 novel.ai 在于卡通类图像生成的能力,一些外网账号也是基于类似的卡通形象生成来完成创作的。
其实图片生成效果是有领域差异的。
事实上,在场景(特别是建筑领域)的生成方面,很早便能实现,这主要是由于建筑结构上的瑕疵人眼不容易识别,而对于人像生成,例如肢体生成或者动物的具象形态,网络在经过大规模训练后却未必能够对物体的结构有清晰的认识。在此情况下,人工智能生成在不同领域能达到的细致程度要求就不尽相同,例如,在一些人像生成领域或许就无法获得很好的叙事。尽管我们希望使用 AI 技术去帮助用户进行内容生产,但现下若打算利用图片进行较高质量的叙事,其使用空间会比较受限。
Fine-tuning 技术现在基本包括两大类,一类是文本生成 ,另外一类是图像基于文本描述的生成。我们可以通过 DreamBooth 的方法,针对一些文本的 Prompt 数据,对图片做出非常特殊的标注后再做训练。这些方法在定向的领域上已经取得了比较好的效果,但其暴露出的问题在于训练过程对网络普适性的破坏。该问题整个行业都在进行研究,预计在明年上半年,或者说最晚一年的时间将得到比较妥善的解决。
AIGC 的应用实践
AI 图像生成框架基本上可划分为三层(如下图所示)。
内部自研的大模型训练,也是基于百卡级别的加速来支撑网络训练,事实上很多外网的生成网络对于数据的清洗工作做得并不到位,所以有大量图片的美感度训练都有问题。基于此,腾讯也打造了自己的美化打分机制,在通用的网络训练完成后进入到定制化领域。比如,如果需要生成特殊画风的图片,通用的网络未必能获得很好的生成,特别是批量或定制化生成能力还是有所欠缺的。因而腾讯会针对各个领域做一些具体的 Fine-tuning 来优化该模型在某一具体领域的生成效果,也包括增量学习 Prompt 词汇工程、推理加速等系列工作,譬如说针对当前复杂的 Diffusion 结构网络去提升推理速度的话,可以利用当前技术从 6 秒加速到 2 秒,甚至是 1 秒钟。
就个人而言,美学是一个非常主观的东西,但它是可以被标注和训练的。举个例子,假如图片有水印或者没有核心主元素,往往就是一张废图,但现在已经有比较好的技术去识别并且过滤掉一些瑕疵,这个问题并不一定非要一个纯技术团队去解决,更复杂层面上的美感可能就会依赖于一些比较好的标注,有些图片在采集过程中,可能就已经决定了它的分数,被用户选择的图片是否高质量的回路其实也可以用于反哺系统的 Fine-tuning。
当下有几条路径可供探讨,一类是用现成的 AI 算法把较差的成品直接击破;另外一种形式则是基于半自动的方式去做一些少量的标注;第三种形式是用户标注。只有三种形式相互融合才能才能从根本上对某个网站上的美感逐渐提升,这也是比较健康的路径。
此外是周边网络的储备。如果要针对这种大模型做训练,其数据的标注工作是海量的,这就回绝了人工标注数据的可能性;并且,当下基于 PROM 词这样的生产方式,对于一个普通用户乃至内部设计师而言都是相当复杂的,因此我们也需要一些开源的技术来完成数据的半自动化标注,进而在上层去构建一些更好的生产交互式工具。
基于这样的生成架构,腾讯在一些具体的运营场景中已经有所落地。从 5 月份至今,大概有 6、7 款类似的运营活动,都是借助了 AIGC 的能力来简化整个生产流程。首先就是针对一些风格特征的库进行选型和提取,之后在基础模型上搭建一些特定的 Finetune 来优化定向领域的生成能力。与此同时,依赖这些定向生成模型,可以通过引导式的 Prompt 词语获得更大的图库。
对于在上线过程中避不开的内容监管层面的具体问题,因为在腾讯的各种 AI 生成产品线中,其影响面是比较大的,所以我们通过 2C 直接提供交互,希望能够令用户自主完成在线图片生成。尽管具体环节尚未落实,我们还是计划在图片生成且经过审核后,对图库进行梳理,然后提供给用户完成二次编辑。我们可以通过非常低质量和成本的图片,来生成相对高质量的图片和库,然后给到用户定制化的运营能力。基本上我们的相关活动可以做到单日一次的活跃和曝光,和百万次的活动参与。
当下我们已经上线的一些运营活动大致都是基于生成的模型,然后做一个图像对图像的演进,进而得到我们要的结果,在此过程中用户也可以通过输入图片使其变成一种更加绚丽的风格。接下来我想探讨一些所遇到的问题和挑战。
AIGC 面临的挑战
1. 基础技术层面
当下挑战主要是在基础技术层面。大规模百卡级别的网络训练成本和门槛相当高,如果借用外网数据,又会造成开源同质化程度严重,并且如果没有特定的加速,训练速度也会倍受限制。如果没有网络加速,在如此大量的数据集上面,训练成本高、耗时持久,基本上一轮训练会以月为单位来计算,这并不是日常模型训练中能够承受的。
在 Diffusion 的网络应用上,即便优化之后依然要经历十几次乃至几十次的迭代,这样的迭代速度严重限制了生成效率,造成难以移动端化。移动端化意味着每一次为用户提供服务,后台都会承担服务器的带宽成本和图片的上传下载,造成整个过程的成本都比较高,而且用户的体验来回时间大概是 5~10 秒钟左右,对用户体验的伤害也不容忽视。
2. 生成质量层面
当前 Diffusion 的生成峰值比较高,但是质量并不稳定。通常大家会认为我们在日常新闻稿里看到的图片都是细致程度相当高的,然而事实上如果用各种 Prompt 尝试,特别是一些开源项目,生成网络会产出一个相当奇怪的效果,可控性和稳定性效果都不佳。
其次的问题在于语义表达的模糊,自然语言处理很难表达出非常高阶的语义,并且 Fine-tuning 之后的稳定性问题也是需要考量的。尽管在 Fine-tuning 的环节人们可以针对某一特定领域生成比较好的图片效果,但当这个过程结束后,原来生成的比较好的一些 Prompt 关键词就会出现退化效应,所以它并不是一个增量的过程,反而对于网络自身而言是具备一定的破坏性。
Prompt 的生成方式类似于文本生成图片的 DOS 时代,可以通过命令行输入实现,但这种方式对于用户的体验而言是大打折扣的,内容生产效率也极其低效,因此,未来的生成必定是图形化的,也会有更多的 AI 提示和图形化启示的交互爆发,但究竟何种交互形式最佳是需要整个行业去探索的。
3. 多图生成层面
多图生成也是 AIGC 一大难点。如何在同一个系列的多张图片中通过某个统一、固定的主体元素来保证图片的系列性和主题一致性?这个看似简单的设计需求在 AIGC 当下的语境中还很难实现,这是因为多图序列的生成过程中,保存主体元素能力还相对落后,如果难以保证元素的一致性,那么这就为用户生成故事线提供了较多障碍。
4. 平台内容监管层面
对于任何主流内容平台来说,内容生态运维都是一个很现实的问题,尤其是涉黄涉暴等内容。因此,当我们去探讨提供 AI 生成能力的时候,作为平台和生态方,也需要同时提供一整套完备的自我保护机制,对不适信息进行过滤。此外,AI 生成内容是否具有版权,或者经过二次训练再生成的网络是否侵权也有待讨论,目前这个问题在国内外的政策和判例层面还没有获得比较明晰的表述,有待后续解决。
站在个人角度,短期内我对于 AIGC 的发展其实存有焦虑,开源技术、同质化程度相当之高是两个最明显且直接的因素,并且目前大家所建立的门槛只是一个时间窗口,在这样的情况下,短期内的市场竞争压力是比较大的。但我非常看好长期的终局, AI 辅助生成可以极大提升现有内容的质量,帮助用户产生巨大价值,进一步释放用户的创造力。因此当 AIGC 能够把用户的原动力发挥出来的时候,可能会迎接一个极大创意的时代,整个能够接触到的内容质量、画作审美、3D 能力等各个方面都将获得非常大的提升,对未来而言甚至对元宇宙都将会有巨大的冲击,所以我从长远角度来看其实是非常看好的。
前面提到的 AIGC 基本上都是针对大神经网络生成图片,但真正的 AIGC 技术绝对不止于图像。事实上任何的数字资产都可以被 AI 生产,AIGC 拥有一个更大的范围,包括 3D 模型、视频的生成,或者类似 Jasper 这样的文字、音乐生成和动作序列。
在这一层面上,一些大公司已经有了比较好的表达,例如 Google 的 NVIDIA 是通过 GET3D 在特定领域生成定制化的模型;DreamFusion 则基于神经网络去生成文本的 3D 模型,在匹配表达上的应用仍较薄弱,但未来的发展活力无限;Make-A-Video 的部分特质化序列生成也属于 AIGC 范畴,包括游戏中的动作序列表达也是一个非常重要的资源,此外还有 AIST++ 这样的 Google 算法,用以提供人体的动作序列生成和迁移能力。另外还有一些小众项目,例如用户手写与字体生成,也分属于个性化的生成。
因此 AIGC 的广度其实远大于我们日常所见的范围,Diffusion 也并不能解决所有的问题。虽然说在文生图领域 Diffusion 的效果已经大大提升,但 GAN 等产品依然有其存在的空间。
腾讯也已经上线了一些虚拟形象的技术投入于 QQ 等应用。基于用户提供的单张图片,同时通过采用一些 CV 技术、镜头捕捉人物表情、动作、手势,加之 AI 算法组合,来获得一个与用户相似的卡通形象,尽最大程度提升用户内容创作的能力,其丰富程度相当于使用任意卡通形象创建所需讲述的故事。在此基础上,腾讯也在考虑,到了元宇宙时代,这些能力要如何应用于用户个性化表达上。
针对 3D 游戏等资产治理,我们也倍加关注,并且一直非常积极地在尝试生产 3D 元素。目前所遇到的最大问题在于数据集合,也就是训练过程中的根本问题,即训练的标注数据若从文本发展到 3D 元素,这种标注形式在当下是完全不存在的,整个行业也没有太多的开源技术应用于此。或许在未来会有一些大的公司推出更好的 3D 图库给到行业内部,或者将图库会分享出来,因此这里面的数据就显得非常重要。
AIGC 近年来也有一些其他的热门项目,比如说以 GAN 为代表的换脸动作驱动,他们在未来依然有非常大的价值,例如可以延伸到视频编辑中的人物换脸,且在计算量上可以被优化的空间较小,因此 GAN 依然处于可用的状态,在市场层面上是一个不错的选择。
现在内容生产 AI 工具仍处于革命状态中,当下开源分享的氛围浓厚,发展迅速,很多新技术可能在我们尚未感知到的时候,就会被迅速开源化,成长为一个非常基础的能力。其次,如果没有拥抱 AI 的原生设计从业者,那么它在后续的竞争中将会面临缩水乃至急剧的退化。我们希望通过 AI 去辅助并拓展人的能力,帮助从业者完成更多业务上的扩展,这将会在后续的一两年里面非常密集地爆发。因而拥抱 AI 技术的从业者至关重要。
03.
从投资视角看 AIGC
💡
分享嘉宾:邢曜鹏
任职于五源资本成长期团队,投资副总裁,专注 SaaS 和科技领域投资。
文本生成
根据 SimilarWeb 的数据,这一赛道的头部公司已达百万 MAU 规模,其中 Jasper 和 copy.ai 两家公司的头部效应较为明显,并没有因为底层的开源基座产生同质化竞争。
就文本生成的产品类目而言,当下的产品类型非常专业化,表现为商业落地最成熟,进而导致头部公司的产品与内容生态,包括整体工作流程的融合生态都在不断加强行业壁垒。
有意思的是,如果对比这两家公司会发现,copy.ai 的用户流量其实和 Jasper 相差不多,但就两家公司内部披露的收入信息来看,Jasper 在 2021 年收入为 $45m,2022 年收入预计为 $75-90m,近期已超过 7 万付费账户, copy.ai 的最新收入显示为 $10.8m ARR。这表明,Jasper 已经把最头部的专业用户与营销、销售人员笼络在自己手中,因此造就整体收入规模呈现 copy.ai 的 6~7 倍。
尽管 copy.ai 的用户量庞大,但它所触及的高附加值用户并不多,更多是处于长尾区域,也就是辅助文字生成的用户来使用。因而我们可以看出文本生成之所以如此专业化,原因在于文字输出的简易性促进了用户数量的扩充。因此,在未来可见的实践层面,依照目前的大模型状态或难以实现大规模的商业化场景落地。
文本生成产品的真正用法是在用户和产品之间完成指令交互,基于已有生成文本的语境,不断向产品输入接下来的指令,形成工作流。但 Jasper 的奇特之处在于,不论是它的官方或是第三方社区,都是通过具体问题的工作流,发动大家共同参与贡献并形成各式 Recipes,因而在此过程中沉淀出很多 Know-How,奠定了自身的产品壁垒。
可以想见,未来市场里如果做通用的文本生成,微软、Google Doc 等公司一定会进入。因此,如果将来要做通用的文本生成,或许很难与这些巨头竞争。对于创业公司起步而言,关键还是针对某些领域切实地沉淀用户数据,把生态壁垒建立起来。
与此同时,Jasper 已经在同 Grammarly、Surfer SEO 等工具做集成,而且也在同外部的营销 SaaS 和企业内部整体系统做融合,为的也是通过集成工作真正融入到企业的营销工作流中。因而,创业者如果想要利用 AIGC 从一个单点的工具进化为能够在该领域真正生存下来的公司,并且产生可持续的商业现金流,就迫切需要在某些领域真正沉淀下 Know-How 的相关核心数据。
图像生成
2C 属性更强,引流能力强,但处于商业化早期
图像生成领域的海外公司数量庞大,这些公司同文本生成公司的一大不同在于体量大,且拥有很强的 2C 属性,引流能力显著,但也因此造成它的用户流量波动较大。
通过 Google trends 搜索可以看到,Dall-E、MidJourney、Stable Diffusion 三家公司的流量波动都是非常显著的,可以想见其中有很多的“吃瓜群众”活跃于此。
就当前的图片生成而言,由于没有办法完成精细化的交互和控制,所以大多数用户就是在做简单的工具。简单说,用户的工作流就是输入一个 Prompt 得到答案,但是没有后续操作。可能确实有一些专业的营销设计师会进行操作,但除了积累用户的 Prompt 数据外,很难跟上 Know-How 的使用流程,将数据真正积累在自己的平台上。因此,用户留存还需要长时间的积淀。
一方面,就流量而言,尽管 MidJourney 最近由于其他公司的进入导致数据有所下滑(如图中绿色线条所示),例如 novel.ai 在最近一两个月内通过生成很多二次元形象,甚至是很多擦边球内容,达到快速吸引用户的效果,但总体而言 MidJourney 做得还是相当不错的。
另一方面,从商业化的角度出发,可以看出 MidJourney 每天有 30~60 万用户在使用,尽管作为头部玩家,MidJourney 还没有披露自身的收入信息,但若考虑到整体付费转化率,加上每月 10~20 美元的会员付费收入,保守估计它的 ARR 可能小于 1000 万,因而还处在一个非常初期的状态,而且它的留存率等各方面也是相对薄弱的。目前很多图像或者未来的多模态生成,如果单独作为一个生成工具的话,类似于移动互联网时代的美图秀秀,大家快速尝鲜使用,却难以将流量用户真正沉淀下来,处在非常初期的探索阶段。
不要低估 Fine-tuning 的力量
那么在该领域大家是否就属于同质化竞争呢?我想我们不能低估 Fine-tuning 的力量,因为用户数据积累仍旧可以形成显著的效果差距。
就 MidJourney 公司自身而言,Fine-tuning 仍有许多针对性需求,例如,它生成多种有逻辑的人物,并完成更多精细化的面部表现效果,或者手指与身体结构等诸多问题。因此,尽管当下模型已经开源,但因其庞大的用户基数,以及前期的用户数据积累和 Fune-tuning 操作,MidJourney 的应用效果依然显著领先于刚进入的玩家。
但从另一方面来看,时间窗口并不代表市场的护城河,MidJourney 只有 10 名员工,他们的产出效率也并非难以追逐,只要投入足够多的人力,或引入了足够多的用户数据,想要达成相同的效果仍旧可以期待。
若我们真正望向未来,我个人更加期待相关产品向 2B 或 2C 领域发展,导向不同的产品形态。其中真正关键的在于如何通过新的技术迭代和产品设计,例如走向 B 端把 Know-How 真正沉淀下来,或者服务 C 端,将创作者和消费者的交互能够沉淀并导入自有平台里,而并非仍然发送在朋友圈或者抖音上,这其实会极大削弱产品的商业价值,这也是我从商业的角度对未来的期许。
目前整个行业当前还处在非常初期的阶段。就未来的叙事而言,因为技术和产品都在变化,所以说到底是模型统一应用,还是应用撬动模型都会有很大的变数。
如何投?基础研发 VS 上层应用
AIGC 领域变化很快,仅就个人观感,投模型或是投上层应用是两条完全不同的路线。我个人更偏向于基础研发型的公司,但它们的难度非常之大。类似的新机会在全球范围内仍是只有几家潜在标地会寻求资本。
这里包含两点问题,其一,训练技术模型确实对人才和资源要求很高;其二,假使作为一个底层模型开发商希望能够引领整个行业,也越发能感觉到其难度和挑战在增大,包括 OpenAI 本身作为一个巨头企业,它们在复现模型效果时和其他公司的差距可能也仅仅有几个月的窗口期,更难说其他创业公司。在这样的开源生态里面,越来越多人在贡献 Know-How 知识并进行复现。所以这里可能是一个很需要天时地利人和因素的场景。就应用层而言,这些产品尚处于探索的早期阶段,整个市场都比较期待找寻到能够重新定义产品范式的人,就目前观察,现在许多公司都在招募工程性团队,尝试将开源模型利用起来,因此入行门槛在不断下降。
针对技术或产品门槛问题,我个人比较希望看到一些具备工程优化能力的应用层公司去广泛地把这些资源真正利用起来,甚至是对模型做一些改进和调优,并且 Know-How 能跟上底层模型的演进变化,这样在后期才会有生物手法融入进对于产品应用的理解。
延伸阅读
Descript:OpenAI投资,像编辑文档一样编辑音视频
Cresta:销售和客服的实时 AI 导师
Hugging Face:通往 AI/ML 淘金潮的高速公路
OpenAI与AIGC:改变人类生产范式,通往“万物的摩尔定律”
AI/ML正在爆发,哪些环节和玩家值得关注?
微信扫码关注该文公众号作者