Synthesia: AI Avatar的PMF样本,像PPT一样做视频
作者:Haina,Siqi
编辑:Siqi
排版:Scout
在红杉发布的 Generative AI’s Act Two 一文中提到,“很多 AI 公司根本没有实现 PMF 或可持续竞争优势,随着行业炒作(hype)的消失,这类公司正被真正的价值和完整的产品体验所取代”。技术本身并不能构成企业护城河,找到契合的商业场景是所有想将自身技术优势变现为商业价值公司的共同挑战。
在 Synthesia 的案例中,团队在 2017 年成立时拥有足够领先的 2D 数字人及语音合成技术的研究能力,早期主要通过 API 的方式为输出 AI Avatar 和音频合成的解决方案,并在2019 年靠一支贝克汉姆的形象为慈善组织“Malaria No More”制作的公益视频成功出圈,但直到 2020 年,Synthesia 才真正意义上有了自己的产品 Synthesia STUDIO,让用户可以像制作PPT一样轻松制作视频,并一键生成自己的 AI Avatar,解决了企业视频内容制作需求上升,但传统制作方式成本过高的痛点。
除了数字人之外,Synthesia 也可以被划分到“合成媒体(Synthetic Media,是指由计算机部分或全部生成的视频、图像、文本或语音内容)”的版图上,AIGC 无疑加速了这个领域的发展。而在 AIGC 这个概念席卷世界之前,Synthesia 的 CEO 就预言,合成媒体正在成为人们日常生活的一部分,它会极大地降低内容创作的门槛,实现前所未有的创造力表达。或许这会进一步改变人与人之间的沟通方式,催生出全新的内容消费形式。
客观来说,Synthesia 当下所处的赛道已经相当拥挤,2D 数字人技术不再成为门槛,Synthesia 同类型产品也在不断涌现,Synthesia 将自己的下一步押注在 3D 数字人领域,强化 Synthesia STUDIO 目前的产品体验同时,也希望通过 3D 上的突破来找到新的商业场景。
01.
Synthesia 是什么?
Synthesia 创立于 2017 年,关注数字人技术研究和产品落地。在早期,Synthesia 以 API 方式为用户提供技术支持, 2020 年,Synthesia 推出了自己的 SaaS 产品 Synthesia STUDIO,并提出“Create videos as easily as a slide deck” 的概念, Synthesia Studio 让用户可以像制作 PPT 一样制作视频。目前这款工具主要面向的企业客户,产品演示、使用说明、公司理念、内部培训等场景都可以用它来完成。
公司 CEO Victor 在今年年初表示,Synthesia 目前有超过 5 万个客户,同比增长率为 456%,财富 100 强中有 35% 的公司正在使用 Synthesia 进行培训和营销,包括 Tiffany’s、IHG、Teleperformance、BSH 等,截止今年年初, Synthesia 已经生产了超过 1500 万条视频。
今年 7 月,Synthesia 完成了 C 轮融资,Synthesia 表示将利用这笔资金投入到 AI 研究上,推进与慕尼黑大学和伦敦大学等院校以及 NVIDIA 的合作,尤其是 next-gen avatar 技术,让 avatar 在每个参数上都更加完善,包括更多的表情、更自然的动作、更好的声音和简单的定制选项。同时,进一步建立协作视频编辑平台。
除了 2D 数字人,Synthesia 近两年也开始在 3D 数字人领域进行探索。
Synthesia 融资历程
产品
Synthesia STUDIO 的使用相当简单。用户只需要在 Synthesia 提供的模板中选择适合视频主题的模板和数字人形象(AI Avatar)、输入每一个画面对应的文案后,就可以一键生成一段视频由数字人作为 speaker 的视频,视频生成后,用户还可以直接在平台上对视频进行深度编辑,例如像编写 PPT 一样修改画面中的文字和对应格式、插入产品展示图片或视频动画等、增加视觉效果等,同时,Synthesia 也支持团队协作。
为了匹配不同用户需求,Synthesia 预设了超过 60 种模版,涵盖了培训、销售、“How-to"、学术、商业、客户 Pitch、报告、HR、创意内容等场景,同时,考虑到企业的品牌风格需求,Synthesia 也提供上传并使用专门logo、匹配品牌色系等个性化设置。
Synthesia 目前可以提供超过 150 种数字形象( AI Avatar ),这些 2D 数字人形象都是基于真人演员或 Synthesia 员工形象训练创建的,为了让视频内容更吸引人,用户还可以设定扬眉、点头等微表情和手势,这 150 种数字人形象还可以和超过 120 种语言进行匹配,除了口型和语言形态十分吻合外,语调也相当自然。Synthesia 还支持用户基于创建自己的数字形象( AI Avatar )并采用自己的声音,只需要通过 Synthesia Camera 录制一段对应视频就可以实现。
Synthesia 目前分为个人和企业两个版本的产品。个人用户的收费为 22.5 美元/月,但个人方案每月只支持 10 分钟的视频制作。针对企业用户,Synthesia 则根据公司需求设定不同的收费方案,费用主要是随着视频制作量增加而上升。
根据客户访谈,Synthesia 的企业客户年费一般在 10-30 万美元之间,如果想自定义数字形象,需要额外支付 1000 - 1500 美元/年,在实际使用中,企业客户每个月大约制作 30-60 个视频,其中新创作的视频和复用视频各占一半(备注:复用视频是指之前已经制作好的视频作为基础模板,只需修改部分内容就可以使用,同样也会消耗视频制作点数)。
在 GTM 上,Synthesia 主要专注于大型企业客户等 B 端资源,根据 CEO 今年年初透露的信息,财富 100 强中有 35% 的公司正在使用 Synthesia 进行培训和营销,包括 Tiffany、IHG、Teleperformance、BSH 等。Synthesia 目前没有公开披露收入数字,但 CEO 表示公司目前 “保持了三位数增长”。
💡
Synthesia 的收入估算:
• 根据用户数量和客单价:根据 CEO 提供的数据,目前 Synthesia 有 5 万个用户,大客户年付费 20 万美元左右,个人创作者年付费 270 美元,若其中 50% 为免费试用,1% 为企业大客户,则年收入约为 1 亿美金。
• 若按产生视频数量算:Synthesia 共生成 1500 万条;按照基础套餐的价格计算,1 分钟的视频为 2.25 美元。假设一个视频时长 1 分钟,且 50% 为免费视频生成,则累计收入达 1.69 亿美金。
技术逻辑
Synthesia 产品技术栈中最核心的是 Talking-head ,它是让数字人像真人演员一样“说话”的关键技术,实现语音和画面合成同时、并配合嘴型运动来模拟真人说话的效果,从而将用户输入的文案转化为一段视频讲解。Talking-head 并不只是在于嘴型和发言内容的匹配上,数字人面部表情和语音内容风格的一致性、如何有效调动微表情让数字人的呈现效果质量提升才是这里的关键。
作为数字人技术中重要组成之一,Talking-head 最早可以追溯到 1990 年代,早期的 Talking-head 是基于语音识别和计算机图形学的原型系统,2014 年,DeepMind 团队就发表过 A Neural Conversational Model ,是较早利用深度学习生成说话头像的实践。2016 年,LRWHD(全称为 Lip Reading in the Wild )数据集的发表推动了基于深度学习的 Talking-head 生成的研究,LRWHD 中收集了大量人物的说话视频,为基于口型移动的 Talking Head 研究提供了很好的训练集。
从技术路线上,Talking-head 可以分为图像驱动(Image-driven)和语音驱动(language-driven)两种路径。语音路线起步更早,是深度学习之前 Talking-head 的主流技术路线,即通过语音信号的参数(如声纹特征、语调等)来驱动口型和面部运动,构建语音和标准口型之间的对应关系,随着深度学习和生成对抗网络(GAN)的发展,图像驱动方法成为近些年 Talking Head 技术的主流。尤其是Face2Face、Deep Video Portraits 等工作推动了用图像数据训练 Talking Head。
图像驱动的优势在于更逼真、更个性化的效果和更细颗粒度的控制能力,但获得大量特定人物视频作为训练数据存在难度,不易扩展。而语音驱动的优势在于低成本、数据规模大、可泛化,但真实感还有差距。长期来看,二者结合会是 Talking-head 的技术路线。
值得一提的是,Synthesia 的联合创始人 Matthias Niessner 正是 Face2Face 的作者之一,所以在创立早期,Synthesia 的技术优势相当明显,但随着大部分算法的开源,越来越多的公司可以生成和 Synthesia 同等质量的 Talking-head ,甚至生成方式更简单,例如,基于 Neural Head Avatars (2020 SIGGRAPH Asia) 研究成果的 D-ID 可以直接通过一张照片生成 2D 人物形象,但 Synthesia 目前不支持的,所以很难说谁在技术上具有绝对优势。
虽然还没呈现到产品上,但 3D 数字人是 Synthesia 重点关注和投入的下一代技术。基于联合创始人 Matthias Niessner 的研究,Synthesia 进行了大量的大量围绕 NeRF、3D 的工作,为了实现 Next-Gen Avatar Tech,Synthesia 已经投入 500 多万美元建立实景捕捉基地,并在今年发表了第一篇 SIGGRAPH 论文 HumanRF,HumanRF 的核心是重建了行动中的完整人类形象,以及新视角的合成。Synthesia 团队表示到明年就可以更加细节地展示 Next Gen Avatar 的一些技术进展,例如生成的数字形象(avatar)能够在根据输入的指令在空间内行动、或者多个 avatar 之间进行对话等等。
3D 的突破极有可能为 Synthesia 在产品上带来新的突破,除了 Synthesia STUDIO 会受益外,因为有可能实现全身、多视角的数字人合成,也意味着 Synthesia 有机会找到更多新的应用场景。
HumanRF Demo
团队
Synthesia 的创始团队同时融合了学术和商业两方面资源和经验。
创始人及 CEO Victor Riparbelli 是一名连续创业者,他早期因为对科幻技术的热情开始研究 VR/AR 技术,曾参与过与英国VR/AR 发展计划,例如建立伦敦第一个高质量的体积捕捉工作室 Dimension 等,也因此结识了现在的联合创始人,慕尼黑大学教授 Matthias Niessner 及 UCL 3D 视觉教授 Lourdes Agapito。
Matthias Niessner 教授在 Talking-head 和 3D 领域进行了大量研究 。作为慕尼黑工业大学视觉计算实验室负责人,Matthias 在计算机视觉和图形学领域有着非常高的地位和影响力,他在 2016 年参与的 Face2Face 被看作为图像驱动的 Talking-head 生成的“开山之作”,近些年,他则专注于 3D 重建、语义 3D 场景理解、视频编辑和 AI 驱动视频合成技术。
💡
Matthias 2021-2023 年的研究主要聚焦在使用神经网络进行 3D 生成和 3D 场景理解两个方向。3D 生成上,DiffComplete 和 DiT-3D 都探索了 diffusion 模型进行 3d 形状补全、形状生成方面的应用,这些方法为生成高质量、细节丰富的 3D 形状提供了新思路。
在 3D 场景理解方向上,则主要探索如何从二维图像中恢复三维场景信息,提高从单张图片中解析三维场景的能力。例如, Text2room 从二维文本到图像模型中提取三维网格,Pose2room 从人类活动中理解三维场景,Panoptic lifting 使用神经场进行全景三维场景重建。
此外,还有一些研究专注于人脸建模方面,例如 Learning Neural Parametric Head Models,这些建模方法可以应用到机器人导航、增强现实、三维建模、游戏制作等多个领域。
团队 CTO Jonathan Starck 则参与过 NukeX、Ocula、CaraVR 等产品的建立,这一系列工具可以看作是视觉效果艺术家“photoshop”,好莱坞电影中的大部分特效都是在他创造的技术基础上开发的。
根据 LinkedIn 上的信息,目前 Synthesia 团队有 245 名员工,其中工程、研究、信息技术人员就有 87 人,团队内第二大人员类型为销售,有 33 人。
02.
市场机会
视频正超过文字成为当代最重要内容消费形态。这个趋势不仅发生在 C 端消费者的内容消费上,企业在其业务流中对视频的需求上涨趋势相当明显,例如,面向社交媒体的营销、更生动直观的产品说明、公司介绍以及公司内部的培训、技术说明等都是企业视频消费场景,a16z 在 2021 年投资 Loom 时也提到了类似趋势,并认为面向企业视频制作需求的解决方案要远落后于 to C 市场,Synthesia 提供的就是面向这类需求的解决方案。
一段视频的制作需要经过前期准备(概念创业、剧本分镜、文案撰写)、拍摄(预拍摄彩排、拍摄)以及后期制作三个主要阶段,几乎每个环节是典型的人力密集服务,无论是外包还是自建团队,都需要大量成本,尤其是在满足未来更多数量级视频生产需求的情况下,企业需要有效的降本增效的途径。
💡
传统企业视频制作的大致成本在 500-10000 美元/每分钟,其中包括了剧本撰写、拍摄制作、后期剪辑、配音等方面所有环节上的成本,在新品发售、重大转折点等企业大型 Campaign 事件中,成本可以达到每分钟 10 万美元。
比如,某 Synthesia 客户之前使用 Adobe 产品套件来创建这些视频,包括使用 Adobe Animate 制作动画,Adobe Premier Pro 制作矢量图等,并聘请制作视频和配音,一份10 页 PPT 的信息做成视频需要约一个月的时间。用户表示,以更快的速度制作视频是其主要关注的点,并且愿意在质量上做一定的妥协。
Synthesia 在自己的技术 blog 中将平台生产视频总结为 educational & informative videos,并在 use case 中重点提到了培训(Learning&Development)、销售支持(Sale Enablement)、技术培训(Information Security)以及知识类视频(knowledgebase videos)。和娱乐消费类视频内容相比,这类视频的特点在于内容足够结构化、信息简单,不需要复杂的镜头语言,并且会根据企业业务进展定期迭代更新,这些特征都让企业视频有机会通过工具完成“批量、标化生产”,也是 Synthesia 提出 “Create videos as easily as a slide deck” 的前提。
总体上,这类视频具有以下几方面特点:
• 镜头语言简单:只需要平面信息展示,不用考虑转场、光影、构图等镜头语言,这类视频的画面呈现上只需要服务于内容展示即可;
• 内容信息结构化:信息逻辑简单,甚至是模板化的,也因此不要求复杂的特效、剪辑为观众提供交互体验;
• 视频更新需求:由于业务动态发展,企业需要定期对视频内容进行细节微调更新,或者针对不同受众在呈现细节上进行调整,这再度对内容制作的灵活性和低成本提出要求。
如果从狭义的“企业视频”角度出发,Synthesia 所处的市场天花板并不高、且增速较慢。根据市场调研机构 Markets and Markets 估算,2022 年全球企业视频制作市场规模为 $19.8 Billion,以 9.7% 的 CAGR 增长,至 2027 年预计增长至 $31.4 Billion。
我们认为 Synthesia 提供的价值和 Canva 较为类似,Canva 是对平面设计的“民主化”,Synthesia 则将视频制作这一技术“民主化”,在使用场景和人群上进行泛化,在“Create videos as easily as a slide deck” 假设下之下,Synthesia 的潜在人群和市场可以是所有知识工作者的视频内容制作及消费场景。
Synthesia 的使用场景
Synthesia 目前主要有两类客户群:企业与个人创作者,他们使用 Synthesia 的场景主要有:
1. 企业场景相对明确,典型的市场营销类场景下的视频需求,例如用产品讲解、公司简介、用户答疑等。
Synthesia STUDIO 的操作相当简便,不要求有专业视频编辑技能,可以在原视频上修改、实时更新内容,减少重复工作, 从 PPT 到创建微视频只需要约 3~4 个核心创造者,一周左右的时间就可以完成,比传统视频制作流程节省 50%~60% 的成本。从传播效果角度看,Synthesia 生成的视频相比仅提供文本或 PPT 更吸引受众,AI 数字人本身也具有吸睛效应。平台模板丰富多样,支持多语言版本,可以针对不同受众群体定制视频。
虽然 Synthesis 提供的是 end-to-end 的视频制作和编辑服务,但在客户访谈中,我们也看到客户在实际使用中与更专业的视频编辑软件如 Adobe Premier 一起使用。客户表示 Synthesia 最大的作用在于节省时间,快速进入市场,但一旦要侧重“品牌(branding)”的考虑,Synthesia 生成内容的质量和实际需求还存在差距。比如对外营销场景对视频质量要求较高,为了确保头像的无缝整合,需要微调头像参数以确保嘴唇与文字同步。客户期待 Synthesia 能够让头像与视频和音频的整合更快、减少微调所需的时间。有客户表示会将 Synthesia 配合 Adobe 等其他产品共同使用,为重要的内容 “Creating hero shots”。
但对于原本以文本形式存在的长尾内容,现在可以通过 Synthesia平台以较低的成本批量制作视频。
2. 业务培训、技术培训、法律合规这些原本需要用 PPT、Word、Zoom 录音来完成的场景。
这些场景中则是对过去其他生产力工具的替代,使用 PPT、Word、Zoom 录音等非视频形态资料,会导致人们的注意力不集中,信息摄入效率较低。但如果每次都雇佣机构专业制作视频,在时间和预算上都非常不经济,Synthesia 则解决了这个问题。客户表示,如果没有 Synthesia,原本文本形式的内容是不会被制作成视频的,而现在约 60% 的 PDF、Word 或 PPT 格式的培训材料,现在都可以通过 Synthesia 平台转化为视频格式,从而提高信息传播效率。
综上,Synthesia 对客户的价值在于大幅降低视频内容生产成本,使其能够充分利用视频提高内容传播效果。
从生产成本角度看,Synthesia 平台操作简便,无需专业视频编辑技能,可以在原视频上修改、实时更新内容,减少重复工作, 从 PPT 到创建微视频只需要约 3~4 个核心创造者,一周左右的时间就可以完成,比传统视频制作流程节省 50%~60% 的成本。从传播效果角度看,Synthesia 生成的视频相比仅提供文本或 PPT 更吸引受众,AI 数字人本身也具有吸睛效应。平台模板丰富多样,支持多语言版本,可以针对不同受众群体定制视频。
在客户访谈中,多家公司都表明价格是决定是否更换供应商的主要变量,当 2D 数字人视频工具进入红海时,Synthesia 也会遭遇自己的“价格战”。
并且需要注意的是,Synthesia 的用户迁移成本并不高,即便转换到制作平台上时面临摩擦,例如客户已经在 Synthesia 平台上投入大量时间定制自己的头像、视频模板、积累素材库等资源,但因为 Synthesia 的使用中不会涉及到具体的用户数据,只是基于用户提供的文本、语音进行视频生成,所以当某个同类产品有明显的价格优势时,客户就会选择迁移。
另外,也有客户表示,Synthesia 并非是不可缺少的企业工具,在预算紧张时会被优先考虑削减。对于未来的付费预期,大部分客户表示基于目前的宏观经济形势,会保持付费金额的恒定,最多可以接受 10% -15% 的预算增加,但如果 Synthesia 的价格上升,将会寻找替代方案。如果企业发生营销预算上的缩减,还是对内支出上的精细化管理,都会带来 Synthesia 的客户和收入流失。
03.
竞争分析
我们可以从两个角度来定义 Synthesia 的竞争对手:
• 技术视角:数字人解决方案商,这里主要指 Synthesia 同类的产品;
• 需求场景视角:视频编辑工具。如果随着技术迭代、尤其是 2D 数字人生成成本降低后,视频编辑软件是否也会增加相应功能?
数字人解决方案
我们在前面提到,因为技术和数据集的开源,2D 数字人赛道竞争已经相当激烈,而从产品形态上,也几乎都以 Synthesia 这类视频制作和编辑平台为主,此外还包括 Soul Machine、UneeQ 等更偏技术供应商的角色。
在客户访谈中,Synthesia 的客户也会倾向于将它和 Hourone、D-ID、Elai、Heygen 等2D 数字人视频生成公司进行对比,这些产品从功能上类似,和 Synthesia 一样,让用户只需要通过输入文字、点击选择不同的数字人形象(AI Avatar),就可以生成一段逼着、直接可用的视频,不同产品之间的差异主要在于视频生成质量和产品层面上。
我们总结了主流 2D 数字人视频生成产品和 Synthesia 之间的差异:
Source:企业官网及用户访谈
站在 C 端用户视角,Heygen 在产品模板和易用性的优势更加明显,除了 Templete、Avatar 的选择更加丰富、多元外,我们也注意到 Heygen 也提供了竖屏模版,更适配短视频时代的需求。
Source:heygen
因为 Synthesia 等产品目前都只通过 Web 端体验,所以我们可以通过网站访问量对各个产品的使用量进行简单对比(备注:网站流量无法覆盖到通过部署 api 使用服务的规模)。
D-ID 近几个月平均单月访问量最高,达6.9M,Synthesia 排名第二,为 3.8M,Heygen 紧随其后为 3.3 M。但是值得注意的是,虽然 D-ID 和 Heygen 的访问量较高,但主要来源于 C 端用户,这部分用户的付费能力有限。而 Synthesia 客户以企业用户为主,且集中在付费能力强的美国和欧洲地区。
从地域分布上,可以看出印度、美国、印度尼西亚、巴西这些国家的用户较多,其中印度占据了 15.88%,D-ID 在印度、印度尼西亚、巴西这些公司具有较大的优势,而 Synthesia、Heygen 在美国的客户较多。
用户分布上,Synthesia 在美国拥有最多的用户,印度其次,在德国、英国这些欧洲国家也有较多的流量,鉴于欧洲国家本身用户基数小,可见 Synthesia 在该地域渗透较广,欧洲企业付费能力也比较强,是其主要客户群之一。
总体上,我们认为:
• 技术:2D 数字人目前已经没有壁垒,但在技术细节和硬件上有优势,可以做到 Avatar 更真实、效果更好,但是在个性化头像创建上落后于 D-ID。
• 产品:Synthesia 的产品设计更加专业成熟,在客户访谈中,我们看到有企业客户表示 Synthesia 的产品设计比竞争对手更符合企业需求、更专注企业级应用场景,。
• 客户:销售团队能力强,拥有美国和欧洲等付费能力强的重要企业客户渠道,并提供了出色的客户支持。
• 定价:Synthesia 的价格略高于D-ID 和 Heygen,不具备明显优势。
视频剪辑软件
视频剪辑软件本身有以下几个特点:
• 功能更丰富:包括剪辑、过渡、颜色调整、添加特效等,可实现精细化视频编辑。
• 更为专业、精细:面向专业用户,输出视频质量更高。
• 更灵活:可以导入各种格式的素材。
• 用户基数大:已经建立了较大的用户群。
在客户访谈中,我们看到不少用户将 Synthesia 和其他视频编辑工具配合使用:Synthesia 的核心功能是将文本内容转化为虚拟主持人演示的视频,这些视频因为内容高度结构化,对于进一步编辑和处理的需求较低。但在营销、销售等对视频质量和丰富度要求更高的场景,用户可能需要对 Synthesia 生成的视频进行更精细化的处理,包括添加额外的特效、音频剪辑、文本注释等,就需要用到视频剪辑软件。
Synthesia 和视频剪辑软件竞争的竞争格局,主要决定因素包括市场机会、投入产出比和功能深度。一方面,如果视频剪辑软件认为 Synthesia 的用户群体和需求足够大,那么它们就有足够的动力去做 Synthesia 的功能。另一方面,如果随着技术迭代使得 2D 数字人生成的成本进一步降低,像 Synthesia 一样训练 150 个 Avatar、130 种声音不再是一个“大工程”, Final-Cut Pro、剪映等视频剪辑软件也可以较轻松的做出 Synthesia 类似质量的产品。
此外,Gen-AI 热潮中也带动了不少和 AI 能力结合的新一批的视频剪辑产品的出现,这些新产品相当积极地将 AI 功能糅合进自己的产品设计中。
04.
结论
Synthesia 是一家典型的将技术优势转化为产品的公司,在创立之初拥有明显的技术先发优势,并通过先和具有付费能力的企业客户合作的方式实现了自己的商业化。
1. 专注付费能力强的企业客户。Synthesia 已经积累大量高质量企业客户,后续可以继续进行营销渗透。原因是其产品平台更成熟完善,并且围绕它建立了一个优秀的销售团队,一方面有能力获取新的大客户,另一方面通过客户支持和客户使用惯性,做好客户维系。
2. Synthesia 的团队实力较强,尤其是科研能力,这使得 Synthesia 在 3D 和 Next-Gen Avatar 领域进行研究布局,如果 Synthesia 能够成为该领域的技术领导者,较快的实现人物在虚拟空间中自然运动和互动的效果。这将为其商业化带来很大的想象空间,包括与元宇宙/VR 平台、游戏公司合作,以 SaaS 模式为客户提供数字人解决方案,与硬件公司合作为 AR/VR 设备开发数字人相关软件和应用等等。
但客观来说,Synthesia 也存在着很多问题,包括:
1. 产品迁移成本低且不是企业刚需。目前的产品形态为单一工具,与企业其他技术栈的整合不强,也没有网络效应,导致迁移成本很低,Synthesia 面临潜在的低价竞争对手的威胁。因为不是企业的刚需产品,若经济下行,企业缩减预算,Synthesia 会受到较大的影响。
2. 2D 数字人技术已是红海,企业视频市场天花板较低。如果 Synthesia 业务局限于该领域,收入很难保持高速增长。
3. 3D 数字人领域技术商业化存在不确定性。且需要面对来自大厂的强大竞争。3D 技术的商业化仍在早期,大厂如 Apple、Meta、Nvidia 都在积极布局,与其已有产品矩阵结合能够更快的找到应用场景。Synthesia 作为创业公司并不具备竞争优势。
综上,我们对 Synthesia 持中性态度。目前的 Synthesia 在 2D 数字人视频生成市场的优势有限,伴随 Gen-AI 的热度下降,Synthesia 的 2D 数字人生成业务增速有可能明显放缓甚至下降。Synthesia 不能过于依赖当前客户和场景。
05.
附录:数字人市场主要玩家 Mapping
无论是 Synthesia 目前的 2D 数字人视频生成、还是未来要发展的 Next-Gen Avatar,都是数字人赛道的一部分。此处对于数字人的定义是由 AI 驱动的类人虚拟形象,可以与用户交互或者代表用户本身。
根据 Polaris Market Research 的测算,2023 年数字人赛道的市场总规模到达 $18.59 Billion,因为该赛道与 Gen-AI 紧密相关,未来十年以 44.4% 的 CAGR 增长,预计 2032 年将到达 $506.46 Billion。数字人目前应用最广的是客户服务领域,如银行、电商平台上的数字人客服。随着技术进步和 Gen-AI 的到来,数字人逐渐渗透社交、伴侣等领域。
数字人技术栈主要包括计算机视觉、对话能力(早期的 NLP 和 Gen-AI 后的 LLM)、语音合成、VR/AR 等,其中 AI 技术十分重要,让数字人能够进行自然的语言交互和表情动作。
根据产品能力可以被划分为 Interactive Digital(交互式数字人)、Non-Interactive Digital(非交互数字人)。另外根据应用场景还可以分为具有独立形象的数字人个体以及代替特定人的数字替身。
根据应用场景划分:
数字人赛道的头部公司中,大厂占据着举足轻重的作用,其他也有一些创业公司涌现出来。大厂与其产品矩阵结合,主要面向 ToC 消费者,为个人提供虚拟化身;而创业公司主要为企业客户提供技术解决方案。代表公司如下:
Nvidia’s Omniverse Avatar
UneeQ AI Digital Humans
因为大厂拥有自己的产品矩阵,其数字人技术可以很好的与现有产品集成,提供附加功能体验。但为企业提供数字人技术解决方案的 UneeQ 和 Soul Machines 商业化进展并不理想,其中 Soul Machines 年收入约为 $21.8 Million,近期裁减了近一半的员工。
Synthesia 的 2D 数字人视频生成找到了企业视频这一适配场景,实现了较为可观的收入,但未来进入全身视频生成及 3D 领域将面临着大厂的竞争。
大厂很可能凭借着雄厚的资金、技术和已有产品矩阵率先实现突破。未来 3D 数字人产品 ToC 端可能会需要同时实现用户的个人形象捕捉和平台整合。个人形象捕捉可能采取移动端捕捉的方式,并能够实时生成,那么未来互联网和移动领域会大规模出现真实人类的数字化身。平台整合则是指个人的数字端形象,能够和社交产品(Facebook 等)、专业化场景(Slack、Zoom、CRM) 等整合,进入整个生态系统。所以以现在的格局来看,Synthesia 绕不开与大厂的合作。
延伸阅读
GenAI云计算百亿角斗场,算力之外的错位博弈
11Labs:声音模态能否突围OpenAI?
“AI版YC”创始人:我们要如何跨越AI Hype Cycle?
Jan Leike:OpenAI将如何在4年内实现超级对齐?
Luma AI会是3D领域的Midjourney吗?
微信扫码关注该文公众号作者