Descript:OpenAI投资,像编辑文档一样编辑音视频
作者:Armin
编辑:penny
排版:Lydia
Descript 是一个 All-in-one 的音视频编辑器。音视频内容的剪辑过程是一个十分繁琐的过程,这一方面是因为专业音视频编辑器复杂而臃肿,另一方面是因为用户在传统的多轨道时间线上剪辑会消耗大量的时间。
Descript 定义了音视频剪辑赛道的新类别。Descript 可以将音视频内容转录成文本,让用户可以通过像编辑文档一样编辑音频和视频,还集成了屏幕录制、远程录制等功能,主要使用场景是谈话类音视频内容的录制和剪辑,和企业内外部的视频沟通。
Descript 创立于 2017 年,创始人 Andrew Mason 曾经创办了团购网站 Groupon,即美国的美团网。2022 年 11 月,Descript 完成了 OpenAI Startup Fund 领投的 $50M C 轮融资,最新的估值为 $550M。
Descript 团队已有音频相关的 AI 能力,如语音转录和文本生成语音。获得 OpenAI 的投资后,Descript 正在将 OpenAI 的 AIGC 能力集成进来,新版本将在明年发布。
Descript 处于文本生成、音频生成和视频生成的交界处,是 AIGC 时代最值得期待的公司。
01.
什么是 Descript?
Descript 是一个用于音频转录、播客、屏幕录制、音视频编辑的 all-in-one 的桌面软件,其最大的特色是可以将音视频内容转录成文本,然后将文本中的每个词和音视频中的时间戳对应上,允许用户通过编辑这个转录后的文稿来编辑原始音视频。
对于非专业用户,使用传统的音视频编辑软件来剪辑音视频是一个非常耗时的工作。Descript 的出现变革了音视频的创作,将繁琐的剪辑变为像编辑一个谷歌文档一样简单和方便,极大地提高了生产力。
Descript 的主要功能有:
· 转录
Descript 支持将音频或视频中的内容转录成文本,并按照分钟数计费,目前支持 22 种语言。转录后用户可以纠正转录文稿中的单词,如果对精确度要求特别高的话,可以使用人工转录,价格为每分钟 2 美元。在自动转录时,Descript 还支持自动识别和分离不同的说话人。
· 屏幕录制
Descript 支持快速录制、编辑和分享屏幕录制的视频。录制好的视频自动生成转录文本,用户通过删减文本和语气词的移除来编辑视频。
屏幕录制支持选择摄像头、屏幕和视频分辨率,发布后可以获得一个链接用于分享。远程录制允许用户在使用 Zoom 等会议软件时调用 Descript,这样可以一边在会议软件内开会,一边将讲话的内容实时转录成文字记录在 Descript 内。
· 音视频编辑
Descript 为播客剪辑节省了大量的时间,让播客主可以专注于内容本身。用户可以通过编辑文字来编辑音频,无需任何学习成本,同理也适用于视频的剪辑。
当用户删除一个词后,音频中对应的词也会被删除;当用户想修改某个说错的地方时,他只需要删除说错的地方,并通过打字添加文本,AI 可以生成该用户的声音,这样可以避免补录。这个文本生成音频的功能被 Descript 称为 Overdub。
Descript 支持一键检测和删除语气词,比如“ums”、“uhs”、“likes”、“you know”,支持删除大量重复使用的单词,也支持一键缩短句间停顿时间。这些功能可以立即缩短播客 10% 的时长,是 Descript 最受欢迎的功能之一,很多用户表示仅这一个功能他们就愿意付费,因为节省了太多的后期时间。
除了转录后的文稿,Descript 还有一个多轨道的时间线,专业用户也可以直接在时间轨道上编辑音频,就像使用其他专业工具一样。
在定价方面,Descript 主要根据团队用户数和每月转录时长进行分层。免费版每月有 1 小时的转录时长;Creator 版本每月 10 小时转录时长,定价 12 美元;Pro 版本每月 30 小时转录时长,定价 24 美元。
02.
团队
Descript 创始人和 CEO 是 Andrew Mason,这也是他的第三家公司,而他的第一家公司就是美团网当年学习的对象:团购网站 Groupon。
Andrew Mason
Source:TechCrunch
2003 年,Andrew Mason 从西北大学音乐专业毕业后,开始为企业家 Eric Lefkofsky 工作,后来 Andrew Mason 申请到了芝加哥大学的硕士奖学金项目,但他只待了三个月就退学创立了 The Point,即 Groupon 的前身。
2007 年,Andrew Mason 联合了他的老板 Eric Lefkofsky,和 Lefkofsky 的好友 Brad Keywell 成为创始团队,两人为 Andrew Mason 提供了一百万美元的资金。The Point 的想法有点像 Kickstarter,即聚集一批人,达到某个条件后就可以做某事,这个活动可以是众筹,也可以是捐款。
NEA 的 Harry Weller 曾经和 Eric Lefkofsky、Brad Keywell 一起工作过,他非常喜欢 Andrew Mason 的这个 idea,尽管没有清晰的商业模式,但他还是选择了投资团队,他认为创始团队中的另外两个人更加成熟,不会允许公司做长期不产生收入的业务。这笔投资也成为 Harry Weller 最著名的投资之一。
一年后,团队发现用户在 The Point 上使用最多的方式是集体买东西,于是正式决定 pivot 为团购网站 Groupon。Groupon 成立后发展迅速,成立 16 个月后估值就达到了 10 亿美元,拒绝了雅虎、谷歌的收购邀约,于 2011 年上市,最高市值高达数百亿美元。
2013 年,由于公司业绩不好,Andrew Mason 被解雇,他在离职信中对员工坦诚地说“I was fired today”,这是科技公司 CEO 离职时最真诚的沟通,让很多人印象深刻。
离职后他创立了 Detour。Detour 是一个手机 app,可以让用户在城市漫步时收听语音导览,很像博物馆中的语音讲解。Detour 初始版本提供七种不同的旧金山探险,每次花费 5 美元。2018 年,Detour 被 Bose 收购。
在 Detour 的时候,由于要录制数百小时的音频来制作导览语音,Andrew Mason 发现现有的音频制作工具都不是为以谈话内容为核心的音频而设计的,同时语音识别技术也正处于快速发展的时期,音频的录制时间很短,但剪辑却要花几天的时间。
Detour 在内部构建了原型,将音频转成文本并将文本和音频对齐,通过修改文本来直接剪辑音频。这样不再需要像其他音频编辑器一样编辑时间轨,Descript 正式诞生。
最初,Descript 专注于音频编辑,后来开始扩张到异步沟通和视频编辑的市场。截至当前,Descript 完成了 4 轮融资,总共融资额 1 亿美元,投资者主要包括 OpenAI、Spark Capital 和 Andreessen Horowitz 等。2022 年 11 月,OpenAI 领投 C 轮 5000 万美元的融资,估值达到 5.5 亿美元。
Descript 拥有约 100 名员工。截至 2021 年,客户有 NPR、VICE、《华盛顿邮报》、《纽约时报》等。Descript 没有透露收入,但有提到其客户群最近已扩展到“主要大学和非营利组织”以及公共部门组织。
03.
发展历程
Descript 的发展主要经历了三个阶段:
通过编辑文本来编辑音频
在创建 Detour 时,Andrew Mason 并没有为它融资,但推出 Descript 的测试版后,产品非常受用户的欢迎,Andrew Mason 感受到了强烈的 PMF,这让他觉得有机会重新发明音频剪辑这一行为。
2017 年 12 月,Descript 从 Andreessen Horowitz 获得了 $5M 的种子轮融资。在最初的版本中,Descript 可以转录音频为文本,将其放入文档中,允许以编辑 Word 文档的方式编辑声音文件。
2019 年 9 月,Descript 完成 Andreessen Horowitz 和 Redpoint 领投的 $15M 的 A 轮融资,这个阶段产品的用户主要是播客主播,以及其他一些涉及到音频处理的用户。这时 Descript 的产品定位为“让编辑音频像编辑文档一样简单”。
Descript 的语音识别服务是使用的 Google 的 API,在这个时期,Descript 主要面临来自其他语音转录产品的竞争,由于语音识别是一个相对更成熟的技术,Descript 意识到补充其他的 AI 能力将成为产品的长期核心竞争力。
完成 A 轮融资的同时,Descript 收购了一家加拿大的创业公司 Lyrebird,这是一家专门做 text-to-speech 的公司。集成了更强大 AI 技术的 Descript 允许用户根据自己输入的文本来创建自己的声音音频。
通过编辑文本来编辑视频
2020 年,由于疫情流行,大量的线上沟通使用了视频的方式,同时也诞生了非常多的视频创作者,他们分布在 Twitch、YouTube、Instagram、Snapchat 等平台上。“创作者经济”开始崛起,内容创作者的身份更加多元,比如播客主录制音频的同时也会录制视频对话传到 YouTube 上,还会转成短视频发到短视频平台上。
10 月份,Descript 发布产品更新,推出了视频创作套件,允许用户像编辑文档一样来剪辑视频,同时添加了屏幕录制和摄像头录制的功能。
2021 年 1 月,Descript 完成了 Spark Capital 领投的 $30M B 轮融资。Descript 开始主推一些视频创作(剪辑)和企业沟通(屏幕录制)的场景,其中前者是剪辑能力的继承,后者是看到了以 Loom 为代表的企业视频沟通的需求的爆发。这个阶段 Descript 将自身定位为“通过编辑文本来编辑音频和视频”。用户来自于播客主、YouTube 创作者和 TikTokers,此外企业也将其用于制作快速视频消息、社交剪辑、演示文稿和营销材料等。
值得一提的是,B 轮融资中 Greylock 的 John Lily 也参与了投资,他是 Figma 的早期投资人,也是促成 Figma-Adobe 交易的幕后关键人物。(2022 年 11 月,Adobe 发布 Adobe Podcast 产品,与早期的 Descript 产品非常相似。随着 Descript 向视频领域进军,Adobe 的其它产品也将面临着当初像 Figma 一样的冲击。)
每个人的沟通工具
由于视频的创作逻辑和音频完全不同,并且更加复杂,Descript 开始重新设计产品。2022 年 11 月,Descript 正式推出全新版本,命名为 Storyboard,之前的版本被称为 Classic 并将在未来几个月下线。
重新设计的主要目的是为了让用户可以更好地制作视频。比如产品内增加了“场景”的概念,弱化了时间轴的概念。允许用户将视频脚本编写分解成一个个镜头,然后像制作 PPT 一样来制作视频,此外还增加了视频抠图、背景移除等 AI 功能。
全新设计的产品更加简单清晰,Descript 再次调整自己的定位,希望将目标用户扩充到那些从来不生成视频的人,他们因工具太复杂和太耗时而不制作视频,现在他们可以像做 PPT、编写文档一样制作视频了。未来的 Descript 将成为“适合所有人的通讯工具”,它会成为用户沟通工具包的一部分,即电脑桌面上 Word、PPT 旁边的一个产品。
新版本发布的同时,Descript 完成了 OpenAI Startup Fund 领投的 $50M C 轮融资,虽然 Andrew Mason 没有透露估值,但据 The Information 的报道,最新的估值为 $550M,是上一轮估值 $260M 的两倍。
由于 Descript 处于文本生成、音频生成和视频生成的交界处,集成 OpenAI 能力的新功能将于明年陆续推出。
04.
市场规模
Descript 位于音视频编辑赛道,并正在向异步沟通和企业办公方向转型,其市场规模也主要从这两个方向进行估算:
在音视频编辑赛道上,Research and Markets 预测到 2027 年全球市场规模为 52 亿美元;在异步沟通和企业办公的场景,根据高盛的统计,到 2023 年全球知识工作者(使用 Word/PPT/Excel)数量达到 8.65 亿人,按 10% 渗透率和 144 美元/人的年费计算,异步沟通的市场规模大约在 865,000,000*10%*144=124.56 亿美元。
综上,推测到 2027 年,Descript 的 TAM 在 200 亿美元左右。
05.
Why Now
1. 抓住 AI 技术成熟的时机,开创赛道新类别
Descript 最为依赖的音频转录技术是最先商业化落地的 AI 技术之一,在把语音转录成文本后,可以得到句子中每个单词的时间戳,即每个单词在原始音频中开始和结束的时间点,这样就可以把单词和其在原始音频中的出现时刻对应上。
Descript 很巧妙地将它应用到音频编辑上,使用户体验与之前的音频编辑产品有极大的差异化,直接开创了一个新的工具类别。小样本的文本生成语音的技术随后成熟,Descript 开始支持音频生成。现在,Descript 又刚刚开始集成 OpenAI 的 AIGC 能力,可见 Descript 团队对 AI 技术商业化落地的节奏把握得非常好。
2. 创作者经济爆发,音视频内容需求旺盛
由于内容平台的多样化,成为创作者不再需要专业的机构和团队,每个人都可以通过内容平台成为创作者,比如写 Substack、录制播客和 Vlog、制作短视频等。在音频领域,Spotify 近几年对播客的扶持和投入力度非常大,加上远程会议工具的便捷,越来越多的人开始制作播客;在视频领域,Tiktok 下载量超过 Facebook 成为世界第一,正式宣布社交网络进入了视频时代,创作者可以在各种长短视频平台上建立自己的品牌。Descript 所在的音视频赛道内容需求旺盛,并且视频内容的渗透率仍将持续提升。
3. 混合办公时代,异步沟通成为常态
线上办公和全球化团队在疫情后渐渐成为主流,大量的线下会议和沟通被移到了线上,视频内容也比即时通讯更能清晰准确地表达需求。Descript 也及时抓住了这波机会,推出了屏幕录制和远程录制等功能,开始支持企业内外部的沟通场景,与以 Loom 为代表的异步沟通工具相比,Descript 拥有更强大的后期编辑能力。
06.
竞争
Descript 是一款 All-in-one 的软件,其中每一个使用场景都面对着不同的竞争,其中最主要的竞争来自音频转录、视频编辑和异步沟通。在音视频编辑方面,Adobe Premier 等专业产品是一座大山,对于专业用户来说,Descript 还不能取代 Adobe 系列的产品。
1. 音频转录:Otter.ai、Sonix 等
2. 视频编辑:Veed、Runway、Adobe Premier 等
3. 异步沟通:Loom、Vidyard 等
Otter.ai 是一家提供语音转文本的创业公司,主要用在会议转录的场景,由 CEO Sam Liang 和工程副总裁 Yun Fu 于 2016 年创立。Liang 曾经领导了谷歌定位业务的团队,后面创业的公司 Aloha 于 2013 年被阿里巴巴收购。2020 年,随着 Otter 在 230 多个国家被采用,该公司的收入飙升了 800%。截至去年,它已经转录了超过 1 亿次会议,总时长超过 30 亿分钟。Otter.ai 围绕着会议转录和管理来打造产品,没有像 Descript 一样在转录后还可以进行十分丰富的编辑操作。
Veed 是一家伦敦的初创公司,创始人 Keynejad 曾经在设计工作室时要处理很多在线视频,但他发现视频处理软件都庞大而臃肿,便开始构建网页视频编辑器 Veed。Veed 团队特别擅长通过 SEO 来获得 organic growth,创始人从 Day1 就一直在分享自己的创业过程,build in public,记录了自己如何边兼职边创业,申请 YC 被拒绝,以及 bootstrap 到 100 万美元 ARR 的经历。截至 2022 年 2 月,Veed 有 100 万用户和 700 万美元的 ARR,主要用户是社交媒体视频的创作者。Veed 的剪辑视频方式仍然是使用多轨道来剪辑,而不是像 Descript 一样基于文稿的剪辑。
Runway 成立于 2018 年,三位创始人最开始在纽约大学的艺术学院从事 AI 相关的视频编辑项目,这个项目后来演变为 Runway。Runway 支持很多 AI 视频编辑的功能,比如文本生成图像、图像生成图像、背景替换、绿幕、物体擦除、插帧等,其用户主要是设计师、艺术家和媒体工作室等创意人士。Runway 还是 Stable Diffusion 的合作者之一。Runway 在 2022 年 12 月完成了 5000 万美元的 C 轮融资,据福布斯不同的信源透露,Runway 的 ARR 在 100 万美元左右,并且低于 500 万美元,这意味着估值 5 亿美元的 Runway PS Ratio 超过了 100x,这在当前的市场下非常罕见。Runway 将 AI 功能简单地罗列在了 AI Magic Tools 页面中,从产品上来说并没有很好的整合到用户的使用流程中。与 Descript 相比,Runway 有着更多的 AI 功能,而 Descript 更多的是围绕用户场景打造 complete solution。
异步沟通工具 Loom 成立于 2016 年,产品支持屏幕录制和摄像头录制,主要的使用场景是企业内外部沟通,比如销售演示、产品营销、团队协调、入职培训等。Loom 有超过 20 万的企业用户和 1200 万注册用户,2021 年预计 ARR 达到 3500 万美元。Descript 支持与 Loom 相同的异步沟通功能(屏幕录制和摄像头录制),除了编辑功能外,最大的区别是 Descript 以转录时长计费,而 Loom 是免费的。
07.
结论与判断
Founder-Problem Fit
在 Andrew Mason 的童年,他一直对优惠券情有独钟,甚至会收集报纸上的优惠券剪下来缝在衣服上,这对他后来创业成立 Groupon 有非常大的影响。
同时,Andrew Mason 也一直痴迷于音乐和音频,他在大学读了音乐专业,毕业后在一家录音室工作了几年。从 Groupon CEO 的职位离开后,他去制作了一张音乐专辑。所以基于音乐和音频的听觉体验,是 Andrew Mason 的热情所在,也是支持他创立 Detour 和 Descript 的重要原因。
创业动机十分重要,这也是激励创始人度过那些至暗时刻的重要因素。如果一个人为了创业而创业,那就太难了,因为建立一个成功的公司的道路上有很多挑战。如果创始人出于错误的原因去创业,那他就根本不会坚持。但是,如果创始人对正在做的事情有深深的动力,他会继续前进,并且克服一个又一个的障碍。这也是红杉资本 Roelof Botha 常说的 “Founder-Problem Fit”。
早期投资和创业的艺术
NEA 投资 Groupon 时,团队并没有清晰的商业模式,Harry Weller 选择了相信创始团队会找到正确的方向,这很大程度上也取决于 Harry Weller 对另外两位创始人的信任。
Andrew Mason 第一个公司以 The Point 出发,最终换方向形成了团购网站 Groupon;第二次创业以语音导览产品 Detour 出发,后来成为了音视频软件 Descript。类似的例子还有很多,比如 Twitter 最初是一个播客公司、Slack 最初是一个游戏公司。
在从一个创业方向切入到寻找 PMF 的过程中,pivot 是一个非常正常的现象,重要的是要以最短的时间和最低的成本来快速失败,这也是对创始团队把握创业节奏的最大考验。
扩充 TAM,持续增长
分析 Descript 的发展历程,可以清晰地看到一个成熟的 CEO 是如何不断更新产品功能和用户定位来扩充 TAM 的。
Descript 最初只是一个播客剪辑产品,虽然美国播客是一个非常蓬勃的市场,但音频的市场空间明显有限。Descript 看到了视频内容的爆发、看到了疫情后企业视频沟通的大量需求,开始将产品从音频剪辑扩充到视频剪辑、远程录制、屏幕录制等场景。现在,Descript 又想让那些从来不制作视频的人成为用户,让 Descript 成为 Word、Powerpoint 这样日常使用的产品,显示出更大的野心。
在临近市场中扩充产品 TAM 是一个能力。Snowflake CEO Frank Slootman 曾经介绍到自己第一次担任 CEO 时(Data Domain),由于没有及时扩充 TAM 导致增长受限,上市三年后公司不得不被收购。在他后来在 ServiceNow 和 Snowflake 两家公司担任 CEO 时,他都特别注意不断扩充产品的受众,以实现长期更快的增长。
Descript 的挑战
1. 产品复杂
虽然 Andrew Mason 曾表达过,想做成 Airtable 类似体验的产品,但实际上,Descript 的产品还是挺复杂的,这和它的早期定位有关。Descript 的早期用户有很多资深的音频创作者和专业播客工作室,他们对产品功能的要求会比普通创作者更加专业,支持这批用户就不得不去开发那些专业音频编辑工具的功能,这样做的后果就是产品的臃肿和难以 self-serve。
2. 市场定位
从音频扩充到视频的战略选择看起来美好,但实际成本很高。根据在用户社区的观察,Descript 的大量用户仍然是播客创作者。对于视频内容来说,Descript 最适合谈话类视频的剪辑场景,即视频播客等,对于非谈话类视频的剪辑,Descript 并不具备优势。产品上,Descript Storyboard 的新版本也是为了更好地支持视频创作。
3. 视频行业
整个视频赛道涌现了大量早期创业公司,比如视频创作的 Veed.io、异步沟通的 Loom、主打 AI 处理的 Runway 等。视频方向的这些创业公司在扩充 use case 和 TAM 的过程中,一定会和其他视频产品遇到一些 overlap。比如 Veed.io、Loom 和 Descript 都支持屏幕录制,并且 Veed.io 还支持了直播。好在整个视频生产的需求是持续爆发的,该方向的早期创业公司找到自己的 ICP 非常重要。
4. 团队
在产品、技术和 AI 算法上,Descript 都面临着不同的挑战。
Descript 的产品改动非常频繁,比如一个按钮下个版本就换位置了,用户经常不知道某个功能是取消了还是换位置了;技术上,Descript 最开始是个 mac 应用,后来用 Electron 重写,可以跨平台;在用户群中,可以经常发现用户对性能的吐槽,比如导出音频卡住、项目打不开。Descript 至今仍然必须下载 Desktop 版本,无法在 Web 中使用。在算法上,Descript 创始团队没有 AI 的能力,靠收购的团队来提供 Overdub(音频生成)能力。在集成了 OpenAI 的技术后,又是谁来负责领导将 AIGC 的技术产品化呢?
这些问题都指向了团队的构成,Descirpt 需要更多的职能专家加入,才能完成 Andrew Mason 的远大愿景。
Descript 的未来
虽然 OpenAI 已经投资了 Descipt,但实际 Andrew Mason 团队还在探索如何将 OpenAI 的技术落地到 Descript 的产品中。
比如有用户问到何时将 Generative AI 技术添加到 Descript 中时,Andrew Mason 认为生成图片素材仅仅是从素材库寻找图片素材过程的自动化。
Descript 的语音识别和音频生成的技术会持续提升,最近的相关技术和应用有 OpenAI 的 Whisper 和生成乔布斯播客的 play.ht,这是明显的迭代方向,可以继续优化 Descript 的已有体验。
以 Jasper 为代表的文本生成应用公司商业化进展十分迅速,这也可能会是 Descript 将集成的能力,即 AI 辅助编写视频脚本。围绕着视频脚本,Descript 可能引入更多的文本生成能力,如自动分章节、自动写标题和摘要等功能。
视频生成还处于非常早期的阶段,AI 功能将成为视频创作流程中不可缺少的一部分,用户与产品的交互方式也会发生很大的改变。
“视频的舞台已经准备好了,它将与文本并驾齐驱,成为每个人用来创造和交流的东西——唯一阻碍它的是工具”,Andrew Mason 这样期待到。
毫无疑问,Descript 将是整个 AIGC 时代最值得期待的公司。
延伸阅读
Cresta:销售和客服的实时 AI 导师
Hugging Face:通往 AI/ML 淘金潮的高速公路
OpenAI与AIGC:改变人类生产范式,通往“万物的摩尔定律”
AI/ML正在爆发,哪些环节和玩家值得关注?
DataRobot:数据科学民主化还有多远?
微信扫码关注该文公众号作者