DataRobot:数据科学民主化还有多远?
作者:Kefei
编辑:邓痕痕
排版:海外独角兽团队
自 a16z 发布 Data 50 以来,我们根据最新的 IT Stack 框架对 Data infra 各赛道进行扫描和研究。通过研究,我们得出的核心结论是:下一个平台级数据公司或将在数据科学及数据治理领域出现。同时,我们认为应该警惕 AI 和自动化对数据行业、甚至是整个软件行业的颠覆式创新。
数据科学属于数据行业应用层,是个规模庞大、高速增长的市场,目前仍处在早期。至于 why now,我们的回答是:
1. 数据科学需求增长迅速,数据科学家却稀缺且昂贵;
2. 数据分析格局日渐明朗,最好的投资时点已去,数据科学仍处在春秋时期,趋势和格局尚未分明,投资机会较多;
3. 数据行业 infra 层已 ready,为应用层提供支持和动力,现在是时候将目光转向应用层。
基于此判断,我们对一家具备上述特性的公司进行研究,这家公司是 DataRobot。DataRobot 位于数据科学领域的机器学习赛道,是一个机器学习自动化平台,DataRobot 通过 AI、自动化等技术,使机器学习民主化,让所有人都能自主构建机器学习模型,从数据中获取洞见。
DataRobot 由两位数据科学天才 Jeremy Achin 和 Tom De Godoy 于 2012 年创立,两位创始人是全球有名的数据科学家,技术实力强劲。此外,DataRobot 产品力在同类产品中遥遥领先,用户反馈较好。
不过,DataRobot 在公司管理方面存在较大问题。由于创始人与董事会在是否 IPO 方面产生较大分歧,两位创始人均已在 2021 年离开公司,管理团队遭遇大变更。然而,新的管理层并没有让 DataRobot 原本的问题得到解决,并且似乎让问题变得更严重。
2020 年 DataRobot 收入 1.6 亿美元,较 2019 年增长近 90%。但直到 2021 财年结束时(2022 年 1 月),ARR 较 2020 年仅增长 25% 至 1.76 亿美元,未能实现年初制定的 2.5 亿美元的销售目标,增长显著放缓,收入基本横盘。
我们认为增长放缓主要受公司管理混乱和市场需求波动影响。在 Glassdoor,许多内部员工表示,如果管理问题得不到改善,公司将走向更加危险的境地。另一方面,DataRobot 采用的基于使用量的定价模式与宏观经济强相关,当宏观经济处于下行周期时,使用量迅速递减,使用该定价模式的公司会受到较大影响。
DataRobot 处在机器学习赛道上的一个绝佳位置,且平台化潜力存在。机器学习民主化的愿景也为其带来更高的天花板、更多的可能性以及更丰富的想象力。但公司管理问题确实是一大 redflag,管理问题能否改善是 DataRobot 业绩能否反弹、维持领先地位的关键。
01.
为什么要研究 DataRobot?
1. It's time to focus on Data Science
在数据行业,底层的云,中间层的数据湖与数据仓库以及围绕它们创造出来的工具和生态均处于 ready 状态,数据应用层发展条件成熟。
此外,数据行业基础层格局日渐明朗,最好的投资时点已去,未来十年将是包括数据科学在内的应用层的时代。
2. DataRobot 是目前唯一真正做到民主化的 AI/ML 工具
Snowflake 面向的客群是会使用 SQL 语言的数据分析师,与其他基于 Spark、Python 等语言的产品相比,使用门槛更低,可触达的客群更广泛。
DataRobot 拥有与 Snowflake 相似的民主化特点,Snowflake 实现了数据分析的相对民主化,而 DataRobot 致力于数据科学的绝对民主化,让所有人都能够零门槛搭建机器学习模型。
民主化意味着更大的 TAM、更高的 upside、更多的可能性以及更丰富的想象力。
3. DataRobot 处在数据科学领域的最优越的一环
DataRobot 位于机器学习链条的中心位置,延展性极佳,是机器学习链条中最有机会向上下游延展、最有机会平台化的一环。此外,模型的构建、调试也是整个链条中壁垒最高的一环。
就像 Snowflake 的数据仓库在数据分析领域处于核心战略位置,并逐渐发展出自己的生态一样,DataRobot 也有望在未来发展出“DataRobot 生态”,成为数据科学时代的 Snowflake。
02.
什么是数据科学与机器学习?
数据科学(Data Science)是指利用科学的方法从数据中获取知识和洞见,并将知识和洞见运用到实际应用中。它结合了计算机编程、数学、统计学以及各应用领域的专业知识。机器学习是数据科学的一个子领域。
完整的机器学习应用链路主要包括以下 5 个环节:
以上五个环节除可视化是一个历史悠久的领域外,其他每个环节单独拎出来看都是一个非常大的市场,每一环节的成熟度也与其先后顺序相关。数据准备和可视化阶段已相对成熟,模型构建是当前整个行业投入的重点,模型的训练、调整、评估环节也在探寻自动化的解决方案,而模型的部署和应用仍处在早期,但这两年也已经有许多人才涌入该领域。
从战略意义来看,我们认为第三环节即模型构建环节是壁垒最高的一环,且延展性较好,有利于形成平台性的机会。从市场空间看,数据准备和模型应用环节同样值得关注。
03.
为什么在现在关注数据科学与机器学习?
需求端:市场需求从数据分析向数据预测演进
在数据发展初期,人们对数据的利用仅限于收集、转换、存储、分析、可视化等,即所谓的数据分析领域,但数据分析是针对历史和当下的概念,当人们需要对未来做出预测,更多还是依靠个人的专业知识和主观判断。
随着企业对决策的科学性、客观性要求不断提高,以及企业利用数据驱动业务的观念不断增强,一些企业开始希望能够利用数据对未来可能出现的情况和结果进行预测,因此对数据的利用提出了更高要求,机器学习工具训练出来的模型能够满足这一需求。
供给:上游供给日趋成熟,为下游的发展提供支持和动力
我们可以将数据行业分为 infra 层和应用层,将云看作 IaaS 层,将数据湖、数据仓库看作 PaaS 层,将数据分析与数据科学看作 SaaS 层,也称为应用层。上一层的发展依赖下一层的支持,因此,某一层何时迎来拐点取决于离它最近的下一层的成熟度。
毋庸置疑,IaaS 层云计算已发展成熟,数据湖、数据仓库以及围绕它们创造出来的工具和生态也处于 ready 状态,数据科学上游均已成熟,为数据科学的发展提供强大的支持和动力。
换个角度思考,数据行业的发展与 IT Stack 的演变与发展密切相关。下图是 a16z 总结的最新 IT Stack 架构图,结合基于云的 infra 的发展历程我们发现,Data Infra 的发展方向与数据在 IT Stack 中的流动方向一致,对于下图而言则是按照从左往右的方向发展。
同样,下一环节的爆发依赖于上一环节的成熟,Storage 和 Query and Processing 环节已诞生出 Snowflake 这样的成熟公司,Transformation 领域的公司如 Transform、dbt、Airflow,也均已达到 ready 状态,那么再往右则来到 Analysis and Output 的时代,即数据分析与数据科学时代,也就是上文所说的应用层的机会。
机会:数据科学领域仍处春秋时代,格局尚未分明,投资机会较多
数据分析领域格局日渐明朗,最好的投资时点已去,目前尚可围绕数据仓库生态进行投资,能投出 6-8 分标的,但不会再有 10 分标的。
然而,数据科学领域仍处在春秋时期,趋势和格局都尚未分明,投资机会较多。加上需求增长迅速,上游供给成熟,当下就是投资数据科学和机器学习的最佳时点。
根据 Fortune Business 和 Reprotlinker 数据,2021 年全球数据科学市场规模为 570.8 亿美元,预计在 2026 年可达到 2,142.4 亿美元。即使聚焦到机器学习行业规模也相当庞大,2021 年,全球机器学习市场规模为 154.4 亿美元,市场预计从 2022 年的 211.7 亿美元增长至 2029 年的 2,099.1 亿美元。
04.
为什么需要将机器学习自动化?
在以前,上述机器学习流程中的所有步骤均需要数据科学家来完成,随着应用场景和需求增加,纯手工作业一方面无法跟上业务发展速度,另一方面也会带来较高的失败率。
此外,数据科学家的数量远远无法满足当下机器学习应用需求,雇佣数据科学家的成本也非常高昂。
将机器学习自动化是解决以上问题的核心。机器学习自动化能够让非数据科学背景的人独立使用数据完成预测,让数据科学民主化。DataRobot 正是在这样的背景和需求下诞生。
大型企业平均每年在 DataRobot 消费约 20 万美元,中小企业则是几千至几万美金不等。然而根据 Kaggle 统计,全球数据科学家平均年薪为 5 万美元,在美国这个数字达到 12-15 万美元,几乎等同于一家大型企业的机器学习年均消费金额。根据客户访谈我们了解到,DataRobot 等机器学习工具可完成的工作量相当于 3-4 位数据科学家的工作,即为企业节省下 3-4 位数据科学家的雇佣成本,每年约省下 36-60 万美元。
不仅如此,机器学习工具还可以将数据科学家从部分简单重复的工作中解放出来,去完成更复杂困难的环节,去做更有意义、更能创造价值的事。这一部分收益,也间接来自 DataRobot 等机器学习平台。
05.
DataRobot 是什么?
DataRobot 是一个高度自动化的机器学习平台,使没有技术背景的人或没有足够数量的数据科学家和机器学习工程师的组织也可以轻松地部署、监控和管理机器学习的预测模型,从数据中获得知识与洞见,享受机器学习带来的价值。
借助 DataRobot 的 AI/ML 平台,用户可以获得准确的模型和预测结果,实现从“数据”到“商业价值”的转变。例如:DataRobot 运行风险算法帮助银行确定是否向某组织发放贷款,为医疗保健提供商确定糖尿病或心脏病风险的预测模型,帮助棒球队挑选某赛季最有胜率的球员。
产品使用
DataRobot 提供从前期数据准备、到模型训练、再到最终交付预测结果的一站式全链路的机器学习自动化建模服务,这意味着背后需要构建完善的能力矩阵来提供强大的技术支持。尽管 DataRobot 内部的栈堆十分复杂,但用户却只需处理一个简单的 Web 界面,通过点击、拖放就可以轻松操作。
我们可以先通过一个视频来了解 DataRobot 的使用方法和具体功能:
DataRobot 官方发布的产品演示视频
DataRobot 从用户视角打造产品价值,为用户带来 "Fast, Easy, Enjoyable (快捷、轻松、愉悦)" 的使用体验。平台运作过程主要包括以下两个环节:
数据准备(Data Preparation )
自 2019 年底收购 Paxata(一家专注于数据准备的公司)之后,DataRobot 已经将其集成到平台中,用户可以通过 DataRobot Paxata 连接主要数据源(包括本地数据库、云数据存储和下载的文件或电子表格等),收集、创建任何数据集,轻松完成机器学习任务前的数据准备工作。
自动化机器学习(Automated Machine Learning / AutoML)
完成数据准备后,用户选定需要预测的指标(比如财务数据集中的销售数字),然后 DataRobot 开始构建预测模型。得益于 DataRobot 的大规模并行处理引擎,在这个过程中会有多个模型被同步构建并不断比较,最终交付给用户的将是一个最佳的预测模型。
技术与功能
贯穿在以上核心环节中,DataRobot 还提供了其他的技术和功能:
1. 可解释性(Explanations)
可解释性是 DataRobot 产品在早期的一大劣势,但随着该功能越来越重要,DataRobot 近几年在模型的可解释性方面下了很多功夫,还尝试提供关于为什么进行某些预测的“人性化解释”,这对于用户理解机器学习的应用、以及描述和评估模型非常有用。
2. 机器学习管理和“谦逊的”人工智能(MLOps and Humble AI)
DataRobot 拥有 MLOps 和 Humble AI 技术。MLOps 即 Machine Learning Operations,主要作用是更快地试验和开发模型,并能够帮助用户高效快捷地部署、监控和管理他们的模型。
Humble AI 技术建立在 DataRobot 的模型监视功能的基础之上。使用 Humble AI,用户可以设置特定条件以在模型对预测没有信心时进行实时触发,从而能够限制机器学习模型只在满足触发条件的情况下被使用,降低风险并提高每个预测的可信任度。
3. 持续学习(Continuous Learning)
DataRobot 的 Challenger Model(挑战者模型)进一步释放了 MLOps 的能力,通过持续学习和开发模型,使用户永远有其他准备就绪的替代模型来满足不断变化的条件,DataRobot 还会不断测试和比较现有模型和替代模型,以便用户随时可以选择性能最佳的模型。值得一提的是,即使在模型交替的过程中,模型的预测服务也不会中断。
4. 从人工智能中实现价值(Realizing Value From AI)
为了帮助用户了解 AI 模型在生产中实现的价值,DataRobot 推出了 "Case Value Tracker" 功能,即案例价值追踪器,相当于一个 ROI 管理中心,可以直观地衡量商业价值、计算投资回报率。
商业模式
DataRobot 为用户提供免费的试用版,待试用期结束后,用户需要付费才能继续使用产品。
同时,DataRobot 采用按实际用量付费的定价模式,这种付费模式就像日常生活中用水用电一样灵活,大幅节约用户在机器学习项目上的开支。
对于 DataRobot 而言,采用基于使用量的定价模式也有以下两方面好处:一方面,数据量的增长远大于使用数据的人的增长,从长期来看,基于使用量的定价模型为 DataRobot 收入增长带来更大牵引力。另一方面,与收年费的模型不同,使用基于使用量的定价模型不需要销售团队年复一年地去对同一个客户销售产品,用户在产品使用上也不会一年卡顿一次,客户流失率会大大降低。
不同规模的企业用户由于使用需求和资源消耗程度的差异,所支付的费用也有明显的差距。我们收集了一部分 DataRobot 用户的付费情况,发现他们每年在 DataRobot 的花费大多集中在 5-10 万美元的区间内。
06.
由天才团队创建,深陷管理危机
DataRobot 创始人是 Jeremy Achin 和 Tom De Godoy, Jeremy Achin 是 CEO,Tom De Godoy 任 CTO。Jeremy 和 Tom 是校友兼前同事。他们毕业于美国麻省大学洛威尔分校,这所学校在工科领域久负盛名。
左为 Jeremy Achin,右为 Tom De Godoy
技术能力是 AI/ML 领域的核心能力。在校期间,Jeremy 就展现出极其出色的专业能力,在任何数据科学竞赛中都能取得前 10% 的成绩。2015 年,数据科学社区 Analytics Vidhya 发布了全球 24 位最顶尖的大数据科学家名单,Jeremy Achin 就是其中一位。Tom 同样拥有卓越的技术能力,在 Kaggle 数据科学平台上排名世界 Top 20。
Kaggle 是 2010 年由 Anthony Goldbloom 创立的全球顶级权威性数据科学竞赛平台,迄今已经吸引了超过 80 万名数据科学家的关注。
两位创始人也拥有丰富的产业经验。Jeremy 和 Tom 都曾在 Travelers Insurance 工作过五六年,这是一家管理着超过千亿美元资产的美国第二大财产保险咨询公司。他们在 Travelers 担任研究和建模总监,负责定价、索赔等方面业务的预测模型建构,积累了数据科学应用和管理经验。
相似的教育背景、参赛和工作经历使他们产生了一个共识:数据科学家数量的短缺无法满足不同领域对人工智能与机器学习的不断增长的需求,因此他们希望构建一个自动化的机器学习平台,来帮助用户解答商业问题。
DataRobot 早期吸引人才的能力很强。在 Jeremy Achin 和 Tom De Godoy 的呼吁下,很多在 Kaggle 竞赛中脱颖而出的优秀数据科学家加入 DataRobot,包括 2012-2013 年 Kaggle 榜上排名第一的 Xavier Conort,后来在 DataRobot 担任首席数据科学家。
但随着公司规模不断扩大,公司管理成了影响 DataRobot 发展的一大核心问题。2021 年,两位创始人因公司是否要 IPO 的问题与董事会发生分歧,相继离开公司。此前,创始人也因其激进的销售目标、管理风格、自大的个人行为等引起公司员工和合作伙伴的不满。
创始人离开后,前 AppDynamics COO、2020 年初加入 DataRobot 担任 COO 的 Dan Wright 接任 CEO 一职。然而,新管理层存在更大的问题,在他们的管理下,DataRobot 支出猛增,收入增长放缓,Wright 之前制定的 2021 年 targets 中,其中有一项实际与预期差了 75%。除此之外,Wright 还因组织顶级销售人员去群岛开奢华派对等行为在员工面前失去公信力。
去年,DataRobot 五位现任高管在公司估值峰值,即上一轮 63 亿美元估值的融资后,共出售 3,200 万美元的股份,这其中包括 CEO Wright。
许多内部员工在 Glassdoor 表示:“如果管理层再不离开公司,公司将走向危险境地。”他们认为,现在的高管团队完全不懂 AI/ML,随意花钱,享受奢靡生活,由于管理层的不作为,公司已经 2-3 年没有创新,之前并购的标的也没有被很好地整合。同时他们认为, DataRobot 处在一个很有前途的市场,产品也是同类产品中最好的,公司里有一群很有才华的人,只是管理层将公司带入了困境。
07.
从用户视角看 DataRobot 亮点与局限
通过用户访谈,我们了解到用户采购数据科学产品的决策因子主要包括:
成本与收益:每一美元成本投入能节省多少人力成本、时间成本,能提高多少收益。
端到端的解决方案:是否能提供从数据准备到模型部署的端到端的解决方案。
模型透明度、可解释性与可操作性:用户能否看到模型构建、调整、优化的过程,产品是否会告知用户数据及参数对模型的影响,用户是否能够手动对细节和参数进行调整。
我们将基于以上几个方面来探讨 DataRobot 的价值与局限性,并以打分的形式表达我们的理解与判断(0-5 分)。在此之前,我们希望添加一条标准——机器学习自动化、民主化。之所以需要单独强调,是因为这是 DataRobot 独特的价值。
1. 自动化:5 分
机器学习自动化、民主化是 DataRobot 的最大价值。DataRobot 核心团队成员有 RPA 背景,其产品自然也拥有自动化基因。正如一位用户所言:“DataRobot 的产品和模型是独特的,它真的就像一个没有代码的机器,真实推动了数据科学和机器学习民主化。”
尽管其他数据科学与机器学习平台如 Dataiku、H2O 同样宣称自己的产品适合所有人群,但通过专家访谈与用户反馈我们发现,其产品易用性与 DataRobot 相差甚远,用户群体也更集中于数据科学家、机器学习工程师等专业人士。而 DataRobot 的用户包括销售、财务、HR 等。
数据科学民主化是数据赛道的主航道,也是数据行业发展的终极目标,DataRobot 在自动化与民主化方面遥遥领先于其他竞争对手,掌握着绝对优势。
2. 成本与收益:4 分
成本与收益是客户在采购 to B 产品时最关注的因素。由于 DataRobot 等机器学习平台为客户带来的价值远高于所需要投入的成本,因此与采购其他 SaaS 产品不同,客户在采购机器学习工具时,很少要求供应商或渠道商提供精确的成本与收益计算,而是直接比较同类产品的价格。因此我们将关注点转移到价格层面。
机器学习平台均采用个性化定价,我们无法了解每款产品的具体价格。但通过访谈可知,DataRobot 价格在行业内处于中等偏上,与 AWS 等云厂商相比价格较低,但与同类初创企业相比并没有价格优势。
3. 端到端的解决方案:3 分
能否提供从数据准备到模型应用、端到端的解决方案对用户体验产生较大影响。由于机器学习链条长且复杂,企业一开始往往只能选择其中一个环节切入。此外,从行业和市场的角度来看,数据科学行业仍处于发展初期,而该赛道市场参与者众多、竞争激烈,每家企业目前仍然处于在自己的优势细分领域抢位的阶段,暂时无法在其他环节建立起竞争力。因此,尽管几乎每家公司都在各个环节进行了产品布局,但实际上目前没有一家公司能提供真正有效的端到端的解决方案。
关于此方面,目前做得最好的是 Dataiku,Dataiku 从第一环节——数据准备环节切入,并不断向下游延伸,平台化属性已初显。而 DataRobot 提供端到端的解决方案的能力较弱,尤其是数据准备环节,尽管 DataRobot 的定位是机器学习平台,但事实上,DataRobot 目前更像是一个纯粹的机器学习工具,而非平台。
4. 模型透明度、可解释性与可操作性:2 分
模型的透明度、可解释程度与可操作性是数据科学家关注的方面,随着数据科学行业门槛变低,以及协作性增强,在未来,以上几个功能将变得越来越重要。
然而,由于 DataRobot 的销售对象包含非技术背景的用户,DataRobot 将产品自动化程度发挥到极致,用户只需导入数据即可自动生成模型,中间无需(无法)进行任何的人为干预。但反过来看,由于无法进行人为干预,数据科学家也就无法对模型细节进行调整,无法结合他们的专业知识调试模型,这就对他们产生了一定限制。
不仅如此,DataRobot 模型透明度与可解释程度也很低,即用户无法了解模型是如何生成的。公司最近对此进行改进,开发和强化了可解释性功能。但在早期,DataRobot 就像一个黑盒,没有人知道模型生成的过程中发生了什么,这也造成了部分用户的心理障碍,因为看不见,所以无法信任。
尽管我们目前把透明度和可解释性看作 DataRobot 的一大劣势,但不得不承认,可解释性、可操作性与数据科学民主化在一定程度上是矛盾的,对于一家致力于数据科学民主化的公司而言,早期把重心放在增强产品的自动化能力上,或许也是 DataRobot 在民主化与专业化之间权衡之后的抉择。
08.
收购、合作与公司整体表现
DataRobot 通过大量的收购与战略合作,努力补齐短板。
DataRobot 自 2017 年起共完成了 7 次收购:
从上述公司的具体业务可以看出,DataRobot 收购公司一方面是为了强化核心产品功能,另一方面是为了能够提供端到端的解决方案,收购数据准备平台 Paxata 正是第二个目的的体现,也表明了 DataRobot 向中上游延伸的野心。
除了收购企业,DataRobot 还通过与云服务厂商、云数据平台、IT 咨询公司合作,全面扩大产品销售渠道和能力范围,增强提供端到端解决方案的能力。
由于 AWS 等云服务平台和 Snowflake 等云数据仓库公司市场渗透率较高、影响力较强,他们已积累了大量的用户和数据,因此与该类企业合作实际上是为 DataRobot 的漏斗前端注入高质量资源,这里的资源一方面指数据资源,另一方面也相当于销售、渠道资源。
DataRobot 目前已与 AWS、Snowflake、Informatica、MicroStrategy 等企业建立合作关系,其中最值得一提的是与 Snowflake 的合作。
2018 年 11 月,DataRobot 宣布与 Snowflake 建立合作伙伴关系,通过产品集成,DataRobot 的用户可以从 Snowflake 的数据仓库提取数据,反过来,Snowflake 用户也可将数据导入 DataRobot 中构建模型。
2020 年 12 月,Snowflake 领投了 DataRobot 的 F 轮融资,又于 2021 年 6 月的 G 轮追加投资。实际上,DataRobot 与 Snowflake 的合作是一次双赢的合作,DataRobot 通过合作增强了提供端到端解决方案的能力,并为自己导入了大量用户和数据,拓展了产品销售渠道。对于 Snowflake 而言,与 DataRobot 的合作帮助 Snowflake 快速进入数据科学领域。
数据科学是数据行业未来 5-10 年的主战场,Snowflake 已在云数据仓库赛道确立霸主地位,但在数据科学领域布局较晚,与数据科学赛道的头部企业合作是当下的最佳选择。
截至目前,DataRobot 已执行超过 100 万个项目,成功构建出 1 万亿个预测模型,模型被应用于所有垂直领域,并在银行、零售、医疗、制造业积累了丰富的用例和经验。美国财富 50 强中,1/3 的企业都是 DataRobot 的客户。
2021 年,DataRobot 将服务范围扩大至政府和公共领域。美国陆军使用 DataRobot 预测军队预算。美国国防部也将 DataRobot 应用于人工智能项目,并与 DataRobot 签订了一份为期 5 年、价值 2.49 亿美元的合同。
最新数据显示,2020 年 DataRobot 收入达到 1.6 亿美元,较 2019 年增长近 90%。但直到 2021 财年结束时(2022 年 1 月),DataRobot ARR 仅增长 25% 至 1.76 亿美元,未能实现 2021 年初制定的 2.5 亿美元的销售目标,增长显著放缓。
我们认为增长放缓主要受公司管理混乱和市场需求波动影响。管理问题不再赘述,而市场需求波动方面,基于使用量的定价模式与宏观经济强相关,当宏观经济处于下行周期时,使用量迅速递减,使用该定价模式的公司会受到较大影响。
09.
竞争
DataRobot 位于一个非常早期的赛道,但是由于数据科学赛道潜力巨大,想从该赛道分一杯羹的公司非常的多,尤其是已经在其他领域确立领先地位的企业。
DataRobot 的竞争对手主要包括以下三类:数据科学领域公司、三大云厂商以及 SaaS 行业其他头部企业
目前来看,Dataiku 和 AWS SageMaker 对 DataRobot 构成最大威胁,但长期来看,Snowflake 和 Databricks 也是不可小觑的对手。
Dataiku 和 AWS SageMaker 是 DataRobot 在销售产品时最常遇见的对手。
Dataiku 于 2013 年成立,是一个协作式数据科学平台。Dataiku 与 DataRobot 的区别主要体现在以下三个方面:第一,优势领域不同,DataRobot 将机器学习的第三环节模型预测作为核心,而 Dataiku 的优势主要体现在第一环节,即数据准备阶段。第二,与 DataRobot 早期专注第三环节不同,Dataiku 早早就在所有环节进行布局,平台化特征较明显,但也正因为如此,Dataiku 缺乏专注度,即使产品矩阵完整丰富,但产品力不强,单个产品无法与机器学习赛道每一环节最优秀的企业竞争。第三,Dataiku 产品并非完全零门槛、完全自动化,因此 Dataiku 面相的客群主要是有技术背景的数据科学家。
SageMaker 是 AWS 于 2017 年推出的机器学习平台。SageMaker 与 DataRobot 的区别同样在于产品的使用门槛,SageMaker 也需要使用者具备一定的数据科学知识,不是绝对民主化的产品。此外,若用户选择使用 SageMaker,则必须使用 AWS 的云服务,成本相对较高。然而,SageMaker 绝对是对 DataRobot 构成最大威胁的竞争对手之一,大多数客户的数据都存储在 AWS 上,相当于数据准备环节已在 AWS 完成,若不是 DataRobot 能提供更低使用门槛的产品和更有吸引力的价格,AWS 用户将没有强大的动力跳转至其他平台,使用其他平台的产品。当然,用户并不希望完全依附于单一平台,对于用户而言这存在较大的风险,包括平台暂停此类业务的风险、平台提价风险、附加限制条件风险等等。事实上,AWS 平台也销售 DataRobot 的产品,两者本质上是竞合关系。
毋庸置疑,拥有大量用户基础和高质量数据的平台将对 DataRobot 构成较大威胁,这也是我们将 Snowflake 和 Databricks 看作 DataRobot 长期竞争对手的原因。此外,我们也可以感受到 Snowflake 和 Databricks 想要在数据科学领域一决高下的信念和决心。
因此,短期来看,DataRobot 强大的产品能力依然能让其在未来 1-3 年保持一定的竞争力,但长期来看,DataRobot 必须思考如何面对来自多方实力强劲的竞争对手的挑战。
10.
结论
DataRobot 未来想象空间由两方面决定。一方面是 DataRobot 自身业务拓展,即是否能从机器学习模型自动化领域向上下游拓展,这将决定 DataRobot 所面对的市场是机器学习领域还是整个数据科学领域。
另一个决定想象空间的因素是数据科学民主化进程,数据科学民主化进程将影响终端用户类型的延展,以及绝对数量的增加,这将直接影响 DataRobot 的 TAM(Total Addressable Market)。
隐含假设:每一个 DataRobot 可帮助 4 位数据科学家/数据分析师/DDDM 完成工作(根据用户访谈)
计算方式:市场规模 = 目标用户人数/4 x ARPU 值
民主化程度弱 - 用户仅限于数据科学家
民主化程度中性 - 用户包括数据科学家和数据分析师
民主化程度强 - 用户包括数据科学家、数据分析师以及其他 DDDM
上图是我们计算的市场总盘子,我们认为蓝色部分是比较合理的范围,但考虑到当前市场渗透率仅为 10% 左右,未来几年的 TAM 需要在此基础上打个折扣。
短期来看,由于数据科学和机器学习市场仍处于很早期,且是个高速增长型市场,因此该市场里的每一位玩家目前不需要通过和竞争对手争抢市场份额来取得胜利,可以以竞合的关系共同打造数据科学生态。因此,对于 DataRobot 而言,现阶段最重要的是继续把优势产品打磨到极致,在优势细分领域加速渗透,扩大领先优势。
从中长期来看,DataRobot 若想保持竞争力,仍需向数据科学赛道的其他环节拓展,并且在每个环节都能拥有一款具有竞争力的产品,而不只是简单布局。需要拓展的原因主要包括以下两个方面,从市场角度看,尽管机器学习模型公司拥有最强的技术壁垒,是整条链路的技术核心,但上游及下游共占据 80% 的市场,而模型预测仅占 20%,这一比例与用户在不同环节所需要花费的时间相关。另一方面,从用户角度看,端到端的解决方案依然是用户的核心诉求。
通过上述研究,我们对 DataRobot 的未来有以下三种判断:
悲观:DataRobot 过早入局,行业发展不及预期,管理问题无法改善
数据赛道对 timing 的把握极其重要,先发优势在数据赛道并非绝对优势,在市场没 ready 时进入很容易将现金流耗尽或被迫转型,在市场完全 ready 后再进入则很难建立起竞争优势。
对于数据赛道每个阶段的创新而言,最合适的入局窗口期大约在新技术/新趋势爆发前的 5-8 年。我们可以确定数据科学是数据行业的下一个十年的主题,但暂时无法对行业拐点精确判断。
目前来看,尽管数据科学赛道市场规模较大,技术发展曲线也非常陡峭,但市场发展曲线却相对平缓。这其中受多种难以把握的因素影响,包括人类心理障碍,即大多数人目前仍然很难接受完全依靠机器进行决策,尤其是当机器给出的结果与认知相悖时。并且数据科学的应用也给传统组织管理带来了挑战,当结果由机器给出,谁来承担决策责任、组织利益如何分配等问题都成为阻碍企业采纳数据科学方案的因素。
若数据科学赛道发展不及预期,DataRobot 入局过早,DataRobot 即使是该领域现阶段最优秀的公司也无济于补,最后的赢家也可能是另一家在更合适的时间点入局的优秀公司。并且,数据科学赛道市场参与者众多,市场严重分裂,若市场发展缓慢,单个企业利润率将持续降低,长期来看会出现整合和出清的情况。
此外,DataRobot 当前内部管理混乱,管理问题已严重影响到公司增长与发展。在当前市场情绪普遍悲观的情况下,管理层出现问题对 DataRobot 而言可谓雪上加霜。
中性:Best AI/ML Modeling Tool(just for Data Scientist)
产品的自动化、民主化特征是 DataRobot 有别于其他数据科学产品的核心因素,也是 DataRobot 的核心竞争力。因此,数据科学的普及程度、民主化程度是影响 DataRobot downside 和 upside 的关键,这其中包括 DataRobot 的使用人群、DataRobot 执行项目的数量以及在 DataRobot 平台上跑的数据量等维度。
DataRobot 致力于数据科学和机器学习民主化,旨在让所有了解数据科学和不了解数据科学的人都能独立构建模型并收获结果与洞见。民主化意味着更大的 TAM,因此 DataRobot 的理想状态是用户覆盖所有想要从数据中挖掘洞见或实现预测的人群,但假如实际民主化需求过低,即最终能渗透的人群及市场过于狭隘,则可能变成仅针对数据科学家的建模工具和效率工具。
由于现阶段数据科学家人数过少,假设民主化程度不及预期,DataRobot 成为一款仅针对数据科学家的工具,那么短期内将很快遇到发展瓶颈,Top Line 曲线很快趋于平缓。
但长期来看,由于需求显著增加,数据科学家群体在迅速扩大,因此就算无法真正实现民主化,我们依然可以这样看待 DataRobot:进入了一个貌似不大、但实则随着发展会越来越大的市场。就像当初的微软一样。而 DataRobot 绝对是当之无愧的 Modeling 环节最好的工具。
乐观:Data Science 时代的 Snowflake
DataRobot 位于机器学习链条的中心位置,延展性极佳,是机器学习链条最有机会向上下游延展、最有机会平台化的一环。
与此同时,模型的构建、调试也是整个链条中壁垒最高的一环,其他环节的公司切入此环节有一定难度。就像在消费品领域,高端品牌推出平价子品牌容易,低端品牌进入高端市场难一样,DataRobot 目前处在数据科学赛道的“奢侈品”领域,上游的数据准备和下游的模型部署对 DataRobot 而言可谓低垂的果实。
就像 Snowflake 在数据分析领域处于中游的核心战略位置,并逐渐发展出自己的生态一样,DataRobot 也有望在未来发展出“DataRobot 生态”。
此外,Snowflake 面向的客群是会使用 SQL 语言的数据分析师,与其他基于 Spark、Python 的竞对产品相比,使用门槛更低,可触达的客群更广泛,TAM 自然也更大。
DataRobot 在民主化方面与 Snowflake 相似,Snowflake 实现了数据分析的相对民主化,而 DataRobot 致力于数据科学的绝对民主化,让所有人都能够零门槛搭建机器学习模型,享受数据科学的发展带来的价值。
2021 年 7 月,DataRobot 完成由 Altimeter 和 Tiger 领投的 G 轮融资,融资金额 2.5 亿美元,上轮融资后,DataRobot 估值达 63 亿美元。
根据消息,DataRobot 近期开放了新一轮融资,估值较上一轮 63 亿美元 downround 17.6% 至 52 亿美元,Secondary 估值已低于 40 亿美元,对应 2021 年 1.76 亿美元 ARR,估值分别为 30x P/ARR 和 23x P/ARR。
如果假设 DataRobot 的估值倍数与 Palantir 和 C3 AI 等可比上市公司的估值倍数相同(~6x P/S),DataRobot 的估值将仅有 10 亿美元。
我们非常看好数据科学与机器学习的未来,看好数据科学民主化的未来,并且判断 DataRobot 所处环节为机器学习链条的核心环节。同时,我们非常看好 DataRobot 的产品,尽管受到公司管理问题影响,DataRobot 2020 年 ARR 依然实现了 90% 的增长,并且通过用户访谈也能了解到,DataRobot 产品确实深受用户喜爱。
但随着 2021 年 SaaS 行业 crash,加上公司管理层问题,2021 年 DataRobot ARR 严重不达预期,除了管理问题日趋严重外,也体现出 DataRobot 产品在当下并没有成为刚需。
因此尽管我们非常看好行业机会和产品竞争力,但出于对公司管理及行业发展进度的 concern,我们暂时无法判断 DataRobot 能否成为最后的 winner。此外,管理问题是该项目最大的 redflag,我们需要持续关注管理层动态。管理问题能否改善是决定我们是否要去争取投资机会的关键。
Next steps:
1. 关注公司管理问题是否有改善的方法和迹象;
2. 论证数据科学行业民主化需求是否普遍存在;
3. 论证数据科学行业发展进度及民主化进程;
4. 论证 DataRobot 产品在经济周期的需求变化情况;
5. Mapping 2017 年前后成立的 ML 公司。
Airtable 不是 Excel,是企业服务界的 Roblox
Fivetran:云计算时代的数据管道,估值56亿美金的行业创新者
估值280亿美金,Databricks用开源创新推动数据智能民主化
50家公司、7个领域,定义全球未来10年数据行业标准
Bessemer 2022 云行业报告:SaaS嬗变,7大趋势预测解读
微信扫码关注该文公众号作者