Snowflake创始人:现在,仅仅是我们愿景的起点 | GGView
GGV有话说:
不少人也许会对Snowflake感到陌生,但它却是一家非常值得关注的公司。它的故事始于2012年,由两位甲骨文的资深数据工程师Benoit Dageville和Thierry Cruanes发起,起初他们萌生了在云上建立数据仓库的想法。不久后工程师背景的Marcin Żukowski也加入进来,三人一起创立了Snowflake,仅8年时间,Snowflake成功IPO并创造了史上最大的软件IPO记录。
与传统的SaaS公司的订阅模式相比,Snowflake的商业模式基于按需付费,这在商业上看着似乎并不“聪明”,却让客户有了更灵活的选择。
今天的GGView,来自于Snowflake的联合创始人和产品总裁Benoit Dageville(在2012年8月至2019年5月Dageville一直在Snowflake担任CTO角色)和科技洞察者Stephen Hamm的对话内容。作为一个架构师背景的创始人,Dageville的分享虽然朴实但值得深思。Snowflake的很多做法在今天看来值得称道,但在当时面对诸多“诱惑”和挑战时,是如何坚持下来的是值得钦佩的。
接下来,我们就带大家一起走进这段对话。
本文经授权转自胖福馒头
Stephen Hamm:先来说说,你是如何进入这个行业的,你是怎样从一名架构师成为一名企业家的?
Benoit Dageville:我总是说我是为数据而生的,我从事的行业一直都和数据有关。我在博士期间研究的是并行数据库系统。我是法国人,出生在法国南郡,并在巴黎第六大学攻读计算机科学博士学位。1996年我加入了甲骨文,我当时认为甲骨文是数据革命的中心,包括甲骨文的数据库以及它的并行数据库系统。在这里,我遇到了Thierry(Thierry Cruanes),Snowflake的另一位创始人。我们一起在甲骨文工作了很多年,然后共同创办了Snowflake。我们在甲骨文时都是架构师,都希望能为甲骨文打造出一款优秀的产品。
但是2012年我们都意识到,甲骨文错失了两次掀起数据革命的机会,一次是大数据,机器生成的大量数据;另一次是云数据。我们想要创造出一些不同的东西,这就是Snowflake的灵感来源。2012年我和Thierry一起离开了甲骨文并创办了Snowflake。
Stephen Hamm:很多人都知道你的IPO是有史以来最大的IPO,而且你们一开始就坚定了公司发展的方向,有不少初创公司在发展的过程中都转变了方向。我们想知道Snowflake是如何开始的?又是如何坚持朝着正确的方向前进的?这些经历对企业家来说一定很有启发性。
Benoit Dageville:从2012年开始,我们就一直在说,我们开始的目标并不是初创公司,最初我们想打造一款出色的产品,Snowflake只是实现这一目标的手段,但它确实是我们想要构建的,对我们十分重要。甲骨文错过了2012年的大数据云,不过至少Hadoop创造了这场革命,但是我和Thierry都不太相信Hadoop,因为它确实比较复杂,有很多事情我们都不知道该怎么做,特别是交易,我们是数据库架构师,并且交易不是由 hadoop 完成的。另一个就是Hadoop比较慢,也是其复杂性造成的。为云构建一个更好的系统,这就是Snowflake的灵感来源。
当时,数据处于讨论的中心,所有的公司都开始了解数据的力量,而且这项技术有很大的局限性,首先,人们想要分析更多机器生成的数据,网络日志\业务的 PB级数据。以前的数据仓库系统和分析系统是为一家公司的CEO和高管准备的,但是从2012年开始,每个人都想访问这个系统,所以这种数据访问的民主化十分关键。因为越来越多的用户想要访问数据,所以就需要越来越多针对相同数据的测验,甲骨文的分系统也因此进入了瓶颈期。我们没法在甲骨文内部掀起这场革命,所以创办了Snowflake。
我们找到Mike Speiser(Sutter Hill Ventures管理合伙人),我们第一个VC,他对我们帮助很大,给予了我们很大的自信,让我们相信自己可以在甲骨文之外构建一个新系统作为初创公司的基础。
2012年8月,我和Thierry离开了甲骨文,我们不知道要怎么做,但是我们知道我们想要利用云。所以我们在我的公寓里呆了好几个月,思考我们该如何利用云来构建这场革命,云能带来什么?
至少有两个方面:一个是无限访问资源,云可以无限存储,无限访问计算资源。如果我们能够利用这一点,我们就可以解决规模问题,包括更多的数据和更多的用户。另一个方面是我们可以将解决方案作为服务,这对我们至关重要,因为我们真的想要实现数据访问的民主化。对我们来说,这项服务是做到这一点的最佳方式。
所以我们想构建一个作为服务的解决方案,用户可以使用它并获得所有功能,除了运行测验之外不需要刻意地去管理它,这是一个大胆的愿景。最后我要说的是云弹性,我们怎样才能利用云的弹性?很多人说弹性意味着要向集群中增加或者减少服务器,但是弹性对我们来说并非如此,它必须是与众不同的东西,我们想要做的是真正让用户能够围绕相同数据添加新的工作负载,这些新的工作负载能够在他们自己的计算机资源上启动,这就是解耦,分离存储和计算。这样任何工作负载都可以有一组专用资源,不会相互争夺资源,建立一个新的工作负载也会非常容易。现在在Snowflake,几秒钟可以得到大量的计算机资源,你可以创建相同的数据。数据、存储和计算完全独立,这种支持多工作负载的思想实际上就是Snowflake的核心概念。
Stephen Hamm:谈谈你所说的关键架构决策。
Benoit Dageville::在这个架构中,我应该提到的一件事是,我想让Snowflake成为数据仓库系统的结合,而且速度快,不仅包括对资源的无限访问,也能成为大数据。因为Hadoop的失败,没有理由让两个不同的系统来处理大数据和传统分析,所以我们想结合这一点,这意味着从第一天起就要支持非结构化数据,你可以把非结构化数据看作是在Snowflake内部本地生成的Weblogs json(JavaScript Object Notation, JS对象简谱,是一种轻量级的数据交换格式),并支持Beta字节规模。我们的许多知识产权也非常支持这种类型的数据。
Stephen Hamm:对于企业家来说,有一点值得注意,你和Thierry能把注意力放在这些重大技术问题的架构上,是因为Mike Spacier担任了CEO,处理了一些商业方面的事情,所以才能进展顺利。
Benoit Dageville:没错,Thierry和我都希望能够专注于构建一个产品、带来变革,我们对商业的兴趣不大。
Stephen Hamm:你们的架构目前最大的优势之一,就是让客户能够按需付费。这确实是一场革命,因为这意味着所有那些资金不多的创业公司,甚至其他公司,都可以获得并使用你们的服务,都可以发现其中的价值,而不必支付巨额费用来购买所有的服务器或者其他东西,比如一些对他们负担很重的大合同。
Benoit Dageville:这点值得一提,它有以下几个影响。第一个重大影响是,就像用电一样,它的计费方式很灵活。刚开始创业时,它可能对你没什么用处,因为此时你可能正专注于开发你的产品,所以并没有最大限度地使用分析系统。另外,你也不会在晚上或者周末使用它,所以这种按需付费的方式真的很好。
另一个更有吸引力的地方是,当运行工作负载时,如果你能投入大量的计算机资源,假设你将专用于该工作负载的计算资源乘以10倍。因为我们知道如何瘫痪,所以这个工作负载的运行速度会快10倍,但同时因为你完成的速度快了10倍,你可以关闭专用于该工作负载的计算机资源。所以你的速度快了10倍,但价格不变。这也是弹性的魔力,如果你能在几秒钟内变得非常有弹性,你就能在成本相同的情况下加快运行速度。
Stephen Hamm:没错。我还想知道,你们在创业早期有没有犯过一些必须改正的重大错误?我想这一点对企业家们也很有指导意义。
Benoit Dageville:我们可能没有犯过什么必须修正的重大错误,但是我们确实学到了很多东西。谷歌也不是五分钟建成的,建立一种永远在线的世界范围的服务和建立内部部署的软件非常不同,所以要学的东西很多。
我们要学会如何管理服务,如何将一切自动化。还要知道如何去维护、升级,这些都要全部在线上完成。我认为构建一个服务会产生深远的影响,这不仅仅关于软件,还有发布管理、质量保证等等。因为专注于运行速度和数据库之类的问题,我们确实低估了这一点的难度。
还有就是要建立正确的团队,找到合适的人至关重要,对于一家初创公司来说,这可能是最重要的一点。你要向别人推销你的愿景,如果你不能说服某人,很可能是因为你的想法没那么好。说到这个,Snowflake最初的愿景再加上我和Thierry的法国口音,说服别人很困难,所以学会自信也是一项很重要的技能。
Stephen Hamm:是这样的。我们都知道,你在早期做出了一些非常勇敢的决定,比如选择不用软件本地部署模式,很多大公司都想让你们这么做,但是你说不,我们有一个更好的模型,我们要用它。你们的产品一经发布,就迅速起飞,拥有了各种大小公司的客户。我想把时间快进到几年前,因为当时发生了一件非常重要的事情,之前,你对一些事情有了初步的认识并且执行了它,市场的反响很好。随后你又提出了一个新的愿景,一个更大的愿景,关于数据云的愿景。你能否告诉我们,Snowflake所定义的数据云是什么样子的?为什么它的力量会如此之大?
Benoit Dageville:要定义最佳数据云,首先要说到云。我们是新的云,我经常说我们可能是第四个云供应商。从某种意义上来说,我们正在建立云区域,数据云致力于数据以及运行在这些数据之上的数据分析和应用程序。我们不建造基础设施,我们对成为亚马逊、建立ec2和存储不感兴趣。
我们依靠现有的云提供商来构建我们自己的区域,我们的云是一个由许多区域组成的单一平台,遍布世界各地。我们从美国开始,后来扩展到欧洲、加拿大、亚洲和澳大利亚,到今天为止,我们有22个地区。在我们的云中,这些区域都相互连接,客户可以同时使用多个区域,可以将数据从一个区域转移到另一个区域。这些区域是多云团,我们从AWS开始,然后转移到Azure,现在还有谷歌。当然,由于我们从AWS开始,所以使用AWS的地区更多。但我们的愿景实际上是为数据云构建这个数据云平台,这是一个面向全球的单一系统。
这非常重要,我稍后会解释原因。
第二个方面是工作负载。当然,现在构建了数据云,我们希望扩展到初始工作负载之外,这些工作负载实际上是大数据和数据仓库在单个系统中的组合。我们正在转向数据工程,也就是传递数据,并在平台内进行所有的数据转换,我们也正在转向数据科学,为了转移这一工作负载,我们必须运行本机java程序,因此平台内数据可编程性对我们来说至关重要,我们在努力让该平台真正易于应用,这与创业息息相关,因为他们正在我们的数据云之上构建应用。这是一个关于平台和平台功能的愿景,事实上平台是全球性的,云的另一个维度是协作,这就是单一平台如此重要的原因。
当你是云的一部分时,你就是同一个生态系统的一部分。你可以通过交换数据于不同的公司进行合作,所以我们有分享数据的能力,可以把这种数据共享想象成数据的谷歌文档。在当今世界,你无法想象在不与任何人分享的情况下使用文档,我们在数据方面的做法是一样的,因为我们是一个单一的云,你可以与任何人共享数据。我们甚至还有一个市场,这也是最终的愿景,这种合作至关重要。
Stephen Hamm:这些观点非常有用。当我想到云领域的创新浪潮时,我想到的是计算和存储,但是从某种意义上来说,数据是一个更有价值的浪潮。因为世界上所有的数据,都将被迁移到云中,实现更好的管理、整合、共享、分析等等。这似乎是计算机历史上的一个重要时刻,你们正好有一个关键的平台,你的愿景是继续向平台添加越来越多的功能吗?
Benoit Dageville:是的,如你所说,云是一个非常不同的环境,能够打开很多的可能性。不仅是Snowflake,我真的相信任何创业公司现在都应该考虑在软件的前提下建立一个服务。它本身仍然会存,但是,在这种消费模式和合作方式下,世界正在向云转移,并且正在向软件即服务转移,可以说我们现在都在同一个数据中心进行运行。
Stephen Hamm:是的,我们再多谈谈那些希望建立新功能和新服务的科技公司的创业机会吧。如果在你们的平台上进行构建,你能为他们提供哪些服务?他们有哪些机会?有哪些人已经成功了?
Benoit Dageville::第一个价值定位是,每个现代应用程序都应该将数据放在它的中心,我们应该在这个应用程序中使用数据来做许多事情。
Snowflake就是这样的应用程序。我们自己就是一家初创公司,同时我们自己也是Snowflake最大的客户之一。我们利用它做很多事情,用它支持我们的产品,我们生成的每一条日志都会立即被“Snowflake”接收,我们所做的每项支持和每项故障排除都是基于这些数据完成的,我们生成了大量的日志数据和服务数据,我们用这些半结构化数据来支持我们的系统。这是第一点。
第二点是我所说的产品智能,你需要使用分析来改进你的产品,我们坚持这样做,我们的所有指标,不仅包括日志,还有用户与我们系统的所有交互,执行的每个查询,我们都知道,我们会使用这些数据来改进和提炼,了解我们的产品是否处于理想状态。还有,除了改善用户体验,我们也用它来结算费用、保障安全等等。有个大趋势就是为了安全集中所有数据在Snowflake内部进行安全管理。
实际上,我们使用了大量内部和外部数据源来完成这项工作,但都是通过Snowflake完成的。我们的账单也是Snowflake完成的。最后,我们收集了很多客户的数据,而我们的客户也希望看到这些数据。我们使用数据共享这种在系统租户之间交换数据的功能来共享这些客户对Snowflake的所有使用,他们运行的每个代码、他们进行的每个交互,我们都会把这些数据分享给他们,我们称之为账户使用信息。这是另一种使用数据的方式,能让你知道你可以用这个平台做什么。
许多创业公司一开始规模都比较小,他们可以使用PostgreSQL,可以使用MySQL,可以使用小型系统,但是随着他们服务的增长,底层平台的这些系统无法扩展,他们不得不管理IT,不得不花费时间管理基础架构,而不是真正关注应用程序的附加值,所以很多初创公司最终都选择了Snowflake。这也是为什么全面管理的Snowflake系统如此出色的原因,因为它具有无限的可扩展性,因为它利用了云,所以你可以依靠它,你不需要考虑它。
正如我所说,我们是多云计算,所以如果你在构建服务,并且希望你的服务存在于许多云计算之上, 你可以在每一“朵”云里找到“雪花”。
Stephen Hamm:是的,和你合作、建立在Snowflake系统的很多创业公司,包括Instacart,Blackboard,Brays,PDX等,都是是最引人注目、发展最快的公司。我认为了解数据云非常重要的一点是,数据网络效应的整体概念。
人们过去谈论网络效应时,只从互联网和社交网络等方面入手,但是数据网络的影响是,使用数据的人越多,可以共享的数据就越多,这对每个相关的人来说都是一种推动力。这能给创业公司带来哪些好处?
Benoit Dageville:实际上,我们的愿景是是要建立一个全球数据网络并通过数据建立联系,这不仅仅关于数据,还关于所有围绕数据的服务。作为一家初创企业,如何交付服务,并利用该服务将其投入市场,并让该平台的其他租户使用该服务。
首先,你可以使用所有这些数据集,正如我所说的,我们有这个市场,我们有数百个非常好的数据集提供商,你可以快速利用其中的一些。举个例子,在安全方面,我谈到了我们利用的一种安全模式,我们在Snowflake中进行安全管理,我们会从外部用户那里获得大量相关数据,这些用户将这些数据分享给我们。这种模式可以知道你的网站和记录,以及用户的每一次点击,并通过市场将数据分享给你。因此,不仅是你生成的数据,还有外部数据,这种能力和对数据的访问至关重要。
Stephen Hamm:你能讲讲Snowflake支持企业家的这些形式吗?比如一些给初创公司的帮助、投资、Snowflake挑战等等。
Benoit Dageville:是的,我们确实有很多帮助创业公司的项目。第一个项目是Snowflake创业项目,它可以提供创业所需的资源,以建立这种数据密集型应用和产品。我们通过信用方式提供帮助。
首先,我们给予创业者免费信用来使用Snowflake,我们给他们提供架构设计、咨询、使用Snowflake品牌的联合营销机会,帮助他们更快地建立以及接触更多的客户。
然后,我们还有Snowflake风险投资,这以项目相对更针对处于成长期的公司。我们希望帮助那些真正帮助我们围绕数据建立生态系统和更广阔市场的公司,从而拓展了数据云的信息和广度。
最后,还有一个项目能够真正帮助刚刚起步的早期创业,也就是我们的Snowflake创业挑战。我们会给你一个挑战,让你去竞争机会。你可以去snowflake.com的网站查看参赛条件,参加创业挑战赛。如果你能赢得挑战,就会得到25万。所以,我们正在努力做许多事情来帮助创业者。
Stephen Hamm:没错。你之前简要提到了数据共享,并谈到了市场,这是Snowflake所提供的真正重要的部分。在你的架构中,是什么让共享变得如此便捷?无论是在公司内部还是在公司之间,或者在数据提供者和数据用户之间。另外,进入数据市场后,它是如何运作的?人们又如何从中受益?
Benoit Dageville:是的,一定程度上,确实很神奇。它用起来很像像谷歌文档,发送一个链接到你的数据,并且这些数据可以挂载在另一个账号中,直接访问和运行,所以数据的提供者可以用决定他想要分享什么数据,他可以直接与消费者分享,或将其放在市场上供任何Snowflake的消费者利用这些数据集。这之所以成为可能,是因为我们的架构将计算和存储剥离开来。你可以针对相同的数据运行不同的工作负载,我们利用这一点来实现数据共享。
因此,不同的工作负载不仅是你的工作负载,也可能是其他消费者的工作负载。你共享数据,但不共享计算机资源,它们是完全分开的,它只是数据上的一个链接。神奇的是,当你使用数据时,会发生这样的情况:当提供者更新数据时,会有ctl导入来维护该数据,作为用户,你会马上就能看到数据的变化,这是实时数据,与提供者看到的完全一致。它是安全的,因为它无需拷贝,而是在平台上由你和提供者控制,并且还可以用删除对数据的访问。正是这种基础技术使之成为可能。
在Snowflake的各区域内,工作原理也完全一样,你可以跨地区和跨云共享数据,你可以使用我们的复制系统来移动这些数据,并在不同的地区(可能是不同的地理区域)共享这些数据,可以把美国的数据分享给欧洲,还可以跨云或两者共享它。我们有很多这样的数据提供商,有一个很好的例子就是向我们所有客户提供Cove数据的提供者,我们有成千上万的顾客在使用这些实时Cove数据,他们把它当成自己的数据来使用,实际上这些数据是由这个分布在世界各地的星型模式公司提供的。
Stephen Hamm:在你们的数据市场中吗?
Benoit Dageville:是的。我可以给你举几个例子,我们有另一家名为Compile的医疗保健公司,他们从不同的来源收集大量的数据,然后汇总这些与药房病人的健康数据相关的数据,把它分享给消费者。客户不需要担心这些数据的维护和收集,我们的另一个客户EPP,可以检测你的应用程序,收集数据,包括点击在内的与应用程序的任何交互,他们收集你的数据并与你分享,你可以直接把他们收集的数据和你的数据结合起来,这是他们如何将这种能力货币化的一个例子。另外还有很多围绕安全性和安全数据的例子。
Stephen Hamm:这非常伟大。如果可以的话,可以谈谈你对未来的设想吗?你认为下一年(这里指2022年)将会发生什么?还有在接下来的几年里,数据领域将会发生什么大事?
Benoit Dageville:我们现在其实仅仅处于愿景的起点,我称这种联系和力量为数据的万维网,当万维网刚出现的时候,没有人能猜到会发生什么。所以说,这个旅程才刚刚开始。即使我们的市场上有数百家数据提供商,我们真的无法知道未来的事情。但我确信,通过消除数据孤岛,只要它存在于我们的数据云中,你就可以将世界上的任何数据与任何其他数据连接起来。你不仅可以连接数据,还可以连接这些服务、应用程序,这个生态系统拥有惊人的力量,它可以用来做很多事情,比如研究。
举个例子,新冠期间需要分配疫苗时,你需要将数据与不同的组织、政府联系起来,比如世卫组织提供了疫苗和供应链。所以,数据将成为许多工作的重心。我很期待看到未来的发展,拭目以待吧。
Stephen Hamm:八年前,或者七六年前,你处于创业模式,到那时现在已经发生了巨大的变化,你能给今天这些处于创业模式的人一些关键建议吗?
Benoit Dageville:虽然我不喜欢给别人提建议,但是我想说,以客户为中心非常重要。如果你正在开发一种产品,你希望你的客户喜欢这种产品,就要去倾听你的客户,并真正地思考如何改变他们的生活,比如Snowflake现在在做的事情就改变了很多人以及许多公司的生活。这种感觉很棒。也是成功的不二法门。
还有一条建议也很重要,创办一家公司,让人们跟你一起工作,这很重要。组建团队需要很长时间,你必须有一个长期立场,就像是一个巨大的承诺,我总是把它比作养孩子。你不能有了孩子然后又不管,你必须集中精力,必须把生活的大部分投入到冒险中去。如果你还没有准备好,你就不应该创业,这可能是最重要的个人建议。如果你想的话,你必须超级乐观,因为在这个过程中会遇到很多问题。
你还需要一颗北极星(Airbnb、Uber等40个高成长公司的制胜武器|如何选择你的北极星指标),需要不妥协退让的态度。许多公司都希望我们去做本地部署,并且承诺如果成功的话会给我们很多钱,但是我们知道我们的北极星是云,我们从来没有忘记这一点。不要试图去做每一件事,要有坚定的信念。
最后一件事是团队。团队非常重要,你需要合适的人加入,如果只有Thierry和我,Snowflake就不会存在,我们两个人的力量微不足道,是团队造就了Snowflake。雇佣合适的人和你一起工作,非常重要,他们会认可你的价值观、和你拥有同样的热情。带着对的人和你一起去冒险!永远不要在这一点上妥协,尤其是在开始的时候,现在也一样。
Stephen Hamm:是的,这很有道理。还有一件重要的事情是,公司要关注客户,就像你所说的那种激光聚焦,但是随着时间的推移,现在我们要关注利润最大化,我们已经拥有了影响力,我们要利用这种影响力来对付我们的客户,作为一名科技记者,我在很多公司里一次又一次地看到过这种情况。我觉得Snowflake仍然是一家非常以客户为中心的公司,你们会保持这种状态吗?
Benoit Dageville:你是在告诉我们不要变成这样吗?哈哈,我完全同意你的说法,关注客户真的非常重要。尤其是对我们来说,因为我们在做服务,我们靠我们的客户过活,是他们日复一日地支持者我们。因此,我认为在构建这些服务、软件即服务时,这一点就更为重要。
实际上,当我们对系统进行优化时,我们经常做一些对客户有益的事情,而可能会认为对我们自己不利的事情。比如说我们要加快运行速度,也就是说我们消耗的资源会更少,但是我们又是通过计算机资源收费的,所以,如果有人在某个地方使用较少的资源时,我们就会赔钱。但是实际上顾客会因此更开心,消费也随之增加。所以到最后总是双赢的,尽管你一开始可能并不知道会有这样的结果。
Benoit Dageville:这段结语非常精彩!
Benoit Dageville:非常感谢!
温馨提示:虽然我们每天都有推送,但最近有读者表示因平台推送规则调整,有时候看不到我们的文章~
欢迎大家进入公众号页面,右上角点击“设为星标”点亮⭐️,收藏我们的公众号,新鲜内容第一时间奉上!
*文章观点仅供参考,不代表本机构立场。
微信扫码关注该文公众号作者