数据,是整个世界运转的记录|投资笔记第154期
投资笔记是纪源资本关于投资、商业、科技的所见所闻所想,探讨关于世界的一切。
在这里,你可以收获:
全球优秀科技公司管理经验、一线调研;
顶级风险投资人&创业者经验分享;
大航海时代的世界人文历史、商业见闻……
以下是投资笔记系列第154期。
你是否想过,我们如今生存的世界究竟有多大?如果真的想知道答案,似乎很难有一个统一的计算标准,但是如果用每天在现实世界与虚拟世界所生成的数据量去度量,似乎也是一个有意思的方法。
大数据时代,数据不仅成为了我们社会的重要的生产资料,也是整个世界运转的忠实记录者。有人提出,未来世界的最基本组成单元不再是细胞与原子,而是数据。换句话说,这个世界正在从碳基文明走向硅基文明。
说到底,人类所有的行为实际上照样发生,唯一的变化是这些行为都被数据化记录下来了。远古时期人类利用结绳、文字记载,现如今用影像、音视频来记载,而如今,不仅是人类的真实行为被记录成为数据,AI还会帮助生成各种各样的内容,世界上的数据量呈现爆发式增长,往往超过过去几年所创造的数据量总和。
中国在2022年产生了8.1ZB的数据,预计在2025年,这个数字会增长到48.6ZB。ZB是数据计量Zetta Byte的简称,通常大家熟知TB或GB的概念,例如大家知道1TB等于1024GB,那TB再往上的计量单位是PB,EB,然后才到ZB。
(注:1 ZB = 1024 EB = 1,048,576 PB = 1,073,741,824TB)
一旦这些数据可以被妥善管理与处理,所产生的价值足够让世人瞠目结舌。
数据,是世界的基石
“数据是构建IT世界的基本要素,就像砖瓦是构建庞大建筑物的基本要素。”通常,数据是通过数据库进行储存和承载的。数据库大体可分为两类,一类是基于对交易处理优化的(Transactional Processing),另一类是基于分析处理优化的(Analytical Processing)。
一体化数据平台提供商“云器科技”创始人喻思成曾在Oracle就职多年,担任全球副总裁兼大中华区技术总经理——Oracle是世界上最强的TP数据库公司之一。数据库一般特指的关系数据库,Relational Database Management System,即RDBMS 关系数据库管理系统。这一概念起源于1961年通用电气GE的一位天才人物Charles Bachman,他发现,可以用一个简单的模式来管理数据,并发明了世界上第一个DBMS—集成数据存储IDS (Integrated DataStore ),后来他也因此在1973年获得图灵奖。
在那个年代,当数据量并不大时,人们甚至可以用这样一个简单到甚至可能类似于Excel一样的工具来管理数据,每次查询的时候可以用专业的工具查询到需要的数据。
但随着数据处理量逐渐变大,基于交易处理优化(Transaction Processing)的数据库出现。每次交易所带来的数据变化需要“立等可取”,因此形成了可以处理高并发、少量查询的数据库,它能够支持企业同时处理万笔交易,保持数据的一致性和完整性,并且在几毫秒之内返回结果。
随着数据量变大与业务结构复杂化,这些数据需要在交易发生后进行汇总分析,分析的数据不仅限于交易本身,同时还需要汇聚企业或行业的各种数据,例如客户管理、CRM及ERP等,形成巨大的数据量级。这就是基于分析的(Analytical Processing)的数据库。数据经过层层加工,成为业务人员能够看懂的报表,用于企业经营决策。
大数据时代数据平台的发展与迭代
数据平台走上了舞台。什么是数据平台?喻思成描述:“数据平台就是一个数据或者业务分析师处理数据的工具所组成的工具集,无论是数据采集、集成、加工、分析,甚至做数据开发,之后做监控等等一系列都需要配套的工具和专业的技术手段来支撑。当这些工具集合在一起时它就被称为‘数据平台’,由硬件、软件以及各种接口组成。”
二三十年之前,数据仓库(Data Warehouse)的概念刚刚出现,也是数据平台最早的一代,为企业所有级别的决策制定过程,提供所有类型的数据支持。Teradata是第一代代表产品,是一家专门从事数据仓库解决方案的企业,同时,巨头Oracle在做数据库的同时,也开发了自己的数据仓库。这便是最早一代的数据平台。
随着数据规模进一步扩大到每天TB甚至PB的量级,这个规模已经不再是单机数据库所能承载的了,成本开始呈直线、甚至是抛物线式上升。恰逢其时,Google随之发布了三篇文献,《MapReduce: Simplified Data Processing on Large Clusters》、《The Google File System》、《Bigtable: A Distributed Storage System for Structured Data》,以这三篇论文为标志,人类可以开始用非常低廉甚至非专业化的方式管理数据,哪怕用一台当时的X86电脑就可以自己搭建起分布式可扩展的大规模数据处理平台。Yahoo随后开源其搜索后端的数据处理技术,并命名为Hadoop。MapReduce的HDFS文件格式开始在一段时间内成为业界的标准形式。Vertica,Greenplum等新一代数据仓库软件也由此而生。
再往后的发展期从2010年~2020 年,一方面以 Hadoop为核心的开源技术,即开源分布式大数据平台的繁荣发展,另一方面更多数据在云上开始产生,这都是真正云上原生的数据需要被分析和处理。此外云计算技术,极大程度上降低了大数据平台的建设门槛,让云上的数据平台成为可能。当下主流的大数据平台大都在2012年前后开始发展,比如AWS Redshift是云上数仓的典型代表;包括Snowflake的成立,阿里云与飞天大数据平台起步等。
现如今我们到了另一个数据时代的变革点,也就是未来的10年,我们进入到大数据的普惠期。为什么这样讲,普惠期有两个特点,其一是业务进入收获期:我们能看到千帆竞发后,大部分企业被淘汰,少数企业通过竞争最终占领市场,并逐步形成规模,例如Snowflake 2020年上市;其二从技术角度来看,部分成熟场景下技术开始迭代式发展,如“批计算”、“流计算”和部分“交互分析”技术成熟后不断被后来者挑战;同时,场景继续外延不断引入的技术,如AI相关的技术由此外延衍生出来,呈现出对其他领域的辐射作用。目前我们能看到这几个特征同时具备。云上数据平台向着更普惠的方向演进。
下一代数据平台让数据的应用更加普惠
用喻思成的比喻来说,如果说云上的数据是“食材”,数据平台是“厨房”,当原始数据进入这个“厨房”,形成菜品的最终一步是“摆盘”。BI报表是“摆盘”的一种应用,类似的应用还有很多,如用于DMP的营销决策,用于决策支持的探索分析,等等。数据平台的作用就是让厨师不用再为建设厨房费心,而只需要关注让菜品以最吸引食客的形式呈现,或者说,让数据发挥出业务价值这件事上。而建设数据平台这样复杂的工作可以由专业的数据平台提供商来负责。
“湖仓一体架构”的出现,是数据平台愈加普惠的第一步,将数据湖与数据仓库Data Warehouse结合,成为Lakehouse。但云器Lakehouse的不同在于将结构化与非结构化的数据直接在存储上打通,并以更好的方式构建结构——
与数据库Oracle等不同的是,Lakehouse可以支持非结构化数据,而且完全开放、可以提供给存储者自由使用,以此来试图打通企业的数据开发应用,把企业的整体数据结构打造为面向未来的全开放式架构。
Single-Engine一体化架构
一体化数据平台是演进的方向
为何说一体化数据平台将是趋势?用喻思成的话概括,如果无法一体化,企业的数据使用难度会越发变大。就像在数据处理之中,既基于SQL语言的BI,又需要AI的计算引擎和湖仓平台,为此则不得不重复开发,而这种重复开发所带来的开发难度和成本会递增,造成信息的隔绝和资源的浪费。
对大量成熟企业来说,BI已经成为了必然配置。而在如今AI当道的科技趋势之下,如何让数据更畅通地通向AI是大家迫切想达成的目标。因此,企业的需求是拥抱Data for AI, 即数据不仅用在BI开发,也可以用来进行AI开发,即直接参与人工智能的模型训练,模型生成后再返回来进行试炼,并且将数据完整保存下来。
一体化数据平台的提出也正基于此,喻思成目前更希望以云器为代表的多云、一体化数据平台提供商所希望做的事情,便是担任SaaS全托管的角色,即成为一个“整体厨房”。企业可以任意选择AWS、阿里云或其他云平台,云器负责采购云资源、建立数据平台以及后续的运维,再将最终的使用情况汇报给企业,甚至做到以秒计费。
可以预见的未来是,与海外相似,中国的云服务也即将拥有更加完备的产业链。而这样的趋势之下,机会也将出现在更多细节之处。
从“云的意义”看云上数据平台的意义
云上的数据服务也正在逐步迭代。就如业内通识的观点:“云计算把我们需要的计算、存储、网络等资源通过技术手段虚拟化之后像水电煤气一样即开即用地提供给我们,并通过按量或按使用时长来收费。而云计算与大数据就像一枚硬币的正反面,两者密不可分:云计算为大数据提供基础的技术实现平台和场所,大数据则是云计算最好和最常见的应用体现。”保管着数据存储空间的“云”的逐渐成熟,也带动了数据平台的快速发展。二者相辅相成,正在成为社会的基础设施和运转的重要支柱所在。
对于已经在“云”上存储、处理数据的企业来说,自身所在的云,其稳定性、高集成性、对业务的辅助性、甚至“多云”上的管理便利性,都将是团队长期追求的目标;如果说利用云平台与AI、BI结合是当今企业发展的必经之路,那么对于中小企业创业者来说,对“云”与“数据”的认知也需要时刻更新。
喻思成认为,实际上,云的存在意义就像如今我们生活中的“水”和“电”一样。拿一个生活中的小例子来做比喻,如果真要算起我们给每天用的手机充电的电费,一年可能只需要几块钱。但手机作为如今的生活服务、娱乐、办公等等人类必不可少的工具所产生的价值,它所消耗的这几块钱电费相比之下则显得非常微不足道,更多的其实是手机这一介质为人类的生活打开了一个五彩缤纷的想象窗口,也让人类做到了很多以前完全不可想象的事情。
同理,云的存在也为所有企业打开了一扇新世界的大门,它使得创业者在很早的阶段就可以享受到人类文明的结晶,无论是作为SaaS软件的OA,ERP或是CRM,还是数据平台这类PaaS平台,花很少的钱就足以用最先进的工具组装起自己的业务。企业也因此只需要配置少量的财力与人力,就可以进行云的搭建与云服务的开发,也可以做到很多在以前光靠自己是做不到的事情,因此,云给企业们带来的福利,远超过所付出的成本本身。
另外,在人类社会分工里有一个潜在的规律,当一部分稳定的劳动力长期从事单一工种,就会带来极高的效率,云服务提供商的意义便在此。将需求交给专业的数据平台,将帮助激发企业的业务创造力,让云服务所节省下来的财力与人力成本花在企业发展的刀刃上。
在云器看来,伴随着趋势的一步步演进,数据平台这件事可以通过他们的努力,逐渐不需要耗费巨大的成本,反而更加简单、易用、价格低廉。
20年前,电信、银行等大型企业需要耗费几千万元来建立自己的数据仓库。而随着Hadoop平台的出现,一个几十人的创业公司团队,可以只配置2到3个人员搭起的开源平台技术团队,就能在Hadoop平台上实现一些基本的数据服务;待到如今的云时代,如果是一个不到10人的创业公司团队,已经无需自己搭建技术团队,而是可以选择直接在云平台上购买数据服务。
喻思成提到,云时代带来的“弹性”实现了“技术民主化”,云器的一位客户只花费了每月十几元的成本,在半小时之内就上线了自己的数据仓库:云器所推动的和“一体化”的普及,让从前遥不可及的大数据平台技术成本大为降低,已经能够“飞入寻常百姓家”。
行业的溢价秘密
“在数字经济时代,数据已然取代资本,成为科技企业最重要的生产因素。”这句话反过来,也可以判断什么样的企业可以被定义为科技型企业,最主要的衡量标准是:这家企业是否以数据为最主要或最核心的生产资料之一。
喻思成表示,数据从诞生的第一天开始,就具有很多特性,最主要的特性就是它的复制成本几乎为零,流动成本也相对较低,因此当数据作为企业的生产资料时,所产生的毛利率非常高。正因此,全世界估值模型比较高的企业都是科技型企业,而且都在以数据为主要生产资料。无论是电商平台,还是搜索引擎,甚至特斯拉这样的企业。
举例而言,相比较传统车企,特斯拉就是一家典型的科技型企业。当传统的车企以原材料作为主要的成本,以卖出多少辆车来计算毛利的时候,特斯拉最主要的生产资料已不再仅仅是钢铁,而它的智能系统功能升级换代本身不会带来任何新增硬件成本,甚至远程都可以操作,升级过程的耗电可能都不到0.1度。软件所带来的边际成本已经非常低,因此,在这样的前提下,数据平台如何帮助各个行业提升生产力,就非常有吸引力。而当传统行业的溢价几乎到顶的时候,软件化+智能化带来了更多溢价的可能,这一点也推动着几乎大部分行业都会往科技型企业的方向和大潮去努力,进而获得更高的毛利率。
可以看到,几乎所有行业都在逐步走向数字化与数据化。包括从数据世界“原生”的行业,如智能汽车行业,到逐步转型数字化的行业,如证券行业,甚至建筑与钢铁等行业。云器的客户里不乏这些行业的佼佼者,来自券商行业的客户提到,公司之所以能够达到目前的地位,主要是几年前的产品数字化和移动化赢得了客户的喜爱,而不是大力发展线下的网点。电信行业的智能化,也早在十几年前就开始,即使是非常传统的水泥、钢铁等行业,也开始非常重视数据化和数字化。
而对于这些行业的从业人员来说,虽然大家追求的是更高的毛利率,但买单的人是客户。人们也欣然发现,客户愿意为了更好的产品体验,去付出一点点溢价增值的费用。另外,对行业来说,交付成本的降低也是喜闻乐见的,线下的门店交付成本显然高于线上的电商平台,后者将带来更高的毛利率,也因此成为这个时代更好的商业模式。特斯拉和券商行业的例子也说明这一点,相同数量的员工在智能化的带动下,可以服务更多的客户,也为客户带来了更好的感受。
因此,数字化正在为每个行业的直接或间接用户带来新的体验,行业服务标准的“Top Line”提升,而“Bottom Line”降低,毋庸置疑让每个行业得到重塑。
再以汽车行业举例,数据是如何让行业发生改变的?喻思成提到,智能出行让车变成一个硬件工具载体,智能带动的是车网协同,要做到智能车网,数据就要在其中扮演核心生产资料的角色。智能汽车在出厂的第一天,车里的数百个传感器就可以收集到用户的数据,通过IoT的方式上传数字信号,能实时了解用户车门是否关好?油量加够没有?车内湿度和温度是否合适?
当一天内在外面跑的400万辆汽车在同时积累着巨大数量级的使用数据,所有数据上传之后,车企可以基于用户的驾驶动作和路况进行自动驾驶行为的分析和指导,也可以为智能化营销提供思路,而如何处理这些数据就尤为重要。云器就是运用在这样的场景里,为车企提供海量数据处理的平台,为数据生产资料加工提供生产力。
未来哪些行业将率先在数据平台上获得红利
创业时间不久,从未购置服务器,出生第一天就已开始使用云服务的“数字化原生企业”通常最愿意拥抱云服务创新。它们能够迅速感知到数据创新所带来的降本增效。
另一类倾向于“吃螃蟹”的客户是一些对技术要求较高的科技企业,它们对数据平台的要求已经超过了传统平台,更希望寻找适合自己的解决方案。
IoT行业也正在产生巨变,大量的数据正爆发式出现,而同时AIGC(Artificial Intelligence Generated Content,人工智能内容生成)领域也将诞生大量对数据有较高要求的潜在客户。一旦AI成为重要的内容产生源,它所带来的数据会比任何行业都多出几个量级,这些AI不仅产生信息,本身也会持续查询信息。也许,其中孕育着一个更大数据平台的诞生机会。
如果将目光拉近,云器创始人喻思成认为,前面提到的交通、医疗、政务、金融等行业在未来的几年之内将会是上云的重要标的,这可能推动数据平台迎来一个爆发期。
面向未来,云器布局一体化数据平台
对云器来说,选择为企业提供云原生大数据平台及数据解决方案,推出专注于“一体化”的数据平台,也是基于多方面考虑。云器的团队拥有来自大厂的行业经验,而中国这样的数据大国为技术人员提供了最好的训练场。
此外,在云器看来,随着过去这几年云厂商的推波助澜,推动很多客户上云之后,它们在云上所产生的数据已经到了需要数据平台或者下一代的数据平台来处理的时候。
第二个触发点还在于多云化,如果在一个市场呈现“一云独大”的状况,那么那家云厂商自配的数据平台已经足够。而在中国,多云的格局正在明朗化。
第三个触发点是技术的更新换代,Hadoop已经难以为继,由于不够开放与无法更新,开源数据平台正在成为企业的负资产,企业需要将竞争力转向如何用好数据,更好结合AI与BI的数据深度运用。
云器Lakehouse数据平台产品架构
往期回顾
微信扫码关注该文公众号作者