专访Zilliz CEO:只要人类还在拓展认知边界,数据库创新就永远不会停止科技2022-10-18 00:10解释最新科技进展,报道硅谷大事小情点击上方“硅星人”关注我们~作为面向AI原生的向量数据库技术开创者,Zilliz 已经领先全球竞争对手两年。——文|杜晨 图片来源 | Zilliz如果你从事 AI 相关行业,对超大规模非结构化数据的处理有兴趣,那么你应该不会对 Zilliz 这家年轻的创业公司,以及它所开创的“向量数据库” (vector database) 感到陌生。在全球经济整体陷入衰退、科技公司裁员收缩消息频传的最近两年里,Zilliz 逆势创造了融资奇迹,先后完成B、B+ 两轮共计 1.03 亿美元融资。其中 B+ 轮高达 6000 万美元,由沙特阿美旗下多元化成长基金 P7 Ventures 领投,之前的 B 轮 4300万美元 则由高瓴创投领投。Zilliz 的名字在社会上并非家喻户晓。然而在数据库领域,这家全球总部位于美国硅谷的创业公司,却正炙手可热,被行业人士和投资者认为是“下一家” Snowflake/Databrick。由于近十年来基于深度学习的人工智能技术发展迅速,复杂数据的量级正在以惊人的速度增长。问题在于这些非结构化数据,类型可能包括文档、图像、视频、音频,可能有着成千甚至上万个维度,让传统数据库捉襟见肘。向量数据库技术应运而生:通过机器学习手段将非结构化数据表示为向量(一组数字),再结合其他先进的数据库(包括传统数据库)技术,向量数据库能够让使用者更高效地处理非结构化的复杂数据,从中提取价值,驱动新业务和产品,为老业务带来用户体验提升。而作为向量数据库技术的发明公司,Zilliz 的开源向量数据库项目 Milvus 下载量在上个月刚刚突破了150万,已经获得了超过 1000 家企业用户的支持,并且得到包括eBay、Shopee、宜家、沃尔玛等头部电商,以及腾讯、快手、Intuit 等知名科技公司的青睐。这些巨头公司正在使用 Zilliz 的产品更好地挖掘和使用超大规模高维度非结构化复杂数据,提升其核心技术、产品和平台的服务能力和盈利水平。在 Milvus、Towhee 等优秀开源项目的基础之上,Zilliz 于近期正式推出了 Zilliz Cloud,一款高效、稳定、安全的向量数据库全托管云服务产品,正式开启了这家 5 岁年轻公司在商业化进程上的全新篇章。就 Zilliz Cloud 以及向量数据库市场的发展,硅星人近日对 Zilliz 公司创始人兼 CEO、Linux 基金会旗下 AI & Data 子基金会董事 Charles Xie(星爵)进行了深度采访。Zilliz Cloud 是一个全托管、高性能、便于规模化的向量数据库即服务,可以被理解为云版本的 Milvus。星爵表示,自从7月底 Zilliz Cloud 发布以来,已经有很多企业申请注册参与了首批小范围测试。而这些企业用户当中,不乏正为“黑五”购物节摩拳擦掌的头部电商企业。据了解,目前 Zilliz Cloud 基于亚马逊 AWS 服务。星爵预计到今年11月会正式开放公开版本,对所有企业或个人用户开放使用,并且会在接下来逐步接入谷歌 GCP、微软 Azure 等公有云平台,预计在明年上半年提供完整的多云/跨云方案。Zilliz Cloud 架构图 图片来源:Zilliz谈到为什么从一家明星开源软件公司转型云服务,星爵表示,Zilliz 首先仍然是一家开源的基础软件公司,但放眼全球同类型公司的经历,会发现云服务和开源的商业逻辑吻合度非常高,用开源做社区引流、培养用户习惯,是一条非常有机的发展路径。为了能够将向量数据库这一前沿技术进一步普及化,Zilliz 决定开发云端向量数据库服务。尽管 Zilliz Cloud 的成本很高,实现盈亏平衡需要更长的时间,星爵仍然对做云服务这件事十分笃定。他的信心来自于美国市场客户较强的付费意识和能力。在美国,云产品的溢价能力很高。以 MongoDB、Databricks 等知名数据库公司为例,其服务的溢价水平甚至能够达到底层公有云硬件价格的5-10倍。做云服务的固定成本,比如元数据、安全认证、消息队列等,成本确实不低。但是原则上用户越多,固定成本的摊薄效果越好。“我们已经做好了准备,不可能一上来就 break even(取得收支平衡),可能需要几年的时间,实现整体盈利可能更晚,”星爵表示,“对于我们来说,找到增长和营利的平衡点更重要。同时,在技术研发和产品迭代上我们会继续投入更多资源。”对于 Zilliz 而言,比其他创业公司更早、更多进行战略级投资,早已不是新鲜事。除了近期推出的云服务之外,Zilliz 还是整个向量数据库领域最早斥巨资成立学术研究部门的公司。目前公司的工程团队占总员工 70-80%,而学术研究型员工在工程团队的比例也不小。在过去两年里,Zilliz 在向量搜索方面研究成果斐然,在顶级学术会议 NeurIPS 的 BigANN 全球挑战赛当中夺冠,研究论文连续两年被数据库顶会 SIGMOD 和 VLDB 录用, 在向量搜索领域引起了极大关注。星爵表示,公司在还很稚嫩的时候就投身学术研究,走上这条路实属“被迫无奈”。他告诉硅星人,公司内部准备做向量数据库的时候大约在 2018 下半年,在当时向量数据库还是一个全新的数据库品类,和传统数据库有巨大的技术差别,带来了很多全新的挑战,学术界也没有任何可以参考借鉴的研究。“大家能看到的计算机科学领域的创业,很多都是在学术界已有的成果上进一步发展,在工程方面做得更好更快。然而对我们来说,不光是工业界,连学术界都还没有探索(向量数据库这一方向)。所以当时,我们感觉就像走在一个荒漠无人区里,每走一步都是做学术界和工业界还没人做过的事情。”正因此,Zilliz 不得不从头开始打造了一支学术研究队伍,“跟微软研究院,或者 AT&T Labs——我们当然没法比。我们确实是小公司,我们在无人区披荆斩棘走出来的路形成了这样一条今天所谓的‘赛道’,”星爵对硅星人说道,“我们公开发表论文背后其实还有一点私心。那就是通过做学术研究,去进一步影响学术界和工业界的人,吸引他们加入到向量数据库这个事业里面来。光靠一家企业的努力,是很难取得行业突破的,只有更多人加入才有多样性,整个行业才能更快产生更多技术突破,实现更长远的发展。”这也是为什么他不把同行看做竞争对手,而是把逐渐开始热闹起来的向量数据库赛道,评价为“众人拾柴火焰高”。据统计,自从第一款向量数据库开源项目 Milvus 问世并且获得用户好评以来,市场上做向量数据库相关技术的公司越来越多,只从去年开始算,都出现了七、八家相关公司,遍布北美、日本、欧洲等国家和区域。在星爵看来,更多同行的出现,至少在目前阶段还是一件很值得开心的事情。因为这种热潮恰好证明了向量数据库是下一代人工智能技术的基础设施之一,自己的公司创造了一条正确的赛道,“如果你做的市场没有别人竞争,那很有可能就是你自己的方向错了。”非结构化数据是一个多重交叉的领域,本身是数据库技术,同时也和整个 AI 技术大发展所产生的各种不同工业场景有着极强的关联。包括互联网三大核心业务“搜广推”(搜索、广告、推荐),以及安防、药物发现等市场规模极大,且增长率逐年提升的关键行业,对于非结构化数据的使用都在快速提升。在星爵看来,虽然今天“向量数据库”的市场只有一年几亿美元,到 2030 年,整个非结构化数据相关的技术市场规模足以达到百亿美元。至少在向量数据库这一赛道上,Zilliz 至今保持着技术和产品上的先发优势。由于该公司很早就做了开源项目,现在也推出了云原生产品,并且能够确保性能、查询延迟以及高吞吐的服务,可以水平扩展到处理十亿甚至百亿级别规模的数据——其他向量数据库公司暂时还未具备这个能力。更重要的是,Zilliz 已经在上千家企业用户的帮助下对产品进行了打磨,提高产品的可用性。“总体上,我们估计比同行领先至少两到三年,”星爵表示。星爵(Charles Xie) 图片来源:Zilliz从产品下载量来看,Milvus 项目开源三年多,到今年 7 月刚达到 100 万下载,到上个月就超过了 150万,预计到年底就会超过 200 万,并且增速在明年仍将进一步提升;从公司团队建设的角度,Zilliz 内部的行业统计数据显示,公司研发和工程师团队总人数比目前所有同行加起来还要多;而从资本层面,星爵认为 Zilliz 截至目前的总融资水平,比所有同行实际融资规模相加还多一倍左右。由于技术、经济、社会的高速发展,产生的数据越来越多,让数据库行业整体保持着一种“长青”的状态。以甲骨文为代表的传统关系型数据库行业公司,从上世纪 70 年代生根发芽,直到今天并没有被取代,仍然保持着快速演进。究其根本,人类每时每刻都在创造新的数据,而且不仅创造速度变快、数量变多,数据的类型也在变得更加复杂和非结构化。“比如对于自然界,我们的观测手段越来越多。再比如现在还有元宇宙这个概念的存在,我们可以随意创造成百上千个平行世界——数据量更加爆发了,”星爵表示,在数据处理,更快、更大、更强的需求将会是永恒的,从而促使数据库技术不断迭代发展。”“甚至可以说,在未来 50 年以后,传统的关系型数据库仍然存在,并且仍在继续迭代。而对于我们这样的非结构化的数据平台,我认为在未来 20 年里会迎来一个巨大的发展。只要人类还在拓展认知的边界,数据库技术的创新就永不停歇。”注:封面图来自于Zilliz官网,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。喜欢这篇文章?1)点击右下角的“在看”2)分享到你的朋友圈和群里3)赶快关注硅星人吧!关注硅星人,你就能了解硅谷最新的科技进展和湾区的大事小情,变身最in技术潮人微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章