Redian新闻
>
七年磨一剑,星爵要让Zilliz成为向量数据库领域最亮的那颗星 | 助力中小企业AI化系列访谈

七年磨一剑,星爵要让Zilliz成为向量数据库领域最亮的那颗星 | 助力中小企业AI化系列访谈

公众号新闻

导语:3月28日,创业黑马集团在2024黑马AI培训战略发布会上,董事长牛文文表示黑马致力于成为面向千行百业中小企业的AI应用推广和服务平台,希望AI产业专家、产业龙头、产业投资机构和产业新锐企业,一起携手助力中国中小企业AI化,一起推动中国AI产业的创新发展。

i黑马作为创业黑马集团旗下的核心媒体平台,推出“助力中小企业AI化”栏目,挖掘并报道AI产业中能助力中小企业AI化的企业或机构,促进他们与中小企业之间更好的联动与合作。

刚刚结束的英伟达GTC大会,堪称“AI界的春晚”,除了黄仁勋发布的Blackwell芯片和机器人等新品以及未来对NIM软件服务平台的投入,让人备受瞩目,还有另外一家中国AI企业荣耀绽放,那就是向量数据库头部企业Zilliz.创始人星爵,携合伙人及研发VP栾小凡、AI和机器学习负责人Frank Liu ,集体亮相GTC大会,在不同的活动环节进行主题演讲,让全球AI从业者牢牢记住了Zilliz这家公司的名字。

那,什么是向量?什么是向量数据库?在哪些场景中应用?对于企业AI化有什么价值?Zilliz又是凭什么获得英伟达如此高的重视度?带着这些疑问,我们趁创始人星爵回国的空档,进行了一次简短的交流。

以下内容是访谈精选,用一杯咖啡的时间,品一下。

向量是由机器学习模型所产生的一种高维数据的表示,被用来表达各种非结构化数据的语义。星爵看到全球80%的数据都是非结构化数据,这是一个具有无限想象空间的市场。于是在2017年毅然辞去美国Oracle公司云数据库创始工程师的高阶职位,回国创办了Zilliz,并在2018年推出了Milvus向量数据库服务产品,7年的创新与坚持,Zilliz已然成长为向量数据库领域的头部公司,也获得到了英伟达的青睐与合作。

01
Zilliz眼里的数据世界

早在2018年,星爵就看到了AI里面的三支柱:算法、算力和数据,并预见到非结构化数据领域的巨大机会。

在过去几十年的 IT 时代,我们见证了关系型数据库和结构化数据处理的兴盛和繁荣。结构化数据指的是按照固定格式或模式组织的数据,这使得它易于被计算机系统和应用程序存取、查询和分析。这种数据通常存储在关系数据库中,如SQL数据库,其中的数据被安排在表格中,表格有明确的行和列。每列都有一个预定义的数据类型,如整数、浮点数、字符串等。例如,一个公司员工的数据库可能包含多个表格,如员工信息表,其中包括员工编号、姓名、职位、部门等列。这种结构使得可以很容易地执行如搜索特定员工、列出某个部门所有员工等操作。

在 AI 时代,数据处理的类型发生了变化,从结构化变成了非结构化。非结构化数据指的是没有预定义数据模型或不容易适应传统数据表格结构的数据。这类数据包括文本文件、电子邮件、视频、音频、图像、用户行为画像和小分子三维结构等。非结构化数据通常不符合固定的格式,其内容的组织方式和表达形式可以极其多样。因为缺乏明确的结构,处理和分析非结构化数据需要更复杂的方法和技术。通过大模型神经网络,我们可以把非结构化数据转换成计算机能够处理和理解的数据类型,这个数据类型叫做向量。变成向量以后,就可以让计算机对非结构化数据做分析、检索和管理,这样就可以赋能各种AI的算法和AI的应用场景。

随着 AI 逐渐得到广泛的应用,需要存储和处理的非结构化数据和向量数据变得越来越多,就需要有一个专门的数据管理系统来存储管理、分析和检索,向量数据库就应运而生。

02
Zilliz向量数据库的应用场景

单纯的数据世界,是枯燥乏味的,但在数字经济时代,数据已经成为一种新型生产要素,是数字化、网络化、智能化的基础,国家在2023年底也在重点推行数据要素相关政策,并在各地开始建立数据交易所,这无疑让企业对数据的重视程度变得越来越高,也在重新思考数据到底可以在哪些业务应用场景发挥价值。

在与数据打交道多年、曾为美国Oracle公司云数据库创始工程师的星爵眼里,数据,却如繁花一般,绽放于大千世界,让业务变得鲜活而多彩。

经过7年的深耕,Zilliz向量数据库已经被广泛应用于RAG、大模型训练、数据去重、图文及视频搜索、推荐系统、问答系统、版权保护、反欺诈、自动驾驶、新药发现等场景。

1、大模型知识库(RAG):企业将私域数据经过文本分割和向量化后存储在向量数据库中,构建起专属的外部知识库,在后续的检索任务中为大模型提供提示信息,辅助生成更加准确的答案。

2、大模型训练:向量数据库在大型语言模型训练中可以用于语义搜索、去重、异常检测、内容推荐、交互式学习和微调。它通过处理和检索语义嵌入向量来提高数据处理效率,支持模型在数据预处理、训练及微调过程中更精准高效地工作。
3、多模态数据检索:在文本/图像/音频数据库中搜索与指定样本最相似的结果,文本/图像/音频的特征可以存储在向量数据库中,通过高性能的索引存储实现高效的相似度计算,返回匹配的文本/图像/音频结果。
4、搭建推荐系统:推荐系统的目标是根据用户的历史行为和偏好来推荐可能感兴趣的物品,用户行为特征可以被向量化后存储在向量数据库中,当发起推荐请求时,系统基于用户特征进行相似度计算,并返回可能感兴趣的物品作为推荐结果。

03

Zilliz Cloud为中小企业

降低AI应用的数据处理门槛


大多数企业,尤其是中小企业,都希望能使用AI,算力和模型都相对容易解决,但数据却是最难的一关。数据的沉淀、清洗、管理,以及数据如何便捷地导入大模型里面进行训练,这些都成为企业AI应用的阻力。
这在星爵看来,Zilliz Cloud就是专为中小企业降低AI数据处理和应用门槛而设计的产品和服务。
Zilliz Cloud是由Milvus原厂打造的基于Milvus的全托管向量数据库云服务,包含全托管的SaaS及BYOC向量数据库服务,提供深度优化、开箱即用的Milvus 体验。使用Zilliz Cloud可以轻松构建百亿级向量数据库,分钟级部署和扩展向量搜索服务,并由全球最专业的向量数据库团队提供运维、优化、及综合支持。
企业只需要把文本、图片和音视频这些数据给到Zilliz Cloud,通过data pipeline,把各种非结构化数据转换成为一个向量的表达。当企业要做AI应用的时候,就能便捷地把需要的数据提取出来,省去了各种中间复杂的技术环节,真正做到开箱即用。
截至目前,Zilliz Cloud 已实现全球5朵云13个节点的全覆盖,是全球首个提供海内外多云服务的向量数据库企业,付费用户遍及全球多个国家和地区,覆盖AIGC领域、电商、在线教育等场景。
Zilliz这7年来对数据创新的坚守与坚持,已然成为向量数据库领域的头部企业,这一切也被英伟达CEO黄仁勋看在眼里,连续2年GTC大会都重点提到向量数据库和Zilliz,并在今年GTC大会邀请三位核心成员登上GTC大会的舞台,向全世界AI从业者们,宣告Zilliz在英伟达业务布局中的核心地位。
当然,这也是英伟达在寻求业务增长点和持续向未来下注的关键一步。一方面,英伟达希望在数据这个层面能够分一杯羹,毕竟全世界80%的数据都是非结构化数据,英伟达希望通过跟Zilliz的合作,在AI数据分析领域,尤其是非结构化数据这个层面,找到一个坚实的增长点。另一方面,英伟达在持续向未来下注,包括机器人、自动驾驶、生物制药和NIM软件服务平台,而这些都离不开向量数据库。

04

Zilliz未来要打造

一个非结构化数据的一个平台


提到Zilliz的未来布局,星爵的眼里泛着光,嘴角流露出一丝笑意,那是一种技术人特有的自信,尤其是当下数据要素作为新型生产要素,政府加强立法管理之后,星爵觉得这是一个更大的利好,给了Zilliz更强的信心。
3月初,Zilliz上线了腾讯云,自此,已经实现了全球主流公有云的覆盖,进一步扩展了Zilliz Cloud的商业化云服务,以此可以服务全球更多的客户。
其次,Zilliz会进一步加大Data Pipelines 这个产品的投入,让客户能更便捷地把各种非结构化数据转换成结构化数据,去构建各种AI的应用。
第三,随着大语言模型的广泛应用,Zilliz会加大在多模态应用领域的技术投入,包括面向于图片、视频、语音等多模态场景下的商业产品对接,增强易用性。
最后,Zilliz的长期愿景是要打造一个非结构化数据平台,目前还只是一个提供非结构化数据的存储、管理、检索的技术平台,那再往上延展,就是一个数据平台,要具备数据交换的能力。因为对于很多企业来说,既然用了Zilliz的云产品,把数据放到Zilliz Cloud上了,可以企业内部使用,也可以在合规合法保障数据安全的情况下,把一些数据进行流通和交易,让一些经过授权合作的企业,也用起来,进一步放大数据存在的价值。

05

Zilliz推出“Zilliz AI初创计划”

助力AI初创企业成长


回到这个系列访谈的主题,“助力中小企业AI化”,黑马和Zilliz也都一直在路上。今年3月,Zilliz发起“AI初创计划”,这是一项面向AI初创企业推出的扶持计划,为全球的AI初创团队提供资源、技术、市场推广、销售等全方位的支持,还将提供总计1000万元的Zilliz Cloud抵扣金,帮助 AI 开发者构建高效的非结构化数据管理系统,打造高质量AI服务与应用,加速产业落地。
尽管Zilliz还是一家创业公司,这次推出这个 AI 初创计划,也的确是难能可贵,也进一步彰显了星爵对技术创新的长期主义。
在被问到为什么推出这个计划,星爵似乎也感同身受。他发现很多企业的工程师,其实特别想尝试一些新的产品和技术,但由于内部要走各种复杂的审批流程和采购流程,而未能如愿。因此星爵就想,如何能帮助到这些敢于创新的工程师在一个很低成本甚至零成本情况下先用起来,帮助他们去验证是有价值的,这本身就是一件对推动技术创新应用非常有价值的事情。
因此,Zilliz的AI初创计划,最基本的一个初衷就是希望有更越来越多的企业,能够零门槛的更加快速的去搭建他们的AI应用,能够把他们企业的那些非结构化数据,更好地用起来,去赋能业务,更好地服务客户。
对该计划感兴趣的可去 Zilliz 中文官网填写申请,项目专员将会及时联系(活动申请截止日期为 2024年6月30日)。
在这次访谈即将结束的时候,星爵无比感叹我们生活在一个特别好的时代,能够见证这次AI变革所带来的无限想象,再加上中国目前强大的政治经济基础,给创业者们提供了一个前所未有的全球化创业环境。

相信更多如星爵般的创业者,凭借与生俱来的聪明勤奋和坚韧不拔,一定能趁此AI的东风,飞得更高更远。



扫描下方二维码
报名参加黑马创业破局公开课
解决您的流量获客难题
↓↓↓

联系我们

转载开白或商务合作:15222191516  
与主编交流沟通:chenfu3721
i黑马,创业黑马旗下媒体,让创业者不再孤独
业黑马 媒体矩阵 推荐关注
↓↓↓

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2024毕业致辞|西政校长林维:不要让自己成为自己在学生时代曾经痛斥过的那种人分布式数据库入门:以国产数据库 TDSQL 为例题同学三月云南游十年磨一「图」,谷歌震撼发布纳米级人脑图谱!AI加持人类大脑研究百万token上下文窗口也杀不死向量数据库?CPU笑了【花样女神节】鲜花开满地的 ※ 四季 ※我国成功发射云海三号02星;北京获批筹建汽车自动驾驶领域国家计量数据建设应用基地丨智能制造日报克服磨难,跑赢时间,细说埃默里大学背后的教育故事|成长教育之道系列访谈<六>AI早知道|Figure发布第一个OpenAI大模型加持的机器人demo;零一万物全面开放笛卡尔向量数据库搜索内核历时 5 个月从零到一研发一款数据库产品,这些坑他们已经踩过了 |InfoQ 独家专访百度智能云向量数据库团队中产爬藤“消费降级”第一剑,先斩补习班和夏令营!放榜后耶鲁大神大实话扎心了…Sedex:2024全球供应链多元化系列洞察报告-泰国小米汽车“三年磨一剑”,雷军:“爆品”是打造出来的,不是营销出来的助力中国企业出海,用心为您连接世界!有人不要学的两大美国文化直播回放丨20年磨一剑,“磨玻璃结节型肺癌”的治疗实现质的跨越正在直播丨20年磨一剑,“磨玻璃结节型肺癌”的治疗实现质的跨越五年磨一剑,华为仓颉编程语言正式发布。。哪条裙子比较好看?可同时收听长江之歌。我用放手,换来孩子全美第一的卡梅CS录取|成长教育之道系列访谈<七>女神节,献给我们不愧是央视!这十年磨一剑的作品,落笔即满分!数据库的夏天!2024可信数据库发展大会如约而至,邀请你来!| Q推荐甲骨文首次将LLMs引入数据库,集成Llama 3和Mistral,和数据库高效对话“十年再磨一剑”,李显龙二度获颁新加坡警队最高荣誉淡马锡之剑5年磨一剑!中读音频课《韩昇·〈史记〉百讲》同名书获文津图书奖这种动物,是5亿年前全场最亮的仔【原创】2024 年加拿大联邦预算公布,对加拿大企业家禾中小企业的关键影响业界首次!搭载英伟达GPU,50倍性能提升!Zilliz发布Milvus 2.4向量数据库二代接班:上任第一剑,先斩代言人!嘉博环球:2024航空经济与管理数据库黄河流域发展数据库报告一篇超赞的毕业致辞:不要让自己成为自己在学生时代曾经痛斥过的那种人SKY SQR破土仪式圆满举办!八年磨剑,荣耀动工!时光终为无畏者加冕!直播预告丨20年磨一剑,“磨玻璃结节型肺癌”的治疗实现质的跨越只关注“顶层架构”和“底线思维”的非典型家长,如何培养出被藤校青睐的孩子?|成长教育之道系列访谈<五>
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。