悄悄做完这几件事,Databricks又牛逼大了。。。
本文首发微信公众号:飞总聊IT
最近这些天,Databricks悄悄做了几件事情,公司真的是越来越牛逼了。值得拿出来说一说。
先说第一件事情,Spark 3.4终于把我从去年就开始心心念念的Spark Connect给发布了。如果你完全不知道Spark Connect是什么东西,可以去看看去年我写的文章。
这里展开来说就没必要了,简单来说这算是Spark自从有这个项目以来最大的一次架构上面的改变。Spark Connect是很浅的一层,可以把代码变成Logical Tree,然后发给Spark Driver。
这个东西改变了Spark自诞生以来一贯的做法。它的好处是,可以解耦基于Spark的application和Spark Cluster本身。
举例来说,一个公司有1000个应用是用Spark作为后端的。如果我们要升级Spark的cluster到一个新的版本,这些应用在目前的架构上都需要同步升级。
但是有了Spark Connect以后,这个事情就没必要了,可以先升级Cluster,Spark Connect是forward compatible的通讯协议。Application可以一个一个慢慢来升级。
所以这是个大事情。我去年在Databricks的Data+AI的大会上宣布这个项目的时候就说,如果有一个项目我认为Databricks应该投入更多资源的话,这个项目就是。
我还说过,这个项目技术上难度并不大。主要是比较繁琐的coding。只要投入足够资源,就可以很快出炉。显然,Databricks投入的资源并不是很多。所以才拖到今天终于发布了。
但是无论如何,这是个大事。
第二个大事是Databricks开始搞自己的Marketplace了。要开始让第三方的APP们进来,整合进Databricks的生态圈里面来了。
这个东西,很多公司都在搞,比如说Slack就有很多的APP。这肯定是件大事,但是这个事情到底有多大,有多少人愿意买单,最后会给Databricks带来多少收益,我觉得都是值得观察的事情。
第三件大事是Databricks SQL引入了AI Function。没错,就是为了现在生成式AI服务的。Databricks在SQL层面开始支持怎么样调用OpenAI的GPT API,让用户直接写SQL就可以调用生成式AI的服务。
结合之前Databricks还搞了一个Dolly 2.0,说明生成式AI这个方向,对Databricks来说也是非常的看好的。
这种在SQL中引入AI函数的做法,Databricks不是第一家,最早是谁我也说不好,但是比较有名的应该是BigQuery。不过之前主要是针对传统AI的模型,SQL如何调用的问题。Databricks显然更关心的是生成式AI的问题。
生成式AI能够直接在SQL里面调用,对有些用户来说是一件很好的事情。我觉得Databricks显然看到了这个市场,所以也迫不及待加入了对其支持。
长远来看,最近这几天,Databricks确实是连续搞了几件大事,都是值得观察的事情。
我知道有不少投资人在看我的公众号,你们可能会私下里问我,Databricks是不是比Snowflake要更牛逼了,因为他们最近做的这个这个这个。Databricks的估值怎么看啊。问题很多,答案说实话,我也不好说。但是我唯一比较肯定的是,这些都是挺大的事情。值得关注。
生成式AI确实是一项非常值得研究的技术,所以我也开了一个星球。我的星球里面有我整理搜集的生成式AI方面的各种资料,和一群靠谱的小伙伴的讨论。欢迎有志研究学习生成式AI的欢迎扫码加我的知识星球和靠谱的人一起学习进步。
微信扫码关注该文公众号作者