悄悄做完这几件事，Databricks又牛逼大了。。。

2023-04-30 01:04

本文首发微信公众号：飞总聊IT

最近这些天，Databricks悄悄做了几件事情，公司真的是越来越牛逼了。值得拿出来说一说。

先说第一件事情，Spark 3.4终于把我从去年就开始心心念念的Spark Connect给发布了。如果你完全不知道Spark Connect是什么东西，可以去看看去年我写的文章。

这里展开来说就没必要了，简单来说这算是Spark自从有这个项目以来最大的一次架构上面的改变。Spark Connect是很浅的一层，可以把代码变成Logical Tree，然后发给Spark Driver。

这个东西改变了Spark自诞生以来一贯的做法。它的好处是，可以解耦基于Spark的application和Spark Cluster本身。

举例来说，一个公司有1000个应用是用Spark作为后端的。如果我们要升级Spark的cluster到一个新的版本，这些应用在目前的架构上都需要同步升级。

但是有了Spark Connect以后，这个事情就没必要了，可以先升级Cluster，Spark Connect是forward compatible的通讯协议。Application可以一个一个慢慢来升级。

所以这是个大事情。我去年在Databricks的Data+AI的大会上宣布这个项目的时候就说，如果有一个项目我认为Databricks应该投入更多资源的话，这个项目就是。

我还说过，这个项目技术上难度并不大。主要是比较繁琐的coding。只要投入足够资源，就可以很快出炉。显然，Databricks投入的资源并不是很多。所以才拖到今天终于发布了。

但是无论如何，这是个大事。

第二个大事是Databricks开始搞自己的Marketplace了。要开始让第三方的APP们进来，整合进Databricks的生态圈里面来了。

这个东西，很多公司都在搞，比如说Slack就有很多的APP。这肯定是件大事，但是这个事情到底有多大，有多少人愿意买单，最后会给Databricks带来多少收益，我觉得都是值得观察的事情。

第三件大事是Databricks SQL引入了AI Function。没错，就是为了现在生成式AI服务的。Databricks在SQL层面开始支持怎么样调用OpenAI的GPT API，让用户直接写SQL就可以调用生成式AI的服务。

结合之前Databricks还搞了一个Dolly 2.0，说明生成式AI这个方向，对Databricks来说也是非常的看好的。

这种在SQL中引入AI函数的做法，Databricks不是第一家，最早是谁我也说不好，但是比较有名的应该是BigQuery。不过之前主要是针对传统AI的模型，SQL如何调用的问题。Databricks显然更关心的是生成式AI的问题。

生成式AI能够直接在SQL里面调用，对有些用户来说是一件很好的事情。我觉得Databricks显然看到了这个市场，所以也迫不及待加入了对其支持。

长远来看，最近这几天，Databricks确实是连续搞了几件大事，都是值得观察的事情。

我知道有不少投资人在看我的公众号，你们可能会私下里问我，Databricks是不是比Snowflake要更牛逼了，因为他们最近做的这个这个这个。Databricks的估值怎么看啊。问题很多，答案说实话，我也不好说。但是我唯一比较肯定的是，这些都是挺大的事情。值得关注。

生成式AI确实是一项非常值得研究的技术，所以我也开了一个星球。我的星球里面有我整理搜集的生成式AI方面的各种资料，和一群靠谱的小伙伴的讨论。欢迎有志研究学习生成式AI的欢迎扫码加我的知识星球和靠谱的人一起学习进步。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq