Databricks一次拿了SIGMOD两个大奖

2022-06-17 00:06

新粉请关注我的公众号

在最近费城召开的SIGMOD2022上，Databricks当仁不让成为了赢家，一共拿到了两项大奖：

1.Spark拿到了SIGMOD System Award

2.Photon拿到了Best Industry Paper Award

SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多，但是大部分人还是觉得ICDE差一点。

2020年以前我每年会尽量争取去其中一个会议，以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了，很多人应该都很了解了。

Spark拿System Award应该是名至实归，没什么好说的。毕竟Spark的贡献在那里，现实的影响力在那里，历史地位将来也在那里。

至于为什么是Spark而不是Flink，这事情也很简单，Flink的爹可能算是和Spark一辈的，可惜没有搞成功。

Flink算成功吧，其实也没Spark那么成功，还晚到世界上5年，又被阿里巴巴给收购了。怎么样也轮不到Flink拿这个奖了。

至于为什么不给MapReduce，这事情也很好理解。一方面Jeff Dean混的是Operating System的圈子，他的论文就没发在数据库的会议上的。Spark虽然一开始也混Operating System的圈子，但是很快就混进Database的圈子了。

另外一方面，MapReduce出来的时候，database里面几个玩学术和政治都很牛逼的人，比如Michael Stonebraker以及David

DeWitt，写过MapReduce：A Step Backward的雄文批判。所以数据库的圈子对MapReduce这东西的不待见，显而易见，给不了也不可能给数据库的大奖。

无论如何，Spark拿这个大奖，在数据库领域的人，应该是没什么争议了。

Photon拿到了Best Industry Paper Award，是另外一回事了。SIGMOD上发的论文一般有两种，Research Paper和Industry Paper。

Research Paper的原创性高一点，best paper含金量很高。Industry Paper对原创性要求弱一些，通常很多是给工业界的人发论文用的。

但是我发现这些年来有个趋势，Industry Paper里面常常会有一些有意思的论文，而Research Paper里面也不乏写作技巧高但是其实是坨屎的论文。

Photon是Databricks搞的C++引擎，全面兼容Spark，但是速度快N倍，N取决于不同的说法。背后用的技术是vectorization。如果大家不了解这是什么，可以把Snowflake创始人的博士毕业论文拿来读读，那算是vectorization的鼻祖了。

Photon目前只有你用了Databricks的付费SaaS服务才能够享受到了，开源的是没有的。Photon的论文我还没看过，坦白说这两年我是有点懈怠了，好论文不少，看起来总是很慢。主要原因也是看论文对我来说兴趣多于工作需要，所以拖延症严重。

因为我没看过论文，所以我也没太多技术细节可以扯的。哦，对了，Databricks掀起的和Snowflake关于TPC-DS自己跑的很牛逼，Snowflake作弊的系列博客，里面用的就是这个Photon引擎。据说Photon目前还保留着TPC-DS全球最牛逼的benchmark数据。

当然，不管它多牛逼，和open source的社区关系不大了。但是我想啊，当年Databricks搞Delta Lake的时候，也是想卖钱给自己客户，结果开源社区弄出个Iceberg，还越做越大了，弄得Databricks最后还是开源出来一个比较基础的Delta Lake，然后差异化收费。

所以，Photon弄不好也免不了要走一趟老路。完全不开源的话，是没有足够的影响力的，没足够影响力呢，想要从Snowflake那去抢用户就费力了。

我姑且大胆猜测一下，Photon大概率很快就会开源出一个比较基础的版本来，然后Databricks通过差异化服务收费。收费的比开源的好用，开源的凑合着够用。这样就能吸引用户从Snowflake跳船来Databricks了。

我不是神仙，我不知道这个事情会不会发生。我更不能肯定有了这个开源的举动以后，Snowflake的用户会不会跳到Databricks上来。如果要问我的话，我觉得开源不远的将来会发生，但是Snowflake的用户跳船的事情，大概率还是会让Databricks失望。

如果我猜对了，大家记得回头叫我预言帝。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq