Redian新闻
>
Delta Lake 2.0正式发布,Databricks能赢吗?

Delta Lake 2.0正式发布,Databricks能赢吗?

科技

新粉请关注我的公众号

我收到了一封邮件,具体内容截图如下

简单说,就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布,也有些时日了。


Databricks在发布里面指出了一些新功能。我挑重点讲几个。


首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变,它都会生成Change Data Feed。你要是订阅了这个东西,比如说把它放进一个Kafka集群里面,理论上就可以准实施复制出一份数据来。


这个东西有点像什么呢?MysSQL的binlog,很多系统都是挂载成为MySQL的备份节点,通过binlog来复制数据的。比如说某些著名HTAP NewSQL们。。。


这东西用好了,也可以玩出花来,我就不展开讲了。


然后是正式开源了Z-Order。Z-Order是个多维clustering的排序法,简单来说,如果我们在所有维度都比较靠近的话,我们更有可能在一起。


这个东西我也算是讲过很多遍了。用它和data skipping可以有效过滤数据文件,按照Databricks好多年前发的论文的说法,大概是过滤一半的文件吧。


Z-Order不是什么新鲜东西,新鲜的是为什么它要选择在这个时候开源,而不再指望靠Z-Order卖钱了。我想原因无非几个,Z-Order没那么吸引人,竞争对手也有了,以及可能和Snowflake支持Iceberg有关。


当然具体原因是什么,我是肯定没办法知道的。只有Databricks的决策的人知道了。不过这也反映出了Databricks鸡贼的本质。能不开源就不开源,除非必须开源出来捞好处了。


Idempotent write for Delta Tables这东西主要是用在streaming里面,某个microbatch如果挂掉重试的话,系统可以根据两个标识认出来这个家伙之前已经来过,不会重复写。


不过不管怎么改microbatch终究是microbatch,总是没办法和Flink的真正的流计算比的。


我记得Databricks在今年的大会上也宣布要对流计算做点什么。但是好像比较失望的是,没有打算改变microbatch的基础架构。


我还专门查了一下流计算现在的负责人,居然把原来Twitter做Storm的人给挖过去了,难怪又开始做流计算了。但是讲真,Storm也好Spark也好,都不如挖Flink的创始人来得直接啊。毕竟Flink的创始人已经从阿里巴巴买的创业公司里面走掉了。对吧,拿Flink的人做Spark的事,才精彩。


最后讲一个“Support for dropping columns in a Delta table as a metadata change operation.” 这话读起来拗口,我来通俗翻译一下。


比如说你有个表里面有column A,B,C,如果你想删了C,在今天,这是个麻烦的事情,因为你需要读所有的parquet文件,然后从里面把C的数据删掉。这就费时间了。


Databricks说,其实我有个鬼点子,这个鬼点子先定义一个mapping表,比如说: A=uuid1, B=uuid2, C=uuid3。然后在实际的parquet文件里面,用uuid1,uuid2,uuid3来处理列名。


这个时候你要删除column C,就只需要把mapping表里面的 C=uuid3干掉就好了。


接下来如果要读取表的时候,uuid3因为没有对应的列,在读数据的时候就可以直接column skipping掉了。


但是这里有一个坏处,C的数据实际上还是被保留在了磁盘上。只不过再也读不出来了。总之你得到了删除column的速度,失去了磁盘空间,得失到底值不值得,你自己去考虑和选择吧。


有时候我觉得,公司还是要会宣传,会宣传的意思就是要会说神神叨叨别人听不懂的高大上的话。


Delta Lake2.0开源了,不知道下面会不会迎来春天呢?


我觉得吧,如果2019年能够大大方方把这些都开源了,估计2022年也不一定有Iceberg什么事情了。


三年在IT界,可以改变的太多了。2022年开源,效果大概率是没那么好了。但是Databricks还是有机会的。




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Databricks一次拿了SIGMOD两个大奖“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻孔子反对民主党谷歌 Pixel 7系列手机正式发布,约 4247 元起《暗黑:不朽》亚太区正式发布,港台免费榜夺冠,游戏上线第二赛季乐高集团正式发布14款2022年8月上市的乐高新品:迪士尼幽灵公馆、巴黎明信片、全新节日限定套装【超多图】乐高2022年7-12月中国大陆版官方产品图鉴正式发布!pdf版自取下载哦经过20多年开发,Stellarium 1.0正式发布如何使用 Dockerfile 创建自定义 Docker 镜像 | Linux 中国ASML二季度财报发布,DUV光刻机同样供不应求古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子Databricks是如何给自己添堵,帮助竞争对手腾飞的。。。如何在 Ubuntu 22.04 LTS 中安装 Docker 和 Docker Compose | Linux 中国留学生遭男友杀害 父母告校方能赢吗硬核观察 #778 Linux 内核 6.0 正式发布,但更期待 6.1这一次,她能赢吗一盒套装包含15个人仔,乐高集团正式发布IDEAS 21336 the office办公室套装!编程不适合12小时工作制,“我有灵感才工作” | 专访《Java编程思想》作者Bruce Eckel[电脑] <汎用ヒト型決戦兵器> EVANGELION TEST TYPE-01<瞎等未來专业解读,《美国芯片行业人才市场解读白皮书》正式发布【解局】砸2800亿美元对华发动“芯片战”,美国就能赢吗?小镇学生的高考突围战,能赢吗?2022年小学KS1和KS2全英统考评分系统揭秘盘点抛龠引来之玉Video of Women Brutally Attacked in Restaurant Shocks ChinaHUAWEI Mate 50正式发布,全球首款支持北斗卫星消息的大众智能手机居 酒 屋 的 午 餐 (图)Boast About Big Bucks Busts Brokers’ Bankrolls美国中风死亡率最高的10个州揭秘 你住在“中风带 Stroke Belt”吗?数字人的最大“隐忧”!半年诈骗2亿,Deepfake骗局再次引爆互联网SaaS趋势追踪 | “好”企业高增长的的王道,十大SaaS能否把握?回忆父母,回忆从前Shanghai Rental Market Sees ‘Abrupt’ Post-Lockdown GrowthBritish Library Includes 16 Chinese Web Novels in Its Collection
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。