剑拔弩张的 Databricks 和Snowflake，连用个Apache Iceberg 都能掐架！

2023-07-01 05:07

作者｜ Lindsay Clark

翻译｜核子可乐

编辑｜ Tina

这几天，全球两大数据平台巨头 Snowflake、Databricks 均召开了各自的年度大会，这两个技术会议对于做数据系统的从业者来说非常有吸引力。虽然AI尽管火爆，但从会议内容来看，竞争的关键还是在数据，因此我们重点关注了两者在数据湖仓技术方向上的发展。值得注意的是，有分析师指出，企业需要能同时支持数据湖和数据仓库的单一平台，但目前此类技术还没有真正实现。

随着本地确认支持 Apache Iceberg 和 Hudi 两种表格式，Databricks 正努力扩大其数据湖方案的市场吸引力、巩固在机器学习领域的主导地位，并希望将业务延伸至数据仓库类工作负载领域。

与此同时，其竞争对手 Snowflake 也推出了 Iceberg Tables 更新，宣称要进一步打破数据孤岛。

两家公司都宣称将支持非结构化数据湖式工作负载，可在同一系统之内实现基于 SQL 的数据仓库报告和分析，同时运用分析引擎处理保存在其他位置的数据。在 Delta Lake 3.0 中，Databricks 推出了所谓通用格式（UniForm），允许以 Apache Iceberg 或 Apache Hudi 的格式读取存储在 Delta 中的数据。

就在本届旧金山年度供应商盛会正式召开的几天之前，Databricks 公司营销副总裁 Joel Minnick 证实，Delta 是“在开源经历方面参与时间最长、得到广大企业客户好评的智能湖仓格式。”

所有三种表格式均基于 Apache Parquet 数据格式。他提到，“其中的区别在于，这些格式各自会创建出相似、但又不尽相同的元数据”，从而影响数据向应用程序和分析工作负载的表达方式。

结果就是，Delta、Hudi 和 Iceberg 之间存在一定的不兼容性。为了帮助客户简化问题，Databricks 特意为此推出了新的通用格式，简称 Uniform。

Minnick 表示，UniForm 会自动生成全部三种格式的元数据，并自动识别用户想要读取或写入的对应格式。

“之后，它会自动帮用户转换出系统需要的适当元数据。也就是说，只要在 Delta Lake 上构建，那就是在为全部三种格式做构建，直接消除智能湖仓格式带来的复杂性、转译工作完全由不同的连接器来完成。”

Apache Iceberg 是一种开放表格式，专为大规模分析工作负载而设计，同时支持 Spark、Trino、Flink、Presto、Hive 和 Impala 等查询引擎。在 Snowflake、谷歌和 Cloudera 去年宣布支持之后，Iceberg 过去几年来积蓄的生态力量终于成型。也有不少专业厂商参与其中，包括 Dremio、Starburst 和 Tabular——其中 Tabular 是 Iceberg 项目团队当初效力于 Netflix 时的开发成果。

事实上，Databricks 公司联合创始人兼 CEO Ali Ghodsi 去年曾在采访中表示，Iceberg、Hudi 和 Delta 这三种表格式其实非常相似，而且很可能在大多数供应商处得到全面应用。今年，SAP 和微软都宣布将支持 Delta，且两家公司均表示将及时解决 Iceberg 和 Hudi 之间的数据格式冲突。

剑拔弩张

但作为 Iceberg 的坚定支持者，Databricks 的最大竞争对手 Snowflake 当然不可能毫无行动，而是选择在同一周内举行了自己的年度聚会。

这家云数据仓库与平台企业的市场估值一度达到过惊人的 1200 亿美元，此次宣布了其 Iceberg Tables 内部预览版。此版本号称将打破数据孤岛，只是并不支持 Hudi 和 Delta 格式。

该公司称，组织可以在自己的存储系统中以 Apache Iceberg 格式处理数据，且无论存储数据是否由 Snowflake 工具进行管理，均可使用该公司提供的性能管理与治理工具。

Snowflake 还宣布在 AWS 上推出原生应用程序框架的开放预览版。其思路是帮助开发人员构建和测试 Snowflake Native Apps，借此运用 Snowflake 中的现有数据。据称，配套软件市场上现已有超过 25 款应用可供使用。

Amalgam Insights 公司 CEO 兼首席分析师 Hyun Park 表示，在数据湖领域，Iceberg、Hudi 和 Delta 格式之间将必有一战。

“目前，不少第三方正在与 Iceberg 合作，认为其是最易于使用的数据格式。而且坦率地讲，企业客户也害怕赋予 Databricks 太大的权力。”

然而，Databricks 同时支持这三种格式的举措，意味着其也可以为 Iceberg 客户——也就是 Snowflake 和 Cloudera 的客户——提供服务。

“这是一种颇为明智的方式，能够跨越全部数据湖格式实现智能分析。”

Park 还认为，Iceberg 虽然在技术普及度上更胜一筹，但在性能层面却面临挑战。与此同时，投资者则希望 Snowflake 能够向其他领域扩张自己的力量。Park 表示，“Snowflake 承载着市场估值和股东的期待，因此正努力在应用开发和机器学习等各类平台上充当数据解决方案。”

咨询公司 Forrester 首席分析师 Mike Gualtieri 对 Snowflake 在第三方应用领域的表现则并不满意。“我认为这没什么说服力，因为与企业所需的完整应用解决方案相比，Snowflake 这种专注于应用数据的思路太过狭义、甚至可以说是微不足道。”但他也承认，Snowflake 确实在数据湖方面取得了进展，这对供应商和喜欢该平台的客户来说肯定是个好消息。

过去几年来，数据湖和智能湖仓之间的边界开始日渐模糊。Databricks 率先创造了智能湖仓的概念，并在其平台上提供 SQL 和类似商务智能的查询功能；而 Snowflake 则开始支持非结构化数据。

Gualtieri 指出，“这两种技术之间存在冲突。企业最需要的是统一的平台，所以 Snowflake 不能单纯宣传自己有多么优势、有多像 Teradata。甚至连处理非结构化数据的能力和机器学习技术都没那么重要，毕竟这些都能通过合作伙伴关系来填补。”

最重要的是，企业客户需要的是单一平台，但用户的具体期望和技术间的割裂现状正阻碍着统一市场的形成。

Gualtieri 解释道，“Teradata 和 Snowflake 确实类似：它们都具备一定的机器学习功能，大家可以用它们满足很多需求。Databricks 的功能也确实要丰富得多。但对于那些已经习惯了在 Spotfire 或者 Tableau 中获取报告的商务智能用户来说，他们希望执行查询后就立即得到结果，而不是像查询数据湖那样等待三秒甚至更久。目前，双方在功能和技术水平方面仍然存在差距，短时间内根本不可能实现统一。”

目前，很多组织其实是数据管理与数据分析双线并进。Snowflake 和 Databricks 均拥有大量跨国客户，前者的知名主顾有卡夫亨氏食品集团、康卡斯特和 EDF Energy；后者则坐拥丰田、壳牌和同为 Snowflake 客户的 AT&T。

Gualtieri 表示，数据湖 / 智能湖仓之间的鸿沟恐怕需要三年时间才能打破，就是说到那时双方才能提供对方的全套功能。在这段时间之内，Snowflake 与 Databricks 两派的冲突恐怕还将持续。

参考链接：

https://www.theregister.com/2023/06/29/databricks_snowflake_tables/