Redian新闻
>
剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!

公众号新闻


作者 | Lindsay Clark
翻译 | 核子可乐
编辑 |  Tina
这几天,全球两大数据平台巨头 Snowflake、Databricks 均召开了各自的年度大会,这两个技术会议对于做数据系统的从业者来说非常有吸引力。虽然AI尽管火爆,但从会议内容来看,竞争的关键还是在数据,因此我们重点关注了两者在数据湖仓技术方向上的发展。值得注意的是,有分析师指出,企业需要能同时支持数据湖和数据仓库的单一平台,但目前此类技术还没有真正实现。

随着本地确认支持 Apache Iceberg 和 Hudi 两种表格式,Databricks 正努力扩大其数据湖方案的市场吸引力、巩固在机器学习领域的主导地位,并希望将业务延伸至数据仓库类工作负载领域。

与此同时,其竞争对手 Snowflake 也推出了 Iceberg Tables 更新,宣称要进一步打破数据孤岛。

两家公司都宣称将支持非结构化数据湖式工作负载,可在同一系统之内实现基于 SQL 的数据仓库报告和分析,同时运用分析引擎处理保存在其他位置的数据。在 Delta Lake 3.0 中,Databricks 推出了所谓通用格式(UniForm),允许以 Apache Iceberg 或 Apache Hudi 的格式读取存储在 Delta 中的数据。

就在本届旧金山年度供应商盛会正式召开的几天之前,Databricks 公司营销副总裁 Joel Minnick 证实,Delta 是“在开源经历方面参与时间最长、得到广大企业客户好评的智能湖仓格式。”

所有三种表格式均基于 Apache Parquet 数据格式。他提到,“其中的区别在于,这些格式各自会创建出相似、但又不尽相同的元数据”,从而影响数据向应用程序和分析工作负载的表达方式。

结果就是,Delta、Hudi 和 Iceberg 之间存在一定的不兼容性。为了帮助客户简化问题,Databricks 特意为此推出了新的通用格式,简称 Uniform。

Minnick 表示,UniForm 会自动生成全部三种格式的元数据,并自动识别用户想要读取或写入的对应格式。

“之后,它会自动帮用户转换出系统需要的适当元数据。也就是说,只要在 Delta Lake 上构建,那就是在为全部三种格式做构建,直接消除智能湖仓格式带来的复杂性、转译工作完全由不同的连接器来完成。”

Apache Iceberg 是一种开放表格式,专为大规模分析工作负载而设计,同时支持 Spark、Trino、Flink、Presto、Hive 和 Impala 等查询引擎。在 Snowflake、谷歌和 Cloudera 去年宣布支持之后,Iceberg 过去几年来积蓄的生态力量终于成型。也有不少专业厂商参与其中,包括 Dremio、Starburst 和 Tabular——其中 Tabular 是 Iceberg 项目团队当初效力于 Netflix 时的开发成果。

事实上,Databricks 公司联合创始人兼 CEO Ali Ghodsi 去年曾在采访中表示,Iceberg、Hudi 和 Delta 这三种表格式其实非常相似,而且很可能在大多数供应商处得到全面应用。今年,SAP 和微软都宣布将支持 Delta,且两家公司均表示将及时解决 Iceberg 和 Hudi 之间的数据格式冲突。

剑拔弩张

但作为 Iceberg 的坚定支持者,Databricks 的最大竞争对手 Snowflake 当然不可能毫无行动,而是选择在同一周内举行了自己的年度聚会。

这家云数据仓库与平台企业的市场估值一度达到过惊人的 1200 亿美元,此次宣布了其 Iceberg Tables 内部预览版。此版本号称将打破数据孤岛,只是并不支持 Hudi 和 Delta 格式。

该公司称,组织可以在自己的存储系统中以 Apache Iceberg 格式处理数据,且无论存储数据是否由 Snowflake 工具进行管理,均可使用该公司提供的性能管理与治理工具。

Snowflake 还宣布在 AWS 上推出原生应用程序框架的开放预览版。其思路是帮助开发人员构建和测试 Snowflake Native Apps,借此运用 Snowflake 中的现有数据。据称,配套软件市场上现已有超过 25 款应用可供使用。

Amalgam Insights 公司 CEO 兼首席分析师 Hyun Park 表示,在数据湖领域,Iceberg、Hudi 和 Delta 格式之间将必有一战。

“目前,不少第三方正在与 Iceberg 合作,认为其是最易于使用的数据格式。而且坦率地讲,企业客户也害怕赋予 Databricks 太大的权力。”

然而,Databricks 同时支持这三种格式的举措,意味着其也可以为 Iceberg 客户——也就是 Snowflake 和 Cloudera 的客户——提供服务。

“这是一种颇为明智的方式,能够跨越全部数据湖格式实现智能分析。”

Park 还认为,Iceberg 虽然在技术普及度上更胜一筹,但在性能层面却面临挑战。与此同时,投资者则希望 Snowflake 能够向其他领域扩张自己的力量。Park 表示,“Snowflake 承载着市场估值和股东的期待,因此正努力在应用开发和机器学习等各类平台上充当数据解决方案。”

咨询公司 Forrester 首席分析师 Mike Gualtieri 对 Snowflake 在第三方应用领域的表现则并不满意。“我认为这没什么说服力,因为与企业所需的完整应用解决方案相比,Snowflake 这种专注于应用数据的思路太过狭义、甚至可以说是微不足道。”但他也承认,Snowflake 确实在数据湖方面取得了进展,这对供应商和喜欢该平台的客户来说肯定是个好消息。

过去几年来,数据湖和智能湖仓之间的边界开始日渐模糊。Databricks 率先创造了智能湖仓的概念,并在其平台上提供 SQL 和类似商务智能的查询功能;而 Snowflake 则开始支持非结构化数据。

Gualtieri 指出,“这两种技术之间存在冲突。企业最需要的是统一的平台,所以 Snowflake 不能单纯宣传自己有多么优势、有多像 Teradata。甚至连处理非结构化数据的能力和机器学习技术都没那么重要,毕竟这些都能通过合作伙伴关系来填补。”

最重要的是,企业客户需要的是单一平台,但用户的具体期望和技术间的割裂现状正阻碍着统一市场的形成。

Gualtieri 解释道,“Teradata 和 Snowflake 确实类似:它们都具备一定的机器学习功能,大家可以用它们满足很多需求。Databricks 的功能也确实要丰富得多。但对于那些已经习惯了在 Spotfire 或者 Tableau 中获取报告的商务智能用户来说,他们希望执行查询后就立即得到结果,而不是像查询数据湖那样等待三秒甚至更久。目前,双方在功能和技术水平方面仍然存在差距,短时间内根本不可能实现统一。”

目前,很多组织其实是数据管理与数据分析双线并进。Snowflake 和 Databricks 均拥有大量跨国客户,前者的知名主顾有卡夫亨氏食品集团、康卡斯特和 EDF Energy;后者则坐拥丰田、壳牌和同为 Snowflake 客户的 AT&T。

Gualtieri 表示,数据湖 / 智能湖仓之间的鸿沟恐怕需要三年时间才能打破,就是说到那时双方才能提供对方的全套功能。在这段时间之内,Snowflake 与 Databricks 两派的冲突恐怕还将持续。

参考链接:

https://www.theregister.com/2023/06/29/databricks_snowflake_tables/

今日荐文

OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了


用AIGC重构后的智能客服,能否淘到大模型时代的第一桶金?


AIGC 浪潮下,如何推动企业应用及落地?


谷歌警告自家员工:不要使用 Bard 生成的代码


引领手机向“全知全能”进化!iOS版ChatGPT推出联网模式:集成Bing搜索功能,仅对付费用户开放


瞄准 B 端!腾讯云推多款行业大模型解决方案,打造模型应用商店



你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“演唱会门票”应该说concerts' tickets还是concert tickets?六月!!!来势汹汹!!!Databricks撕逼Snowflake!!!《扫花游 - 听风》【城事】巴黎市长将重修Châtelet 广场以方便行人巴黎市长将重修Châtelet 广场以方便行人精选SDE岗位 | Snowflake、Tesla、Apple 等公司持续热招!“搞剑拔弩张风声鹤唳,时间长了非常危险”大模型让数据库行业先撕起来了,Databricks和Snowflake:开发者们你们现在必须选边站了​财报前瞻丨云业务增长被减速,Snowflake能否成功破局?One Innovation ultra-large container carrier docks at XM Port7.30 | NASU征服群山系列活动⑦- Mount. Webster-Jackson-PierceDatabricks出招了,Snowflake怎么办???从 Hadoop 到 Snowflake,2023年数据平台路在何方?深度:为什么中国数据库领域没有出现像Snowflake这样的巨头?成本压力带来挑战,Snowflake能否成功破局?AI助力加速营收增长,Snowflake“真香”了Oracle低价倾销,联合和Databricks围殴Snowflake!!!重返希腊:圣岛日落、徒步海景山道Erklärung zur Zusammenarbeit生成式AI搭台,Data+Analytics唱戏: Snowflake、Databricks 2023年度大会前瞻对话云器科技 CTO 关涛:打造中国版“Snowflake”,经济低迷时期技术创业型公司如何乘风破浪?【谈谈女人的嫉妒】“人性”新论Kris Wu Accuser Asked For Public Support. Now She’s Suing Them.大模型让数据库行业撕起来了:Databricks和Snowflake让开发者选边站Zhongkao, Not Gaokao, Now the Make-or-Break Exam, Parents SaySevere Flooding Continues to Rock Northeastern ChinaClick-Clack Chic: The Art of Building the Perfect KeyboardHow a Chinese Town Made a Fortune From the World’s Lockdown PetsSnowflake:将颠覆数据云行业,前景无限新计算范式下,Databricks、Snowflake、Doris、字节跳动的数据平台落地实践|QCon率性!BrooksBrothers布克兄弟,美国奥莱VIP低折,还有折上折!As Floods Continue, Another Casualty Emerges: Millions of Books精选SDE岗位 | Apple、Snowflake、Fitch Group l等公司持续热招!《幾度花落時》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。