Redian新闻
>
谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

科技

作者 | Renato Losio
译者 | 平川
策划 | 丁晓昀  

最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序,它使 Hive 能够与 BigQuery 的存储层进行交互。

这个新增选项支持在 Hive 中使用类 SQI 查询语言 HiveQL 对 BigQuery 进行读写。这样,数据工程师就可以在不移动数据的情况下访问和查询 BigQuery 数据集,而 BigQuery 的用户则可以利用 Hive 的工具、库和框架进行数据处理和分析。谷歌云解决方案架构师 Julien Phalip 写道:

Hive-BigQuery 连接器实现了 Hive StorageHandler API,使 Hive 工作负载可以与 BigQuery 和 BigLake 表集成。所有的计算操作(如聚合和连接)仍然由 Hive 的执行引擎处理,连接器则管理所有与 BigQuery 数据层的交互,而不管底层数据是存储在 BigQuery 本地存储中,还是通过 BigLake 连接存储在云存储桶中。

Apache Hive 是一个构建在 Hadoop 之上的流行的分布式数据仓库选项,它允许用户在大型数据集上执行查询。BigQuery 是谷歌云提供的无服务器数据仓库,支持对海量数据集进行可扩展的查询。为了确保数据的一致性和可靠性,这次发布的开源连接器使用 Hive 的元数据来表示 BigQuery 中存储的表。

该连接器支持使用 MapReduce 和 Tez 执行引擎进行查询,在 Hive 中创建和删除 BigQuery 表,以及将 BigQuery 和 BigLake 表与 Hive 表进行连接。它还支持使用 Storage Read API 流和 Apache Arrow 格式从 BigQuery 表中快速读取数据。

图片来源:谷歌数据分析博客

根据谷歌云的说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作的连续性,将 BigQuery 用于需要数据仓库子集的需求,或者保有一个完整的开源软件技术栈。

借助 BigQuery Migration Service,谷歌提供了 BigQuery 批处理 SQL 转换器和交互式 SQL 转换器支持,可以将 Hive 查询转换为 BigQuery 特有的兼容 ANSI 的 SQL 语法。Phalip 解释说:

这个新的 Hive-BigQuery 连接器提供了一个额外的选项:你可以保留原来的 HiveQL 方言的查询,并继续在集群上使用 Hive 执行引擎运行这些查询,但让它们访问已迁移到 BigQuery 和 BigLake 表的数据。

这不是谷歌为分析不同的数据集并减少数据转换而发布的第一个开源连接器:Cloud Storage Connector 实现了 Hadoop Compatible File System(HCFS) API,用于读写 Cloud Storage 中的数据文件,而 Apache Spark SQL connector for BigQuery 则实现了 Spark SQL Data Source API,将 BigQuery 表读取到 Spark 的数据帧中,并将数据帧写回 BigQuery。

Hive-BigQuery 连接器支持 Dataproc 2.0 和 2.1。谷歌还大概介绍了有关分区的一些限制。由于 Hive 和 BigQuery 的分区方式不同,所以该连接器不支持 Hive PARTITIONED BY 子句。但是,开发人员仍然可以使用 BigQuery 支持的时间单位列分区选项和摄入时间分区选项。

感兴趣的读者,可以从 GitHub 上获取该连接器。

原文链接:

https://www.infoq.com/news/2023/07/google-hive-bigquery-connector/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

融资 7 亿元后,Mojo 之父实名吐槽:Mojo 太好用了,颤抖吧 C++

微软被曝搪塞员工绩效,只强化个人表现;文心一言 App 登苹果免费应用排行榜首位;商汤科技被爆裁员?官方回应|Q资讯

一个潮流的终结?推出仅 3 年后,亚马逊宣布终止低代码 Honeycode 服务,前员工爆料:长期没有顾客!

硬核探访!AR 头盔、数字孪生......揭秘宁德核电站的数字化实践

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,数据集已开源chì rè?zhì rè?千词万字“返场赛”来了!2023汽车连接器行业深度报告(附下载)Warp:一款可跨平台运行的开源安全文件共享应用 | Linux 中国增强AI能力:谷歌云在托管数据库中集成向量搜索持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集太湖美!太湖臭?桌面 QQ 重构,探寻跨平台开发挑战与 Electron 内存优化突破矢量数据库:企业数据与大语言模型的链接器父女情谊的复盘:聊聊电影“Aftersun““every day”还是“everyday”?差别很大!真能听懂人话!机器人ChatGPT来了,谷歌发布又一AI大模型黑科技吹尽黄沙不见金(四十六): 饥饿使人野蛮(一)「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了清华校友立功!谷歌发布首个全科医疗大模型,14项任务SOTA给AI生成图像「加水印」,谷歌发布识别工具SynthID比亚迪或搁置印度建厂计划,16家网约车平台被约谈,推特无法在苹果应用商店改名X,谷歌发布新AI机器人模型这就是今天的其他大新闻!阿里100瓶毒药解马斯克难题?国内首个大模型价值对齐数据集开源,15万评测题上线!1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强跨平台狂野赚钱,已有手游PC版月流水破1亿,速度进场啦!谷歌发布 GUAC 项目 0.1 版本:持续关注供应链安全问题最后机会|《数据/商业分析求职实战营》马上开课,三大跨行业名企实战项目,拓展视野,提升端到端项目完成能力!新奥能源连续两年获得MSCI ESG评级AA级;小米集团承诺2040年实现自身运营碳中和|绿研院日报LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集苹果手表兼容安卓计划搁浅;M3系列处理器跑分曝光;微信输入法支持跨平台粘贴代码效率翻倍,谷歌发布多平台应用开发神器!跨平台大势所趋:Google Play帮手游引流至PC版,支持120个国家敢不敢裸奔老妈的大爱!推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型谷歌发布 Hive-BigQuery 开源连接器你好,我是筚(bì)篥( lì)!阿里开源大模型治理数据集;华为推出AI存储新品;OpenAI被美国FTC调查丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。