Redian新闻
>
Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

科技

作者 | Rafal Gancarz
译者 | 王强
策划 | 丁晓昀

Yelp 公司 采用 Apache Beam 和 Apache Flink 重新设计了原来的数据流架构。该公司使用 Apache 数据流项目创建了统一而灵活的解决方案,取代了将交易数据流式传输到其分析系统(如 Amazon Redshift 和内部数据湖)的一组分散的数据管道。

Yelp 在两套不同的在线系统中管理业务实体(其平台中的主要数据实体之一)的属性。平台的旧版部分将业务属性存储在 MySQL 数据库中,而采用微服务架构的较新部分则使用 Cassandra 存储数据。

在过去,该公司将数据从在线数据库流式传输到离线(分析)数据库的解决方案,是由上述管理业务属性的两个区域的一些独立数据管道组成的。该方案使用  MySQL 复制处理程序 从旧系统推送数据,使用  Cassandra 源连接器 从新系统推送数据。在这两种情况下,更新都发布到 Apache Kafka,而  Redshift 连接器负责将数据同步到相应的 Redshift 表。

之前的业务属性流式传输架构(来源:Yelp 工程博客)

原有解决方案采用单独的数据管道,将数据从在线数据库流式传输到分析数据存储中,其封装性较弱,因为离线(分析)数据存储中的数据表与在线数据库中的对应表完全对应,使数据分析团队面临数据差异和数据准确性问题。此外,分析过程必须从多个表中收集数据,并将这些数据规范化为一致的格式。最后,由于在线和离线数据存储之间的表架构相同,对架构的更改必须在两处各自部署,从而带来了维护挑战。

Yelp 团队决定解决原有方案的这些问题,方法是将在线系统的内部实施细节抽象出来,并为使用分析数据存储的客户提供一致的体验。Yelp 高级数据工程师 Hakampreet Singh Pandher 解释了团队采用的方法:[...]

我们实施了一个统一的流,以一致且用户友好的格式提供所有相关的业务属性数据。这种方法可确保业务属性消费者无需处理业务属性和功能之间的细微差别,也无需了解它们的在线源数据库中数据存储的复杂性。

团队利用 Apache Beam 和 Apache Flink 作为分布式处理后端。Apache Beam 转换作业从旧版 MySQL 和较新的 Cassandra 表中获取数据,将数据转换为一致的格式并将其发布到单个统一的流中。工程师使用  Joinery Flink 作业 将业务属性数据与相应的元数据合并。另一项作业用于解决数据不一致的问题,最后在 Redshift Connector 和 Data Lake Connector 的帮助下,业务属性数据进入两个主要的离线数据存储中。

业务属性的新流式架构(来源:Yelp 工程博客)

彻底改造流式架构的总体收益是让数据分析团队能够通过单一模式访问业务属性数据,这有助于数据发现,让数据消费更简单。该团队还利用 实体 - 属性 - 值(EAV)模型,将新业务属性纳入系统,同时减少维护开销。

原文链接:

Yelp Overhauls Its Streaming Architecture with Apache Beam and Apache Flink (https://www.infoq.com/news/2024/04/yelp-streaming-apache-beam-flink/)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

谷歌大裁员引发元老集体抗议:领导脑袋空空,无能的中层管理团队不断扩大

“真男人就应该用 C 编程”!用 1000 行 C 代码手搓了一个大模型,Mac 即可运行,特斯拉前 AI 总监爆火科普 LLM

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
真的要bye bye了!洛杉矶网红玻璃教堂于本周开始拆除天边:此人已经去世了,年仅58岁十年前的“马桶盖事件”,被这家中国企业彻底改写……大模型时代,架构师如何玩转“AI+架构”?| ArchSummit8点1氪:极越回应员工自称因买小米SU7被辞退;折叠屏iPhone新专利获批;马斯克称特斯拉每5年进行一次彻底改革【首发】层浪生物逆势融资近亿元,勇攀流式技术高峰The 75-Year-Old Mother Creating a Green Miracle in the Desert智算中心改造:网络成大模型训练瓶颈,节点内外多架构并存“Hopcopter ” 微型飞行器彻底改变了机器人技术多市中心公园即将被彻底改造!更换老旧设施增加更多景观开启自免&过敏检测新纪元,邦器生物推出全自动流式荧光发光免疫分析仪超重磅!央妈放水方式彻底改变!所有人都会受影响!口碑崩塌!深陷AEB召回泥潭,Mobileye急推EyeQ6L拯救市场央妈放水方式彻底改变春来这样学中国人永远学不会英语旧房改造见多了,那旧船改造你见过吗?十年内,AI可能彻底改变医疗领域?高至4.9分!Yelp最高分的二十家亚城pizza店你必须要知道!重磅官宣!新州教育系统将彻底改革!别慌,悉尼“学霸”天团来了!为你答疑解惑,助你圆梦英美名校!苹果有史以来最疯狂的发布会!发布颠覆性个人智能系统Apple Intelligence,并彻底改革Siri这8本搞钱书籍彻底改变了我的财富命运,推荐你假期一读再读!美股基本面 - 2024_03_03 * 晨报 * 日韩去年新生儿人口数不足百万,“少子化”困境缘何难破局?。医生在国会附近大美国要彻底改变计时芯片?“一夫一妻”还是乱交?这种细胞彻底改变了行为;这种抑制脂肪生成的新型细胞,为肥胖治疗带来新思路|本周论文推荐Can This Café Help People With Autism Find Acceptance in China?纪念彻底改变芯片设计的Lynn ConwayPerplexity将Yelp数据引入其聊天机器人The Artist Monkeying Around With China’s Monkey KingConfluent Cloud for Apache Flink正式发布,不久将增加AI特性带孩子从北京转学到美国,再从华人区转到白人区后,我的教育观念彻底改变了这件事,彻底改变了中国Chinese Parents Turn to ‘Magic Potions’ to Help Kids Run Faster唯公生物:自主研发三类淋巴细胞亚群检测试剂(流式细胞仪法)全新上市! 【动脉严选新品鉴第61期】不情愿的生日吻
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。