Redian新闻
>
Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

Yelp 使用 Apache Beam 和 Apache Flink 彻底改造其流式架构

科技

作者 | Rafal Gancarz
译者 | 王强
策划 | 丁晓昀

Yelp 公司 采用 Apache Beam 和 Apache Flink 重新设计了原来的数据流架构。该公司使用 Apache 数据流项目创建了统一而灵活的解决方案,取代了将交易数据流式传输到其分析系统(如 Amazon Redshift 和内部数据湖)的一组分散的数据管道。

Yelp 在两套不同的在线系统中管理业务实体(其平台中的主要数据实体之一)的属性。平台的旧版部分将业务属性存储在 MySQL 数据库中,而采用微服务架构的较新部分则使用 Cassandra 存储数据。

在过去,该公司将数据从在线数据库流式传输到离线(分析)数据库的解决方案,是由上述管理业务属性的两个区域的一些独立数据管道组成的。该方案使用  MySQL 复制处理程序 从旧系统推送数据,使用  Cassandra 源连接器 从新系统推送数据。在这两种情况下,更新都发布到 Apache Kafka,而  Redshift 连接器负责将数据同步到相应的 Redshift 表。

之前的业务属性流式传输架构(来源:Yelp 工程博客)

原有解决方案采用单独的数据管道,将数据从在线数据库流式传输到分析数据存储中,其封装性较弱,因为离线(分析)数据存储中的数据表与在线数据库中的对应表完全对应,使数据分析团队面临数据差异和数据准确性问题。此外,分析过程必须从多个表中收集数据,并将这些数据规范化为一致的格式。最后,由于在线和离线数据存储之间的表架构相同,对架构的更改必须在两处各自部署,从而带来了维护挑战。

Yelp 团队决定解决原有方案的这些问题,方法是将在线系统的内部实施细节抽象出来,并为使用分析数据存储的客户提供一致的体验。Yelp 高级数据工程师 Hakampreet Singh Pandher 解释了团队采用的方法:[...]

我们实施了一个统一的流,以一致且用户友好的格式提供所有相关的业务属性数据。这种方法可确保业务属性消费者无需处理业务属性和功能之间的细微差别,也无需了解它们的在线源数据库中数据存储的复杂性。

团队利用 Apache Beam 和 Apache Flink 作为分布式处理后端。Apache Beam 转换作业从旧版 MySQL 和较新的 Cassandra 表中获取数据,将数据转换为一致的格式并将其发布到单个统一的流中。工程师使用  Joinery Flink 作业 将业务属性数据与相应的元数据合并。另一项作业用于解决数据不一致的问题,最后在 Redshift Connector 和 Data Lake Connector 的帮助下,业务属性数据进入两个主要的离线数据存储中。

业务属性的新流式架构(来源:Yelp 工程博客)

彻底改造流式架构的总体收益是让数据分析团队能够通过单一模式访问业务属性数据,这有助于数据发现,让数据消费更简单。该团队还利用 实体 - 属性 - 值(EAV)模型,将新业务属性纳入系统,同时减少维护开销。

原文链接:

Yelp Overhauls Its Streaming Architecture with Apache Beam and Apache Flink (https://www.infoq.com/news/2024/04/yelp-streaming-apache-beam-flink/)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

谷歌大裁员引发元老集体抗议:领导脑袋空空,无能的中层管理团队不断扩大

“真男人就应该用 C 编程”!用 1000 行 C 代码手搓了一个大模型,Mac 即可运行,特斯拉前 AI 总监爆火科普 LLM

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅官宣!新州教育系统将彻底改革!别慌,悉尼“学霸”天团来了!为你答疑解惑,助你圆梦英美名校!美股基本面 - 2024_03_03 * 晨报 * 日韩去年新生儿人口数不足百万,“少子化”困境缘何难破局?。医生在国会附近大美国要彻底改变计时芯片?这样学中国人永远学不会英语Chinese Parents Turn to ‘Magic Potions’ to Help Kids Run FasterConfluent Cloud for Apache Flink正式发布,不久将增加AI特性干掉MLP!KAN:全新神经网络架构爆火!网友:发论文"新坑"来了这8本搞钱书籍彻底改变了我的财富命运,推荐你假期一读再读!Perplexity将Yelp数据引入其聊天机器人口碑崩塌!深陷AEB召回泥潭,Mobileye急推EyeQ6L拯救市场2024最流行的网站架构——边缘平台架构:概念与产品不情愿的生日吻春来十年内,AI可能彻底改变医疗领域?2024年App出海去哪好?AppsFlyer最新报告解码全球移动广告趋势你们买菜不看flyer的吗?各大超市特价:沃尔玛的芒果,Freshco的玉米....真的要bye bye了!洛杉矶网红玻璃教堂于本周开始拆除唯公生物:自主研发三类淋巴细胞亚群检测试剂(流式细胞仪法)全新上市! 【动脉严选新品鉴第61期】蜂窝架构:一种云端高可用性架构央妈放水方式彻底改变“Hopcopter ” 微型飞行器彻底改变了机器人技术【首发】层浪生物逆势融资近亿元,勇攀流式技术高峰8点1氪:极越回应员工自称因买小米SU7被辞退;折叠屏iPhone新专利获批;马斯克称特斯拉每5年进行一次彻底改革智算中心改造:网络成大模型训练瓶颈,节点内外多架构并存Can This Café Help People With Autism Find Acceptance in China?The interestingness of AI in the eye of a beholder敏捷架构、精益架构,还是两者兼而有之?大模型时代,架构师如何玩转“AI+架构”?| ArchSummitMLP一夜被干掉,全新神经网络架构KAN破纪录!MIT华人一作,轻松复现Nature封面AI数学研究这件事,彻底改变了中国天边:此人已经去世了,年仅58岁高至4.9分!Yelp最高分的二十家亚城pizza店你必须要知道!外企春招丨HENKEL汉高2024届春招进行中!23届可投,德国外企,含非技术岗,灵活办公,留学生快冲开启自免&过敏检测新纪元,邦器生物推出全自动流式荧光发光免疫分析仪超重磅!央妈放水方式彻底改变!所有人都会受影响!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。