Grab 将 AWS 上 Kafka 消费者的流量成本降低为零

2023-08-04 06:08

作者 | Rafal Gancarz

译者 | 平川

策划 | 丁晓昀

Kafka 2.3 引入了将 Apache Kafka 消费者连接到相同可用区域（AZ）代理节点的能力，Grab 利用这一能力重新配置了消费者，将 AWS 上的流量成本降低为零。这一更改大大降低了在 AWS 上运行 Apache Kafka 的基础设施总成本。

Grab 以 Apache Kafka 为中心创建了一个流数据平台，支撑公司所有的产品。遵循 Kafka 最佳实践，他们的初始配置为每个 Kafka 分区三个副本，横跨 AWS 区域中三个不同的可用区。负责该平台的团队观察到，跨 AZ 流量占了他们 Kafka 平台一半的成本，因为 AWS 对跨 AZ 数据传输收费。

对于初始设置的成本，Fabrice Harbulot 和 Quang Minh Tran 的看法如下：

这种设计的问题在于，它会产生惊人的跨 AZ 网络流量。这是因为，在默认情况下，Kafka 客户端只与分区 leader 通信，而分区 leader 有 67% 的概率驻留在不同的 AZ 中。

跨 AZ 流量包括新发布的消息、代理之间的数据复制和消费者获取的消息。

默认消费者配置，消费者从分区 leader 获取数据（图片来源：Grab 工程博客）

从 Apache Kafka 2.3 开始，可以将消费者配置为从分区副本中获取数据了。这样，如果消费者只从同一 AZ 中的代理获取消息，就不会产生数据传输成本了。

这个特性要求 Kafka 代理和消费者都知道其所在的 AZ。对于 Kafka 代理，团队会使用 AZ ID（az1、az2、az3 等）配置 broker.rack 。AZ ID 与 AZ 名称（1a、1b、1c 等）不同，因为 AZ 名称在 AWS 账户间不一致。他们还将参数 replica.selector.class 的值设置为 org.apache.kafka.common.replica.RackAwareReplicaSelector。

在消费者端，团队更新了内部 Kafka SDK，基于 EC2 主机元数据用 AZ ID 配置 client.rack 参数，为的是应用程序团队可以通过导出环境变量来启用该功能。

自定义消费者配置，消费者从最近的副本获取数据（图片来源：Grab 工程博客）

在某些服务上应用新设置后，团队观察发现，跨 AZ 流量成本下降，并且有一些值得注意的副作用。首先，端到端延迟最多增加了 500 毫秒。考虑到大多数消费者从副本获取消息，这也是意料之中的。延迟增加是由复制时间导致的。理论上，任何对延迟敏感的数据流都应该始终从分区 leader 获取数据，即使那样会产生额外的成本。

其次，在代理维护（停机）时，直接从副本获取消息的消费者可能会遇到代理不可用的情况，因此，它们应该等待 / 重试，直到同一 AZ 中的代理恢复在线。最后，团队观察到，代理的负载与跨 AZ 的消费者数量有关。这意味着，消费者的均匀分布对于确保代理的负载平衡至关重要。

原文链接：

https://www.infoq.com/news/2023/07/grab-apache-kafka-aws-cost/

声明：本文为 InfoQ 翻译，未经许可禁止转载。

今日好文推荐

都在追“新潮”技术，但你有大厂们的动作快吗？

大模型竞争突然升级！亚马逊 CEO 亲自监督、组建新的核心技术团队，集中优势资源打造“最具野心”的大语言模型

一场 AI 引发的开源革命迫在眉睫？Hugging Face 更改文本推理软件许可证，不再“开源”

“Twitter如今就像疯人院！”睡地板仍被裁女高管爆料：马斯克带来“恐惧文化”，被裁是最大解脱

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章