RocketMQ 5.0: 存储计算分离新思路
痛点与困局
01
富客户端形态
富客户端跟云原生的技术栈不匹配,比如很难跟 Service Mesh 结合,也跟 Dapr 这类新兴的云原生应用框架不兼容(?),消费者物理资源耗费比较大,对 Serverless 弹性也不是很友好;
多语言客户端对齐困难,在云上对多语言的诉求是非常强烈的,但富客户端逻辑复杂,团队无充足的人力保障多语言客户端的质量,为此云上诞生了基于 GraalVM 和 HTTP 协议的多语言 SDK,但都有其局限性;
客户端不是完全无状态,存在内存状态,重启的时候会触发重平衡,导致消费抖动、延迟。这种重平衡的设计满足了性能上的需求,但对于敏感型业务,这些抖动可以说在过去几年贡献了很多的工单;
分区级别的消费粒度,客户端负载均衡的粒度在分区,一个分区无法同时被多个消费者消费,在慢消费者场景影响非常大,无法通过扩容分担慢消费者的压力。
02
计算存储一体化
计算:鉴权与签名、商业化计量、资源管理、客户端连接管理、消费者管控治理、客户端 RPC 处理、消息编解码处理等。
存储:基于分区的 WAL 存储,多类型索引(普通、定时、事务等),核心的收、发、查询能力,多副本复制能力等。
业务迭代效率低:发布单元为 Broker,即使调整了一行计量逻辑,需要全量发布数千台 Broker 节点才能全网生效,导致业务创新和迭代的速度慢。
稳定性风险高:计算存储一体,但大多数业务需求都是针对计算逻辑,存储节点相对稳定,频繁的低价值发布带来了稳定性风险和运维成本;每一次因计算逻辑的修改带来的发布将引起缓存重建、消费延迟、客户端异常感知等问题。
资源利用率低:Broker 是磁盘 IO 和内存密集型应用,对计算资源的消耗相对较低,但两者一体后扩缩容也是一体的,无法将计算和存储节点单独做 Serverless 弹性,整体 Broker 集群资源利用率偏低。
管控链路复杂:因为数据和状态完全分布式存储在 Broker 上,管控节点需要与每个 Broker 进行通信,比如一个查询操作需要命中多个 Broker 并将结果进行聚合等,导致管控链路的逻辑复杂。
03
客户端与Broker直连
Broker 对客户端不透明,客户端感知每个 Broker 节点,Broker 的运维动作在客户端往往有明显的感知;
Broker 直接对外提供服务,需要为每个 Broker 申请 VIP,包含 Classic VIP、VPC VIP 甚至公网 IP,线上运维了数千个 VIP。每个 Broker 数个 VIP,运维代价高的同时,很长一段时间 VIP 的手动申请阻碍了RocketMQ的自动化部署。
无法支持多接入点,Broker 通过 NameServer 暴露给用户,只能暴露一个接入点,用户一般只能在经典网络、VPC 网络以及公网接入点中三选一。
存算分离新思路
RocketMQ 在阿里集团已经充分验证了其架构优秀的特征,是否需要适配云的需求进行存算分离?由此带来的延迟、额外的成本是否能覆盖新架构带来的新价值?
阿里云上多款消息产品已经是存算分离的架构形态,比如消息队列 RabbitMQ、消息服务 MNS,新的架构怎么与这些产品架构进行融合?
「分」有两层解释,首先代表了模块和职责的分明,属于计算的逻辑应该封闭在计算模块,属于存储的逻辑应该下成到存储模块;第二层是计算和存储要支持分开部署,计算完全采用无状态的部署方式,存储是有状态的放式,来很好地解决在云上多租户场景面临的种种问题。
「合」的前提是从代码设计上要先分开,至于是分开部署还是合并部署完全是业务的选择,新的架构必须要支持合并的部署形态,满足吞吐型的业务场景。比如,阿里集团内部超大规模的消息流场景;又比如小规模单租户场景,不需要服务化的场景,合并部署可以快速将 RocketMQ 投产。
01
存储计算分离架构
多语言瘦客户端,基于 gRPC 协议重新打造的一批多语言客户端,采取 gRPC 的主要考虑其在云原生时代的标准性、兼容性以及多语言传输层代码的生成能力。
导航服务(Navigation Server),通过 LB Group 暴露给客户端,客户端通过导航服务获取数据面的接入点信息(Endpoint),随后通过计算集群 Proxy 的 LB Group 进行消息的收发。通过 EDS 来暴露 Proxy 的接入点信息与通过 DNS 解析的负载均衡进行路由相比而言,可以作出更智能与更精细的租户及流量控制、负载均衡决策等。
NameServer,RocketMQ 中原有的核心组件,主要提供用于存储的 Broker 集群发现(CDS)、存储单元Topic 的路由发现(RDS)等,为运维控制台组件、用户控制台组件、计算集群 Proxy 提供xDS服务。
Proxy,重新研发的无状态计算集群,数据流量的入口,提供鉴权与签名、商业化计量、资源管理、客户端连接管理、消费者管控治理、客户端RPC处理、消息编解码处理、流量控制、多协议支持等。
Broker,原 Broker 模块的存储部分独立为新的存储节点,专注提供极具竞争力的高性能、低延迟的存储服务,存储计算分离后也更易加速存储能力的创新。原 Broker 模块的计算部分逐渐上移到 Proxy集群当中。
LB Group,根据用户的需求提供 Classic VIP、VPC VIP、Internet VIP、Single Tunnel、PrivateLink 等多样化的接入能力。
关于延迟,存储和计算节点从本地方法调用转换为远程调用后,无可避免地增加了延迟,一般是毫秒级别,在阿里云上即使是跨 AZ 的网络通信,延迟一般在 2ms 以内,这种量级的延迟增加对大多数业务来讲是完全可以接受的。
关于成本,存算的分开,导致网络传输层面,序列化和反序列化层面不可避免需要更多的 CPU 资源。但另一方面,存储和计算一个属于磁盘 IO、内存密集型,一个是 CPU 密集型,拆开后可以更好地设计规格,更好地利用碎片化资源,更容易提高资源利用率,利用云的弹性能力,成本反而可以降低。
02
存储计算合并架构
在开源场景,开源用户更加期望 RocketMQ 是一款开箱即用、部署简单的消息中间件,存储计算分离架构会带来一定的复杂度,影响开源生态的建设。
在集团的场景,数千台物理机的规模,存储计算分离将带来额外的机器成本。
在专有云场景,很多专有云可能节点数量有限,更倾向于采用一体化的架构。
03
单一架构多产品形态
存储集群足够抽象,满足通用的消息存取需求。
计算集群多合一,足够的模块化,可插拔,满足多产品部署带来不同权限体系、不同协议、不同抽象模型等的需求。
总结
目前,阿里云消息队列 RocketMQ 实践存储计算彻底分离的架构还处于第一个过渡阶段,未来的路还很长,我们会投入至少 1 年的时间在公有云环境全面落地存储计算分离架构,让消息服务更弹性、更云原生,让团队提高效率,加速业务创新。我们期望新的架构能稳定服务于未来至少 5 年的业务增长,同时,存算可分可合的部署架构也能够非常好地支撑不同规模开源用户的个性化需求,让 Apache RocketMQ 开源社区能够整体收益于存算计算可分可合架构的新形态。
❖
微信扫码关注该文公众号作者