Redian新闻
>
得物染色环境落地实践

得物染色环境落地实践

公众号新闻

1

背景

测试环境治理一直是各大公司非常重要的一个课题,测试环境稳定性很大程度影响迭代开发&测试效率。
综合来看,测试环境不稳定的原因主要有以下几点:
  1. 测试环境的变更非终态变更,经常会有代码发布/配置发布导致服务无法启动或者链路有问题的情况。
  2. 变更频繁,开发需要联调、测试需要迭代测试,代码需要变更,配置也需要变更,权限控制就比较难做,增加了测试环境不稳定性。
  3. 并行需求,同一时间单个应用需要多个分支同时支持多个需求的测试,测试环境资源的抢占和冲突比较明显。
得物测试环境稳定性治理也经历了几个阶段:
  • 2020~2021:多套物理环境隔离方案(基于ECS)

    T0、T1、T2三套测试环境,每套环境物理隔离无资源冲突和共享
    规划T1用于迭代测试、T0用于集成回归、T2用于独立项目分配使用,但在实际使用过程中,业务测试并行太多,冲突比较明显,环境就开始乱用了,谁有需求就随便占用一套环境使用了。结果就是没有一套稳定的环境,测试有效性无法保障,并行项目环境冲突也无法解决。
  • 2021~2022:MF全链路容器环境方案(基于容器)

    随着业务增长,3套测试环境已明显不能满足业务需求,因此去年得物基于容器快速搭建了10套MF环境用于支撑独立项目的测试。
    MF环境基于T0搭建,DB和T0共享其他所有资源均独立,目的是做到业务只需保障T0的稳定性,所有MF环境可快速基于T0同步最新服务和最新配置,做到环境随用随取,解决并行项目环境冲突问题。
    实际实施过程中,项目环境冲突的问题解决了,但是MF环境的稳定性问题依旧比较严重,维护成本巨大,主要原因集中在:
    T0环境稳定性,并非所有域都在T0集成回归,导致T0稳定性无法保障
    MF同步了T0之后会因为各种各样的原因需要二次调试验收(新增服务丢失、配置不全/错乱等)
    MF环境使用过程中,基础服务(sso、网关、中间件)等相关变更无法及时更新到MF环境,影响业务测试
    因此在2022年下半年,开始尝试用染色环境解决环境稳定性问题。
  • 2022年:染色环境方案(基于流量隔离)

    染色环境是基于流量隔离的方案,通过流量标透传的方式,把基准环境流量和染色环境流量隔离开,实现多环境的方案,支持并行测试互不影响
    相较于MF环境而言,不需要维护多套全链路环境,维护成本降低了。所有变更的服务都在染色环境部署的话,基准环境稳定性就会提升,相当于所有环境的稳定性都提升了。
    下面主要介绍得物染色环境是如何做的

2

染色环境方案

2.1 基本思路

如下图所示,最初的设想是:
  1. 服务可以按照流量标把流量路由到相应染色服务上
  2. 如果染色标对应染色环境没有此服务,则流量会走到基准环境
  3. 如果染色环境服务添加了,没有部署,或者部署了服务进程挂了,则流量会报错而并非走到基准环境(避免一些服务异常问题没有暴露)
  4. DB、MQ、Redis等中间件期望用同一套,避免浪费
基于此设想,需要从哪些地方入手去改造以支持染色环境呢?可以从设想拆解去解决:
  1. 流量标如何透传?
  2. 流量路由如何路由到染色节点?
    1. rpc接口如何路由到染色节点?
    2. MQ消息如何让染色环境consumer消费?
  3. 解决完流量标透传问题,以及染色路由问题后,需要考虑流量发起方如何把染色标带上?

2.2 实现方案

以下方案只做流量隔离,DB数据层不做隔离

  1. 流量标如何透传?

首先流量标在流量入口层会放到http header里面的x-infr-flowtype字段:
x-infr-flowtype:<CE_ColoringEnv> ##CE_是固定前缀,为了和压测标做区分

从流量到网关后,服务链路上面流量标往下透传的方式是通过OpenTracing规范中的baggage能力,从header里面获取染色标,并塞到trace里面向下透传。

这样整个链路里面就都能拿到染色标了

  1. 流量路由如何路由到染色节点?

这里分两块考虑:
(1)rpc调用,拿到染色标之后,如何找到染色节点?这里要解决的是怎么识别染色节点
(2)MQ消息,producer如何发送带染色标的消息,consumer如何处理带染色标的消息
  • 服务注册--识别染色节点

    • 首先染色环境创建的时候,会定义好染色标:

    • 在此染色环境添加服务部署的时候,默认会把染色标注入到环境变量COLORING_ENV
      容器发布配置页面会自动增加COLORING_ENV变量

    • 至此,服务启动时已可以读到COLORING_ENV环境标变量了,下一步就看注册中心怎么去区分染色节点了.
首先服务在添加到染色环境的时候,服务会在注册中心染色场增加一个节点,标明该服务在此染色环境是有服务节点存在的。
染色场主要解决的问题是:如果染色节点挂了,染色环境流量应该判断该染色环境是否应该有染色节点有的话就报错没有的话才会走到基准环境。避免测试问题未暴露。
染色场:CE_<ServiceName>

染色场服务节点:<COLORING_ENV>:80

其次在服务注册时候,服务节点信息和方法注册会携带染色标<coloring_env>:

至此,注册中心就可以基于染色标识别染色节点,业务服务(基于fusion框架)可以根据Trace中的染色标结合注册中心染色节点做染色流量路由。

  • MQ改造--识别和处理MQ消息

MQ主要解决的是,染色环境的消息生产者producer发送的消息,只被染色环境的消费者消费,染色环境如果没有消费节点,则由基准环境消费者消费。
这里之前讨论了两种做法:
第一种是基于Topic隔离的方案,每套染色环境使用不同的topic进行通信,这样隔离性比较好,消息不容易串掉。
第二种是Topic不隔离,所有染色环境共用一个topic,生产者Producer在生产消息时候把染色标带上,consumer每套染色环境有一个,consumer在做消费时候会判断消息里面的染色标和本地染色标是否一致,如果一致则消费,如果不一致则直接返回ACK不走具体消费逻辑。
目前选择的是第二种方案,下面基于第二种方案做详细介绍:
基本流程
如图所示:
  1. ServiceB_Color1会自动注册GID_Color1_Topic消费组,监听Topic_A。Color2和Color3环境一样。
  2. 带Color1的消息由ServiceA_Color1生产,ServiceB_Color1消费。
  3. Color2的消息由ServiceA_Color2生产ServiceB消费,因为ServiceB在Color2染色环境没有节点
  4. 带Color3的消息由于染色环境Color3没有ServiceA_Color3节点,则带Color3的流量会打到基准环境ServiceA,此时ServiceA会生产带Color3的消息,此消息由ServiceB_Color3消费
配合业务说明:
染色环境在启动时候,带染色标的GID会自动创建,eg:原GID是GID_AAA,染色自动创建的GID为GID_<coloring_env>_AAA

下面看消息的内容和处理逻辑:

如上图:染色消息属性里面会增加DMQ_ENV_TAG字段,添加染色标,然后对应染色环境订阅组才会消费。

看上面这张图,会发现“貌似”所有染色环境都消费了,其实是其他环境直接返回了ACK未走具体的消费逻辑,具体可以看日志。

代码说明:基于Message里面染色标msgTag本地服务染色标envTag进行判断做消费逻辑区分。

  1. 染色流量入口携带染色标

解决完染色标透传,以及染色标逻辑处理后,剩下就是如何在流量发起方把染色标给带上了,其实就是把染色标塞到header里面的x-infr-flowtype字段
其中染色环境列表的获取由发布平台提供接口给到各流量入口方去选择。
目前业务推广过程中,主要遇到的入口方大致有以下几种:

入口流量携带染色标相对逻辑比较简单,这里就不做详细技术介绍,只做使用层面介绍

流量入口方

染色标传递

备注

App端

从发布平台获取染色标列表,选择染色环境后,所有请求在Header里面添加x-infr-flowtype字段向下透传染色标

Web端

点击ENV弹窗选择染色标

同上

飞书回调

  1. 回调URL参数增加x-infr-flowtype=<染色标>字段


Job场景

目前是半自动方案:

  1. 染色环境&基准环境注册到同一个Job

  2. 默认job会随机选一个节点执行

  3. 如果需要指定到染色节点执行,用户可手动在job编辑界面添加染色标

目前不考虑数据隔离场景

Canal订阅

目前是半自动方案:

  1. 染色节点和基准节点Consumer订阅同一个topic

  2. 默认MQ消息不会带染色标,则只会有基准环境消费

  3. 如果需要指定染色环境消费,用户可以手动在job编辑界面添加染色标

目前不考虑数据隔离场景

至此整个业务改造基本完成,从染色流量如何构造、流量标如何透传、染色节点如何识别以及识别后重点染色逻辑如何处理等一整套流程就清晰了。

3

业务应用效果

3.1 实施路径

染色项目整个实施路径包含几个阶段:
  1. 项目立项&中间件改造(4月-6月)
    1. 包含基架改造(统一框架、网关、注册中心、配置中心、超时中心、DMQ等)&客户端改造&发布平台改造等等,以及改造完成后基础链路验证
  2. 线上灰度&全链路服务适配(7月~8月)
    1. 7月初:5个交易&中间件相关服务升级相关jar包带上线进行验证,保证不会对染色改造不会对生产有影响。
    2. 8月份:开始推进全域应用进行染色相关jar包升级
  3. 独立项目使用(9月)
    1. 9月底之前,已经有若干独立项目应用染色环境测试验证完成
  4. 业务迭代使用(10月~11月)
    1. 10月份开始尝试推进全业务进行染色环境试用排错
    2. 试用结束,逐步推进迭代使用染色环境

3.2 业务使用效果

独立项目:目前全域的独立项目已全量切换至染色环境测试。
版本迭代:就最新的版本迭代使用结果来看,全域95%以上的需求都可以使用染色环境测试。
剩余5%的需求场景主要是涉及以下两个方面:
  1. 数据隔离:目前已有方案在支持,会涉及少量需求支撑。
  2. 前端染色:目前染色环境主要解决了后端染色的需求,部分场景需求依赖前端染色(多前端支持),方案也基本落地,会配合后端染色一起应用。

4

总结

染色环境现阶段解决了测试环境冲突和测试环境稳定性的问题,并且相较之前多套独立环境的方案,在成本上也有比较大的节省。后续得物也会尝试用染色的能力解决生产灰度发布问题,相信也会有不错的效果。

*文/大地


END



《2022 年度 OSC 中国开源项目评选》正式启动





这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
科技周报:天猫称双十一成交额与去年持平;得物回应被指调手机权限删视频;推特8美元付费服务被紧急叫停【绿色金融】小型绿色环保企业景气度显著提升—兴业绿色景气指数(GPI)报告(2023年2月)14天搞定MTT增殖、TUNEL染色、细胞衰老实验等30多个实验protocol,大写的服!小米11/Pro系列延长保修,得物再回应删除照片,LOL手游移除所有人聊天,英伟达确认4090烧毁问题,这就是今天的其它大新闻!得物回应被指调手机权限删视频三维声技术在赛事直播中的应用,TWS耳机中音频技术落地实践,通话降噪算法落地应用及挑战得物商家客服桌面端Electron技术实践突发!中国旅客入境落地检呈阳性,拒绝隔离半途潜逃,警方正全国通缉...基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说免疫组化化学染色实验成功的秘诀,大师兄直接拿它发了6分SCI!突发!美国等多国对中国旅客「入境落地核酸检测」阳性隔离7天!一夜回到解放前vivo 云原生容器探索和落地实践 | Q推荐得物删用户手机内视频?回应来了WB、RNA抽提 、transwell 实验、PI染色等40+个实验,巨详细!(含试剂推荐)加拿大投资900万扩建密西沙加航空航天制造厂:绿色环保+更多就业机会!绝了!CCK-8/PI染色/transwell等细胞表型检测套路,全部整理好了......(速领)缺失Y染色体,也能发育成雄性;逼近“宇宙最冷”,中国空间站超冷柜完成首次自检|环球科学要闻压倒房市的最后一根稻草?原来是这么回事。。。。失控狂奔致2死3伤,特斯拉回应:司机全程未踩刹车;华为拦截得物App删除用户反馈问题商品视频;QQ内测支持微信登录功能丨雷峰早报得物热点探测技术架构设计与实践得物回应远程删除用户手机视频,是侵犯隐私还是系统误报?手机提示得物删除视频?得物最新回应得物极光蓝纸箱尺寸设计实践Coles超市的买赠活动:购买1KG MILO 听装巧克力粉,赠送旅行马克杯!绿色环保保温杯,挺可爱的法国巴黎,卢浮宫油画珍品8点1氪:​苹果混合现实头显或明年发布;亚马逊或于本周裁员1万人;得物再回应华为手机提示得物删除照片投诉问题却被曝APP入侵相册删证据,有过类似争议的不止得物一个除了感恩父母良师益友,别忘了感“恩”将你当假想敌的人App调用手机权限删除用户视频?得物再回应:删除的是缓存文件年薪32-48万, 得物App欧洲市场BD得物回应App删除照片:无不合规行为“孩子染色体一共有18种可能,其中只有1种完全正常”深港通关非一蹴而就,港方如何“有序、安全、稳妥”落地实施?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。