超大型金融机构国产数据库全面迁移成功实践 | Q推荐
作者 | 刘伟光 阿里巴巴集团副总裁、阿里云智能新金融 & 互联网事业部总经理
编者按:
在国家层面提出加快建设科技强国,实现高水平科技自立自强的大背景之下,数字技术的自主研发与创新应用愈发重要。然而,由于金融机构对业务连续性和数据准确性的严苛要求,传统头部金融机构始终没能有一家完成国产数据库全面迁移。
近日,阿里巴巴集团副总裁、阿里云智能新金融 & 互联网事业部总经理刘伟光与 InfoQ 分享,他们深度合作的一家某超大型保险(集团)公司,深入推进数字化转型,紧随先锋技术发展趋势,前瞻性布局启动 IT 架构分布式改造转型,并于 21 年 9 月圆满实现了最后一个规模高达 23TB 核心数据库的全面迁移改造工作,也为后续向云原生多活架构演进打下了坚实的基础 。
在刘伟光看来,该数据库国产迁移项目成功上线,树立了金融行业践行科技强国的标杆实践,也是对国家科技自立自强战略以及国产技术的履责担当;更推动了整个国内数据库管理与应用体系科技生态建设和科技产业链的快速成熟。
那么,这家超大型保险(集团)公司,究竟是怎样一步步完成国产数据库全面迁移工作的?本篇干货长文整理自刘伟光的分享,以飨读者。
刘伟光 阿里巴巴集团副总裁 阿里云新金融 & 互联网行业事业部总经理
在金融保险行业,短时业务并发压力虽没有互联网企业那么大,但是在业务复杂性和对数据库专有特性的依赖程度上,都要远大于互联网企业。保险业务的处理更为复杂,单一业务要多个系统完成,调用链比银行和互联网业务更长、更复杂,确保复杂集合大交易量的稳定是保险业务数据库国产的挑战。
这家保险公司成功实施国产数据库全面迁移,并取得了五个突破:
突破一:更短的迁移时间。在传统金融机构从未实现过如此大规模的核心系统全量迁移的情况下,该公司从 2020 年 9 月到 2021 年 9 月,仅用时一年就完成迁移。
突破二:更大的迁移规模。该公司在一年内完成了包括传统核心、互联网核心、个险销售、团险销售、经营管理、客服管理、大数据在内的近百个业务系统近 700 套在线 Oracle 数据库的全量搬迁工作,迁移数据规模超 400TB、数据量超千亿,单库数据规模超 20TB。
突破三:迁移全程同时保障了业务连续性和数据准确性。该公司在整个迁移过程无一例回切,上线至今一年内,系统稳定运行, 且历经 2021 年完整周期的金融保险行业“业务大考”——承受住了开门红高峰 TPS 5 万 +、QPS 21 万 +,以及包括精算在内的所有业务环节的严苛考验,不仅完全满足公司生产需要,还实现国产数据库从“可用”到“好用”的跨越。
突破四:迁移后实现技术 100% 自主创新。该公司基于完全自研创新的国产数据库,迁移过程中版本升级持续发版共计 50 余次,最长需求解决时间 2 个月(Pro*c+Tuxedo)。并通过系统培训与交流实现累计超过 500 位员工的数据库专业考试认证,实现了数据库的全面自主掌控能力。
突破五:迁移后新一代技术成为关键生产力。迁移后,该公司的存储成本显著下降,设备节省投入 1.7 亿元;性能也大幅度提升,TPS:5.8 万笔 / 秒,QPS:21 万笔 / 秒,1:3 的存储压缩比。数据库由主备模式发展为支持两地三中心 多活部署,生产事件处理时长从小时级缩短到分钟级。
当我们回顾这一段历程,过程虽然艰辛,但积累了宝贵的大型金融机构国产数据库迁移实践经验。下文将详细介绍迁移的全过程,希望对“在路上”的企业有所参考。
数据库是企业 IT 基础设施中皇冠上的明珠,存储企业运行核心数据资产,向上支撑应用,向下屏蔽底层基础设施,在金融行业“稳定压倒一切”的大前提下,数据库的选型更为慎重,根据信通院《数据库发展研究报告(2021 年)》 的描述,截至 2021 年 6 月底,国产关系型数据库厂商就高达 81 家。面对如此纷繁复杂的产品,如何选择合适的数据库是摆在该保险公司面前的首要问题。虽然数据库产品众多,经过审慎的评估后,该公司最终选择了 OceanBase、PolarDB 等三款产品作为先期试点验证,主要选型考量点如下:
是否能满足业务的平滑迁移和未来架构的演进要求;
是否具备分层解耦能力,重点关注能否解除数据库与底层硬件、操作系统、中间件之间的耦合;
是否有足够的人才储备、资金投入,能否商业兜底产品的长期演进;
是否有广泛的行业实践案例;
是否能做到完全自主研发;
是否能兼容原有开发运维体系,自有技术人员能否快速掌握。
确定数据库选型标准后,前期准备工作的进度表走到了下一环节——基础设施准备。
该公司核心业务系统原先共计使用超过 60 台 IBM 和 HP 高端小型机,超过 70 台高端存储(EMC、HDS),传统集中式架构耦合性强,难以实现规模和性能的线性扩展。本次国产数据库采用机架式服务器和本地存储全面替代进口小型机及传统 SAN 存储架构,以满足核心系统全量迁移的云原生分布式架构改造。同时,为了避免基础设施变动过大导致业务系统不稳定,采用 Intel+ 海光 + 鲲鹏服务器混合部署的架构。前期仍以 Intel X86 为主,逐步过度到海光、鲲鹏芯片国产服务器。实现在线调整不同型号机器,解除了基础设施供应依赖。
2020 年 9 月,该公司正式启动国产数据库迁移项目之后,从硬件环境的型号选择,到选出目标系统,进行容量规划。不到两个月的时间内,该公司从 0 开始完成了国产数据库的硬件和操作系统适配、以及整个服务器集群的搭建工作。
基础设施准备工作落地后,该公司开始指定迁移策略。
从需求出发,基于该保险公司的业务经过多年的发展,业务范围覆盖全国,特色鲜明、种类繁多,业务关联关系错综繁杂,想要进行核心数据库的迁移,首先需要进行广泛的调研和充分的科学论证——既要求数据库产品比照原有生产数据库的高性能和安全可靠,也需要快速实现多套系统的平滑迁移,同时解决资源弹性和数据库横向扩展的能力。
面对这样的需求,该公司先后建立了数据库迁移实施的统一规范和标准 -- 总体遵循“评估 - 实现 - 控制 - 分析改进”的科学方法论,开展有序迁移,并定下三大迁移策略:
先平迁再做业务和架构改造升级,避免多个变量同时发生,影响业务的连续性。由于原有数据模型不做改造,所以主体改造工作由新数据库来承担。
迁移批次遵循“以业务系统为粒度,从低负载到高负载,从外围到核心”的原则。
所有数据库迁移不影响正常业务开展。用 1 年时间完成所有业务系统的数据库全量迁移改造,所有系统数据库迁移动作时间窗口只给周六、周日凌晨 0 点到早上 6 点,周末小流量验证,周一重点保障,不影响正常业务开展。
在完成了所有前期准备工作之后,该公司着手选定数据库系统进行迁移工作。
该保险公司核心系统涉及众多,大体可以分为:互联网核心业务系统和传统核心业务系统,中间通过类似 ESB 的总线机制实现异步解耦。
核心系统分类
早在 2016 年,这家保险公司的互联网核心和传统新核心应用就开始从传统单体架构向分布式微服务架构改造。至 2020 年,也就是开始迁移的时间点,互联网核心业务系统已经拆分成了 40 多个微服务模块并完成 Mesh 化接入。
该公司互联网核心业务系统的特点是:
数据库系统已实现全国物理集中、逻辑集中,数据库对接的关联系统较多;
虽然做了微服务拆分,但是数据库仍有一定量的存储过程,另外触发器、自定义类型、函数、外键、分区表等高级功能均有使用;
该公司因为业务特点,需要服务好 100 多万代理人,对数据库资源弹性和性能要求更高。
因此,进行互联网核心业务系统的数据库迁移面临的主要技术挑战是:
全国集中式部署下单点故障会影响到全国;
主数据系统作为核心业务链路中的整个保险开户入口,内部对接 43 个关联系统,数据规模超 20TB,最大单表超 50 亿条数据,每天接口调用量超 2000 万次,是该公司单体数据库日均请求量最大的系统,因为关联系统多,且处在业务链路的核心位置,因此对数据库 SQL 的效率要求非常高,要求迁移过程不能影响原有生产系统;
迁移到新的数据库平台要具备实时同步到 Kafka 的能力,并兼容原有格式,供下游大数据系统消费。
原有大数据消费链路
整体选型
针对以上技术挑战,该公司选择了和原有 Oracle RAC 架构更接近的 PolarDB 作为互联网核心数据库的替换。PolarDB 作为新一代云原生数据库主要特点如下:
计算与存储分离,使用共享分布式存储,满足业务弹性扩展的需求。极大降低用户的存储成本;
读写分离,一写多读,PolarDB 引擎采用多节点集群的架构,集群中有一个主节点(可读可写)和至少一个只读节点(最大支持 15 个只读节点)。写操作发送到主节点,读操作均衡地分发到多个只读节点,实现自动的读写分离;
基于 K8S 形态部署,提供分钟级的配置升降级,秒级的故障恢复,全局数据一致性和完整的数据备份容灾服务;
集中式架构,不需要进行分布式架构相关考虑设计,和原有使用习惯保持一致,性能不低于原有 Oracle 数据库;
高度兼容 Oracle,应用基本上不需要做 SQL 语法调整。
迁移方法
为了避免对原有生产业务造成影响且保证迁移数据的严格一致性,该公司采用了 DTS 全量 + 增量的方式,对于数据规模超大的 Oracle 集群,如客户主数据系统,提前 2 周启动数据迁移链路,在全量数据迁移之前 DTS 会启动增量数据拉取模块,增量数据拉取模块会拉取源实例的增量更新数据,并解析、封装、存储在本地存储中。
当全量数据迁移完成后,DTS 会启动增量日志回放模块,增量日志回放模块会从增量日志读取模块中获取增量数据,经过反解析、过滤、封装后迁移到目标实例,通过目标端主键保证数据的唯一性。
应用切换成功后,从应用接口的响应速度上看,性能比 Oracle 提升约 30%。到 2020 年底,该公司和阿里云数据库团队携手完成了互联网核心业务系统所有模块的迁移,包括服务超百万代理人的出单系统 APP,和注册用户超 1 亿的寿险 APP、客户主数据等在内的共计 47 个业务系统。
互联网核心整体迁移技术方案
为了减少迁移过程中对下游大数据消费造成影响,该公司到大数据的同步链路改造采用了 2 步走的策略,
大数据同步链路改造方案
增加 PolarDB 到 Oracle 的反向实时同步,原有 Oracle 到 Kafka 同步链路不变,避免数据库切换带来太大的变动 ;
参考 SharePlex 的格式对 DTS 进行定制化开发改造,待验证充分后,直接替换掉 SharePlex 原有同步链路。
主要挑战
迁移完成后,PolarDB 作为互联网核心业务系统的数据库,需要稳定支撑起该公司在 2021 年一季度的业务冲刺。最前端的出单系统,是整个业务冲刺过程中性能压力的集中点。并且,由于做了微服务化改造拆成了 36 个模块,分散在了多个数据库中,任何一个数据库都可能存在被打爆的风险。在迁移到 PolarDB 之前,该公司的做法是拆在多个 Oracle RAC 集群中,依靠内部开发的数据库监控完成多个 Oracle 集群的监控,迁到 PolarDB 之后,预计整体架构将更适应业务弹性的以下挑战:
统一管控:通过 PolarStack 将多台机器组成的集群进行统一管控,提供 DBaaS 服务;
资源弹性:实例由原来的物理机部署,变为 K8S Pod 部署,更为灵活和弹性;
读写分离:通过智能代理服务实现自动的读写分离,实现分钟级扩容,故障场景下自动切换,应用不需要做任何调整。
PolarDB 技术架构
业务冲刺当天,互联网核心业务系统经过了三个性能压力高高峰时间点:12:00、17:00、21:00。这三个时间点的每小时出单量和全天出单量进入了历史的前三位,高峰期出单笔数达到 9000 笔 /s。
迁移历程
2020 年 9 月,该公司互联网核心业务系统的首批应用模块迁移到 PolarDB,整个适配过程不到一个月。此后,互联网核心各个模块就开始了大规模的迁移。
2020 年 11 月,PolarDB 完成了最大的单库客户主数据迁移。
2021 年 1 月底,PolarDB 作为互联网核心出单系统的数据库,稳定支撑起该保险公司 2021 年一季度业务冲刺。
该大型保险公司的传统核心系统历史悠久,既有 1998 年之前建成的,也有 2004 到 2008 年间建成的,时间跨度长,数据量异常庞大,单个数据库的数据规模甚至超过 20TB。更具挑战的是,很多老核心按省市做了拆分,要分省市分别进行迁移,单一老核心系统需要迁移的数据库可能就要多达 36 个。
通过详细地梳理,该公司将传统核心业务系统归纳为三类系统:
第一类:2016、2017 年基于 Java 技术栈开发的新核心系统,大概有 13 个。
第二类:分别在 1998 年之前,2004 到 2008 年间建成的老核心系统,大概有 6 个。
第三类:一些可能要下线的,不在此次数据库迁移范围内的系统。
彼时,这些传统核心业务系统的数据库当时面临的主要技术挑战是:
系统关联关系庞杂,既有保单平台管理系统也有资金类系统,系统间关系难以梳理;
既有物理和逻辑集中的新核心,也有物理集中,逻辑分离的老核心,其中老核心分省部署,每个省都会有一套数据库,迁移工作量巨大;
对 Oracle 专有特性依赖较多,大量使用存储过程、触发器、自定义类型、函数、外键等。更为挑战的是,老核心大量使用 Pro*C(SQL 嵌入式 C 程序)和 Tuxedo(Oracle 中间件做分布式事务处理)做保单过程处理,仅仅该公司某年金系统涉及到的 Pro*C 程序就有 1500 多个,约 140 万行代码,业务短时间难以改造;
单库体量非常大,超过 10TB 的就有 6 个,最大单库规模有 23TB,停机窗口短暂;
交易量大,每天数据库调用几十亿次,还有大量复杂集合类精算和结算类交易。
选型方案
针对以上技术挑战,该公司选择了分布式数据库 OcenaBase 作为传统核心的替换。OceanBase 数据库主要特点如下:
采用基于无共享(Shared-Nothing)的多副本架构,整个系统没有任何单点故障,保证系统的持续可用;
基于 LSM 存储引擎技术,结合新硬件的能力,采用可扩展的分布式架构,提供高性能和扩展性;
数据库针对 Oracle、MySQL 等应用最为广泛的数据库生态都给予了非常高的应用兼容性支持;
虽然为分布式架构,一般也不需要应用层做相应的重新设计如指定分布键等,与原有 Oracle 使用习惯基本一致;
OceanBase 数据库完全自主研发,不依赖外部开源代码,真正做到自主研发。
迁移方法
该公司针对传统核心复杂的数据库情况进行全面验证,最终形成了 140 页的迁移操作手册和详细的割接行事历,为后续系统的迁移和大面积推广积累了宝贵的经验,并形成了标准的迁移割接方案。整体迁移方法过程如下,从“基础环境准备 -- 迁移过程演练 -- 正式割接 -- 监控运维”等四大环节进行逐项拆解,落实到人,精确到分。
数据库整体迁移割接流程
对于规模较大 Oracle 数据库的迁移,我们总结了如下四点帮助提升迁移效率:
冷热数据分离
一般的业务库数据中,数据具有自己的生命周期,数据的高频访问具有冷热特点。比如,流水表历史数据,日志表历史数据除了在审计回查场景之外,访问很少甚至不访问,但是通常这部分数据都会比较大,数据迁移的开销会比较高,造成数据迁移时间的延长。针对该部分数据,我们可以预先对这部分数据进行归档备份,然后采用静态迁移或者利用 OMS 工具全量迁移单独迁移。
LOB 类型数据
Oracle 数据表行 LOB 类型空间占用较大,每一批次的数据拉取大小会在原始行的基础上有显著增加。相比无 LOB 数据类型,对 OMS 端内存需求有数倍的需求,因此,优化的策略是单独对 LOB 类型的表建立新的链路,采用较小的并发,防范 JVM OOM 的风险,同时,为了提高整体迁移的速度,进行多链路并行迁移。
无 LOB 类型数据
相对于 LOB 类型数据,无 LOB 数据类型的表的迁移,单位迁移批次的大小较小且稳定,内存需求可控,并发度可适度加大,提高迁移速度。所以,对该部分数据可使用较高的并发度单链路或多链路迁移。
多个大库迁移链路通过不同 OMS 并发迁移
单台 OMS 可以支持多个迁移任务,但是共享数据网络出口。鉴于大库数据的持续拉取,可以将大库的迁移分散至不同 OMS 节点,减少大数据网络流量的争用。
主要挑战
在整个迁移过程面临的挑战中,我们认为最难的是针对 Pro*C 的适配。PRO*C 是 Oracle 提供的应用程序专用开发工具,应用 C 语言编写程序,在程序源代码中可以直接嵌入 SQL 语句,执行数据库操作。Pro*C 既兼容了传统 C 语言的开发模式,又提供了强大的数据库操控能力,所以在保险行业和其他行业也有不小的用户基础。而 Tuxedo(Transactions for Unix, Extended for Distributed Operations) 作为是最早的分布式事务产品,是 AT&T 在 20 世纪 80 年代推出的。传统老核心业务中,大量使用 Tuxedo 调用相关的 Pro*C 程序来做保单业务流程处理来保证跨库事务的一致性。
为了根本上解决该问题,实现应用的平滑迁移,阿里成立项目攻坚团队,计划用 1 个月时间,从头开发 Pro*C 兼容预编译程序和运行时库。2020 年国庆节前,攻坚团队的预编译程序成功编译了某年金业务的全部 1000 多个 Pro*C 程序,并正确跑通了两个典型批处理作业,通过了该公司的验收,进展大大超出该公司预期,也因此在“数据库赛马”中成功胜出并赢得了该公司对 OceanBase 产品研发能力的信心。
OceanBase 能在短时间内完成对老核心的适配,得益于:
自主研发让 OceanBase 团队对每一行代码熟稔于心。OceanBase 始终坚持自主研发,让研发人员有优秀的个人能力,清楚产品每一行代码的来龙去脉,能够快速和高质量地新增和修改代码,真正做到了自主研发。
全链路打通的研发模式。Pro*C 只是外在交互模式,底层还要依赖数据库的内核能力,从 SQL 模式、优化器、服务端等做到了全链路打通,比如研发在批处理作业现场联调时发现 SQL 对 to_date 函数的'J'参数尚未支持时,快速反映给 SQL 模块,后端仅用一天完成了开发测试和发布。
敏捷开发模式,攻坚小组的研发和测试大家坐到一起,每日随着项目进展和变化快速确定和调整当日的目标。打破研发和测试边界,研发一边在开发,测试同学已经把单测和集成测试案例写好,开发侧有一点小的进展就立即验证测试,使得开发和测试能接近同步完成。
迁移历程
2020 年 10 月,首个传统新核心理赔系统顺利上线。
2021 年 3 月,完成传统老核心最小省份的迁移上线。
2021 年 4 月,完成 13 个传统新核心的迁移上线。
2021 年 8 月,完成传统老核心最后一个大省迁移上线。
2021 年 9 月,完成传统老核心最后一个单体库迁移上线。
该保险公司发现:如何体系化全面迁移是是核心迁移过程中频发引发团队思考的问题,虽然在 2021 年 3 月完成最小省份的迁移,但后面还有多个老核心分布在 36 个按省市独立部署的 Oracle 数据库中,每个省份又包括了 20 多个 schema,如果按照老的迁移方式,每个省份都需要创建 20 多条迁移链路,对于资源和人力都是极大的消耗,短时间也难以完成。通过分析,工程化批量迁移最大的问题是没有做到全流程自动化,手工操作的步骤还比较多,为了解决该问题,产研和现场交付同学做了三件事情:
OMS 数据迁移工具在底层链路上从技术层面支持多 schema 合并操作,从而可以将同一个省份的二十多条链路合并到一条迁移链路中。
在产品层面将数据迁移工具的底层能力进行拆解,将原来无法自动化的步骤做了自动化,并通过 API 的方式暴露出来,使得前线交付同学可以根据用户的实际情况像搭积木一样进行组装使用。
交付同学基于暴露的 API 和 140 多页的迁移操作手册,用一个月时间开发出简化迁移链路配置的快捷迁移工具。
一键自动迁移过程图
在对快捷迁移工具迭代了四个版本后,投入使用。需要人工干预的工作量减少了 80%。同时一起建立了数据库迁移实施的统一规范和标准,开展有序迁移。上线实施标准流程包括 8 大环节,98 个步骤,5 倍峰值压测,体系化迁移 8 大环节如下:
兼容性评估:明确改动范围,进行适配改造工作量评估并合理安排工作任务。
负载评估:从原数据库获取 SQL 负载信息并在新数据库测试环境回放,验证新数据库应用后的性能。
测试迁移、适配改造:进行适配改造、全量回归测试、性能测试。有条件的系统(微服务化较好、重构等),可以分批改造和实施迁移。其中,性能测试可根据迁移前的关键业务容量基线,确定测试准出标准。
生产库存量、增量式迁移:对于业务连续性要求不高的系统,一般操作一次性存量方式完成数据迁移;对于业务连续性要求高的系统,采取全量 + 增量迁移方式,待增量数据追平后实施切换,仅需在切换时点暂停业务(分钟级)。
反向回流:对于关键应用,可实施数据同步回原数据库应对未知风险。
数据验证:迁移完成后进行数据准确性验证及应用验证。
持续监控:对可能遇到的问题进行监控、详细评估分析。
在线压测:迁移完成后,定期开展在线压测,基于实际生产场景进行业务全链路压力测试,持续保障应用容量和性能。
2021 年 5 月,西部某省的迁移在 2 小时内顺利完成,验证了 Oracle 端多 schema 合并迁移这一重要技术难点,相比之前有数倍的提升,为剩余省份的并行迁移扫清了障碍,经过优化后:
测试环境:自主进行数据迁移和压测回放,并通过 SQL 自动优化建议工具,大大提高了迁移验证效率,可以自助解决 90% 以上的问题。
测试环境多次迁移演练步骤
2. 生产环境:将过程中需要人工检查费时、费力的步骤,做到了自动化。
正式迁移割接步骤
紧接着完成了东北三省 + 内蒙古总共四个省份的数据,过程中解决了 Oracle 源端出现不可见控制字符脏数据的问题,确保了数据准确无误。
2021 年 8 月,历经前面 11 次的迁移后,终于完成了最后一个、最重要省份,也是数据规模最大的的数据库迁移。
2021 年 9 月,在解决了所有技术难题,完成了所有核心数据库的迁移,经历了开门红大促的考验后,该公司要完成一个保险公司一个完整的业务周期,只剩下最后一关,就是保险精算。
保险精算是保险公司业务经营的特色,需要运用数学、统计学、金融学、保险学及人口学等学科的知识与原理,去解决商业保险与各种社会保障业务中需要精确计算的项目。一般会在季度末和年末进行,以衡量企业的经营状况,并制定更有市场竞争力的保险产品,是保险业务开展不可或缺的关键一环。
保险精算分析的特点在于数据量大,分析的模型复杂,过程中还有大量的数据写入,往往要持续一周甚至更长时间,并且要确保精算过程中,快照点的数据不能发生变化。
基于传统 IOE 架构往往通过存储层的快照来实现。迁移到分布式数据库后,怎么保证在不停应用的情况下完成保险精算,是整个迁移过程的最后一个障碍。经过反复评估,阿里云为此制定了最佳方案,受益于 OceanBase 底层数据块的快速物理备份和表级的恢复能力。经过近 1 个月的压测验证,集群恢复速度达到 800MB/S,完全满足精算的备份恢复的时间要求。最终在 2021 年 9 月 30 日在规定的时间窗口完成了数据的备份并导入到了精算库,有效支撑了全面迁移后的保险精算业务,解决掉了最后遗留的小尾巴。
保险精算数据准备过程
当然,整个迁移过程并不是一帆风顺,虽然未产生重大生产事故,但过程中也出了几次故障。而这些故障背后既反映了国产数据库在面对复杂场景上能力的提升,也反映了分布式架构带来的根本性变化。以下详细介绍三大故障情况以及解决办法。
互联网核心迁移到 PolarDB 过程中遇到的最大一次问题是在 2021 年 1 月,当天凌晨面向 C 端用户的两个重要系统完成数据迁移和应用的割接。伴随着日间业务流量逐渐增加,两系统因为大量的慢查询堆积较多应用连接,将数据库服务堵塞,全天多次触发 PolarDB 实例自动高可用切换,执行节点重建恢复流程。
以云原生容器形式部署的数据库服务节点,除了受本身数据库相关的内存参数限制外,还受 cgroup 指定的 CPU 和内存限制。当时连接池打满后,由于内存超出限制,引起实例的多次高可用切换重建。云原生数据库基于容器部署需要在稳定性和自保能力方面做诸多增强,为了解决相关问题,后续的版本中增加了 global plan cache、resource manager、并行日志回放、global index 等功能,数据库的内核参数也针对金融场景逐一做了定制化优化。
针对金融场景对稳定性要求极高的需求,通过本次互联网核心迁移也增加了诸多管控运维能力:
增加 AWR 功能,定期收集 AWR 报告对性能和可用性进行分析。
增加 GAWR 功能,对主机、Dockers、RW/RO 进行全量数据采集。
新增 online promote 功能,优化在线切换,进一步缩短切换时间。
增加 Idle 状态 Session 超时自动断开连接功能,减少后台进程数,及时释放回收 Idle Session 的内存资源。
优化元信息缓存功能,Session 级别元信息缓存优化为全局元信息缓存,降低后台进程的内存使用。增加内存总量资源管理控制,设置一定的阈值,到达阈值后开始 Cancel Query、Kill Idle Session、Kill Active Session、拒绝新用户 Session 连接,增强数据库的自保能力。
由于原有 Oracle 数据库都是基于 SAN 存储部署,在 2020 年 9 月份启动数据库迁移工作之时,针对 OceanBase 部署建议的本地 SSD 盘硬件还没有采购到位。为了快速启动相关的迁移工作,最开始 OceanBase 传统新核心集群还是部署在 SAN 存储上,这也为第一个生产问题埋下了隐患。
第一个传统新核心应用理赔上线后,系统运行比较平稳。意外出现在某天下午 14 点 7 分,系统同时收到了应用监和数据库监控的告警。监控显示,应用出现了 90 秒的阻塞迭停。然而,当双方团队还在排查问题时,数据库已经自动完成了恢复。
应用监控系统响应时间散点图
OceanBase QPS 监控截图
问题现象时间轴分析
经过深入分析,发现是 SAN 存储交换机到核心交换机连接的一个端口出现了故障。虽然配置了多路径转发,但由于操作系统内核的超时时间与 OceanBase 切主时间不匹配,触发了 OceanBase 的自动选主操作。而选主过程中,另外一台物理机也走的同样端口也出现了 IO 阻塞的问题,最终导致 OceanBase 进入无主状态,当多路径软件成功切换后,OceanBase 未经过任何干预就完成了自动恢复。本质上是因为软件超时参数与硬件超时参数不匹配所导致,也是软硬件系统磨合不够充分的表现,通过相关参数的调整能减少 RTO 的时间。
在此次故障之前,大家对 OceanBase 的了解都停留在 PPT 层面:RPO=0、RTO<30 秒。直到这次故障才真切的感受到,故障时的快速切换和自动恢复能力是多么的重要。但是故障发生,项目组内部也有质疑声音出来:“OceanBase 基于 SAN 存储的部署本来就是错的,我们就不该使用 OceanBase。”但经过深入的分析才发现并不是 OceanBase 的问题,也不是 SAN 存储的问题,而是有没有充分的磨合,软硬件相关的参数是不是最合适的。IOE 架构之所以成为集中式架构下的最佳组合,正是经过广泛的实践和各种场景的锤炼,让软硬件都能在一个最佳的状态下提供服务。最终经过这次事件之后,大家统一认识,调整参数并不能根本性解决问题。原来部署在 SAN 存储上的 OceanBase 迁移到了本地盘硬件设备上,随后也逐渐演进到两地三中心多活架构部署。
如果一个数据库厂商说 100% 兼容 Oracle,保证迁移过程不出任何问题,那一定是自吹。即便做到了事前压测充分,且尽量覆盖完所有业务场景。但对于割接上线后的系统稳定性、兼容性还是要画问号。保证迁移过程中不出问题的关键在于,是否有及时有效的监控,以及出现问题后的快速应急手段。已经投产的应用,应急应该放在第一优先级。
在 11 月份某个周末,理赔系统出现慢 SQL,导致理赔应用系统票据汇总操作卡顿超时。为什么系统已经稳定运行了半个多月,没有任何的业务变更,反而在周末业务低峰期出现问题?现场交付专家经过分析很快定位到原因:OceanBase 的执行计划发生了跳变,导致执行计划走错。
交付专家经过进一步深入分析发现:OceanBase 和其他数据库一样,通过使用执行计划缓存 (Plan Cache),对于相同的 SQL(参数不同),跳过解析阶段,避免重新生成执行计划,以提升 SQL 的性能。但是早实际场景中,传入的参数往往是不同的,就像淘宝双 11 有热点库存,在保险行业也有大小机构号。虽然 SQL 看起来一样,但因为传入的参数不同,优化的手段和执行的路径也不一样。传统数据库(比如 Oracle)为了选择最优的执行计划,会定期进行数据对象统计信息的收集(如每天夜间的维护窗口(maintenance window)),淘汰旧的执行计划,使新的执行计划能够按照实际的数据统计信息生成更准确更优的执行计划。OceanBase 采用类似的方法,但由于 OceanBase 每天进行数据冻结合并,增量数据落盘,数据库对象的实际数据信息(行,列,平均值等)会发生较大的变化。因此合并以后,计划缓存会进行清理,并根据第一次传入的参数生成执行计划进行缓存,默认情况下,只会保留一个执行计划。由于周末当时第一次传入的参数不具备普遍代表性,导致后续执行计划走错,产生了性能问题。
执行计划跳变是一个比较常见的数据库性能现象。Oracle 先后推出了 Cursor Sharing,Outline,Bind peeking,ACS,SPM 等手段来优化改进,然而生产上也无法彻底规避执行计划走错的问题,新的数据库产品从 Oracle 99% 到 100% 的兼容优化也是最难的,也不是短时间能一蹴而就。对于这种小概率事件,应急就成为了最后的兜底手段,在不动应用的大前提下,通过数据库灵活的绑定执行计划,是出现突发问题时比较有效和容易落地的手段。实际整个迁移过程中,对于偶发的执行计划跳变,项目组也已经驾轻就熟,没有给迁移带来意外影响。
从 2020 年 9 月到 2021 年 9 月,一年的时间里,该公司 100 个业务系统的近 700 套数据库全面实现国产数据库迁移,成为首家完成 100% 核心业务系统国产数据库迁移的大型金融企业,采用的数据库中 OceanBase 和 PolarDB 用量占比超过 97%。
该公司通过数据库的全面替换,实现了对数据资产的的全面安全保障能力,做到了:
100% 数据库技术栈的安全可控,摆脱对 Oracle 数据库的依赖;
摆脱对小型机和高端存储的依赖;
促进云原生和分布式数据库应用成熟,从可用到好用并取得性能提升;
数据库服务集中管控,显著降低硬件及整体运维成本;
真正的实时扩缩容和高可用能力,轻松应对大促活动。
从完全封闭的体系架构到逐步开放再到全面开放,该公司真正实现了对数据库核心技术的自主掌控。得益于云原生架构和分布式架构的弹性和资源池化能力,也自此能实现“一库多芯”,只需一条命令就可以把租户切换到海光服务器节点,实现了国产硬件的平滑替换。
整体来看,该公司迁移后由于分布式数据库提供的高效压缩能力,存储容量的大小只有原来的 1/3,加上高端小型机迁移到国产机架式服务器,设备投入节省近 2 亿元。
硬件方面,该公司的数据库服务器及存储机柜数量从近 200 个缩减至 60 个,利用率提高了 300%。。数据库服务器及存储机柜设备功率由 1557KW 大幅降低至 471.35KW。经测算,该公司全年可节约电力约近千万度,为该公司数字化转型提供了源源不断的绿色动能,有力践行了国家双碳战略,部分冲销了公司由于自建数据中心带来的碳排放增量。
行业角度看,今天国内大部分金融机构的核心业务仍然运行在国外的数据库上,这是一个我们无法回避的现实。数据库的替换不仅是一个产品的替换,替换的目的不单纯为了“国产”两个字,更重要的是:技术必须进步;替换后的新系统必须具备老系统和国外产品不具备的能力,不仅是性能和稳定,更多是对业务的敏捷支撑能力,和面对海量业务和不确定性的业务高峰时刻的处理能力,以及更上一层楼的金融级高可用能力。
这些年我们看过很多内容对于数据库替换进行了分析和畅想,但是在面对实际的大规模复杂的核心应用系统的技术平台替换过程中,尤其对于现有运行的环境的各种适配和兼容,对应用的友好性等需要实践出真知的问题。该超大型保险(集团)公司和阿里巴巴阿里云团队一同坚定实现的国产数据库全面迁移,为行业积累了弥足珍贵的经验,也将为今后的国产数据库迁移进程给出了很好的范例。
作者简介
刘伟光,阿里巴巴集团副总裁、阿里云新金融 & 互联网行业事业部总经理,CF40 理事,毕业于清华大学电子工程系。加入阿里云之前,在蚂蚁金服负责金融科技的商业推广和生态建设工作以及蚂蚁区块链的商业拓展工作;他在企业软件市场深耕多年,曾经创建 Pivotal 软件大中华区分公司,开创了企业级大数据以及企业级云计算 PaaS 平台的市场先河。在创建 Pivotal 中国软件公司之前,刘伟光曾经担任 EMC 公司大中国区数据计算事业部总经理,并在 Oracle 公司工作多年,曾经创建了 Exadata 大中国区的产品事业部并担任事业部总监。
微信扫码关注该文公众号作者