“组建国家数据局”的国务院机构改革方案议案无疑是今年“两会”期间,科技领域最备受瞩目的话题。根据该预案,数据局作为国家发展和改革委员会管理的国家局,将负责协调推进数据基础制度建设,统筹推进数字中国、数字经济、数字社会规划和建设等工作。事实上,国家数据局的建立是“意料之外,情理之中”的。近年以来,国家政策层面有关数据的立法与政策支持层出不穷,从《数据安全法》到《数字中国建设整体布局规划》,涉及数据基础设施建设、数据分析、数据安全、数据确权等各个方面。这不仅意味着数字经济在国民经济中发挥的重要价值已在国家层面形成共识,还代表着通过行之有效的方式治理数据,帮助全球企业在降本增效的前提下创造新的商业价值,将是企业业务创新的源泉,也是数据时代里的核心竞争力。面向数字时代的海量数据和智能化、自主可控的需求,数据仓库作为将数据“落地”业务场景,实现决策支持的关键技术环节,在我国正迎来新的市场机遇与发展浪潮。
大数据时代,数据仓库的“两朵乌云”
数据作为大数据时代企业的核心资产,其重要性不言而喻。但随着移动互联网、AI、5G等技术的发展,数据规模的爆炸式增长、数据来源和数据类型的多元化,正在重塑数据分析、数据挖掘的内涵,与之相伴的,则是数据仓库建设上面临的新挑战——高并发与实时计算这两朵乌云。银行业作为我国最早开始数字化转型、最早应用数据仓库技术的行业之一,真正完整地经历了数据仓库建设和大数据建设的两个十年周期,对此的感受尤为真切。“传统的数据仓库产品已经不能满足金融业数据驱动的新发展特点,更无力帮助金融机构构建起完善的数据资产体系。” 交通银行软件开发中心总经理刘雷曾在一次采访中表示。一方面,由于数据量的增长和数据源的多样化,数据仓库的弹性扩容和兼容多种数据类型的能力就尤为重要。而传统的数据仓库往往采用软硬件结合的一体机模式,扩容成本高,能够处理的数据结构相对单一,因此对高并发的海量数据处理显得“力不从心”。另一方面,随着银行由线下模式主导的同质化竞争转向以线上差异化能力竞争,数据仓库需要支持不断涌现的新场景下的用户需求和针对这些新场景产生的监管新要求,即不仅需要提供“丝滑”的用户体验,还需要更加精准、快速的数据分析能力。这就要求数据分析从“事后”不断前移,贴近数据产生的时间,最终满足实时计算、实时推理决策。而传统数据仓库需要严格、审视的定义schema,即选取哪些数据维度、如何构建分析表单等问题,涉及对银行诸多部门的需求分析与验证,因此数据建模路径长、时间久,从而难以跟上实时性数据分析的脚步。与此同时,传统的数据仓库大部分是国外厂商的天下。IDC中国研究经理王楠表示,“随着移动互联网时代的到来,数据量爆发增长,在对海量数据管理方面,部署这些海外产品的成本是十分高昂的。”加之国外厂商运维门槛高、原厂服务响应周期长,且对个性化定制的支持度低,当国内企业对产品性能、稳定性、创新性和自主可控等能力提出更高要求时,继续使用传统数据仓库将让管理和运维面临着安全和成本的双重问题。这些困难正如十九世纪笼罩在物理学上的乌云,将我国的数据仓库应用实践带到了新旧技术更迭的关键时刻,数据仓库领域正呼唤新的技术与解决方案。
数据仓库技术更迭的奇点时刻
那么,数智化时代,我们到底需要怎样的数据仓库产品呢?监管报送可以说是银行业数据仓库最核心、挑战也最大的应用场景之一。假如错报、漏报监管机构所要求提交的经营数据,银行将面临被约谈、通报、罚款等风险;报送不够快则存在无法及时排查和处理异常单据反馈、影响后续业务系统运营的问题。适应数智化时代的发展,金融业作为强监管行业,监管在数据覆盖面、报送频率、信息颗粒度等方面的要求也在与时俱进。以“反洗钱报送”这单一业务场景为例,根据中国人民银行要求,被监管机构需要按天披露超过规定金额以上的资金交易信息,涉及客户、证件、地址、银行账户、受益人、合同等多个维度。除此以外,为维持金融业健康运行的秩序,被监管机构还需定期分别向银保监、国家外汇管理局、中国支付清算协会等多个监管部门报送相应数据,种类多、来源杂、报送对象及规则要求各不相同。报表业务员动辄需要在短时间内处理成百上千张报表,耗时耗力。作为一个批量处理场景,如何在每天巨大的业务数据量下,不仅保障数据的一致性、准确性,还能提升数据处理能力,从而提高监管报送效率,成为了考验数据仓库性能的一个重要指标。更具象地来说,数据仓库要在“数据流入”和“数据流出”两大维度具备准确性与时效性,才能满足广大金融机构的严格要求。一方面,数据仓库需要在银行面临交易洪峰或在“双十一”、“双十二”等购物节中大量用户同时涌入、转账行为同时发生时,能够凭借高并发、低成本和敏捷扩容能力,保障数据的准确记录;另一方面,数据仓库还需要提升性能,以更强的算力支持高效生成表单,及时提交给各个监管部门,从而为潜在的问题预留出更多处理的时间窗口。如果能够在每天上班前就完成监管报送表单的制作,那么员工上班后就可以直接处理异常问题,这将为银行节约很多时间、人力成本。除了支持常规的数据仓库应用场景外,能够满足银行新兴场景的性能要求也同样重要。以实时转账风险预警场景为例,在银行用户输入转账账户和转账金额、点击确定转账的同时,为更好保障用户资金的安全性,银行需要将转账时间、对象、金额、频次等相关数据进行加工,提取数据特征以判断交易性质,以及时将存在欺诈风险的交易进行阻断并完成预警提示。这不仅要求银行数据仓库能够实现低时延的实时流处理,还要求其能够根据用户的特定需求,快速建立起不同数据维度、不同时间范围的实时统计分析。另外,我们作为银行的用户,一定更希望银行在最大程度保障我们资金安全的基础上,能够根据我们的日常转账、消费流水和账户金额变化,向我们提供个性化且合适的资金管理方案,辅助我们实现“财富增值”。这就要求银行数据仓库平台能够充分利用AI赋能,对用户交易行为进行智能分析、形成用户行为画像,从而提前智能防范交易欺诈,并面向多种场景,形成千人千面的定制服务。“将人工智能引入数据平台是近几年行业发展的一个趋势,”刘雷谈及数据仓库转型时也强调了数流与智流融合的重要性。在向满足以上性能要求的新型数据仓库转型实践中,一方面,需要实现从传统数据仓库的平稳过渡,在不影响正常业务开展的同时,提升迁移效率、降低迁移成本;另一方面,在数据治理上还需要提升数据管理、数据标准的统一性,打破银行各部门间的数据壁垒,避免数据重复加工,充分实现数据共享;同时,从日常运维管理的角度,还需要解决传统数据仓库建设过程中复杂架构带来的高运维难度的问题。可见,新需求与新场景的不断提升重新定义着数智化时代数据仓库的新标准,从而为国产数据仓库产品的“弯道超车”创造了机遇。国产数仓“突围”,华为云GaussDB (DWS)引领数仓发展
传统的数据仓库市场是以国外厂商为主导,巅峰时期其在中国金融业数据仓库的市占率高达80%以上。在数智化驱动的数据仓库“换代”背后,是年均释放约150亿美元的市场空间,更是国产数据仓库实现崛起与超车、助力我国数字技术自主可控的“坦途”。以华为云GaussDB(DWS)、阿里云AnalyticDB、腾讯云TDSQL-A等为代表的新一代国产数据仓库产品的接连推出,正代表了数据仓库市场当下的“百花齐放”。近期金融信息化研究所发布的《金融数据仓库发展报告(白皮书)》显示,国有大行和股份制银行使用本土厂商数据仓库产品的机构数量占比较高。其中,华为云GaussDB (DWS)脱颖而出,通过精益求精的技术创新和用户服务经验沉淀,不断刷新金融行业的数仓标准,截至2022年底,其在国有大行和股份制银行中的市占率高达55.6%,在金融数仓本地部署中排名第一。具体而言,华为云GaussDB(DWS)竞争优势的核心即是深刻洞察用户需求,“让听得见炮声的人呼唤炮火”。企业服务领域竞争的“制胜法宝”早已清晰地呈现于用户痛点中了,以打造契合企业用户需求的产品为初心,不断提升技术能力、并在应用实践中反复打磨产品,就是华为云GaussDB(DWS)的“大道至简”。“前瞻性架构布局、一体化融合架构、高迁移效率、以客户场景驱动”,华为云EI服务产品部部长尤鹏如此总结华为新一代数仓产品的特点。在架构设计上,华为云GaussDB(DWS)采用存-算-管三层分离的架构,基于云原生能力,让计算、存储独立伸缩,从而支撑企业业务的灵活扩展,让工作负载在峰值场景下平稳运行。此外,华为云提供分布式处理技术,支撑用户就近执行数据分析任务,实现对数据处理的快速响应。在性能上,华为云GaussDB(DWS)在传统数据仓库提供节点并行能力的基础上,能够实现算子并行、指令级并行,同时支持动态编译,因此大大提升了数据处理效率,让银行能够无忧面对监管报送的要求。面对数智化时代银行日益多样化的数据分析场景,华为云提供湖仓一体技术方案,数据在GaussDB(DWS)与FusionInsight MRS之间高效互通,支持多数据类型存储、数据取用规则更灵活,从架构上真正实现了湖仓一体,帮助企业更好撬动数据潜能,最大化数据价值。同时,华为云GaussDB(DWS)在银行业的实践中,敏捷感知到了智能营销、个性化定制财富管理方案等功能日益增长的需求,在产品设计时即融入AI能力,通过AI提升对异构数据的处理能力,与应用场景深度融合,实现智能预测、智能决策、智能识别等数据分析智能化。作为经过了国内头部银行高标准、大规模的严苛考验和工程应用验证的数据仓库,华为云GaussDB(DWS)真正做到了以用户需求为核心,在保障安全性、可用性的基础上不断增强平滑迁移的能力,打造更优质的产品和服务,得到了大量客户的一致认可。2022年初,光大银行将沿用了10多年的传统数仓平台全部替换为华为云GaussDB(DWS),成为了国内首家实现国产化数据仓库平台大集中的银行。这背后离不开华为云GaussDB(DWS)强大的兼容能力和迁移效率。通过仅仅6个月的时间,华为云即助力光大银行完成了超3.5万个作业的海量迁移工程,创造了金融数仓迁移速度的新纪录,由此可见华为云GaussDB(DWS)的高迁移效率。迁移完成后,对用户而言,数据查询可以全天候服务,服务时间窗口延长了2倍,服务可用率显著提升,便捷性和使用体验明显提升;对于银行员工而言,GaussDB(DWS)早晨八点半前完成批量任务,实现“数据开门”,提升了银行网点业务人员前端查询、报表使用的体验,坚实地保障了监管报送时效性;对于银行整体而言,GaussDB(DWS)算力提升3倍,真正实现了惠及多方,降本增效。“真正服务好企业客户不能孤军奋战”,尤鹏说,“以银行业为例,银行的业务发展比较快,与之匹配的技术更新也非常快。华为云GaussDB(DWS)的成绩不仅需要将自身服务于各金融机构的经验通过沉淀、积累,转化成产品和服务能力,还需要繁荣的生态支撑我们灵敏的触达用户需求,实现技术创新和迭代。”知行合一,截至目前,华为云GaussDB(DWS)的伙伴已涵盖提供BI、ETL、报表、数据集成、备份修复等产品服务的企业;同时面向金融、数字政府等不同行业,与中电金信、长亮、先进数通、金蝶等伙伴达成战略合作。以华为云GaussDB为代表的国产数据仓库的高速发展,是我国企业数智化转型历程中一个典型的缩影。我国数字经济的火热是企业产能升级、高质量发展需求和科技企业不断进行技术创新和产业实践相碰撞、融合的结果,随着自主可控的技术越来越具备战略价值,国产化浪潮将为科技领域带来更广大的市场空间。天高任鸟飞。毫无疑问的是,华为云GaussDB(DWS)已经启航。