Redian新闻
>
抄作业 | 中通数据治理实践!

抄作业 | 中通数据治理实践!

公众号新闻
报名:首席人工智能官认证CCAIO™课程(上海班)
  • 时间:CAIM(6月22日、23日);CAIL(6月29日);CAIT(6月30日)
  • 形式:线下为主、线上同步
  • 费用:CAIL和CAIT各3000元;CAIM600元,早鸟价9折和团购价8折
  • 地址:上海市徐汇区宜山路889号4号楼5楼SGS上海培训中心
  • 咨询:138 1664 6268,[email protected]
  • 扫描二维码索取报名表及微信咨询

来源:科技中通,作者:新茗
仅供学习!如有侵权,请联系删除!

全文共 3199 个字,建议阅读 分钟

一、背景


为什么要做数据架构治理?数字转型,治理先行。


数字化的应用是整个行业高速发展的源动力之一,快递行业日新月异,规模庞大,数字化能够使管理升级,提高整个内部的运营效率,降低相关的运营成本。在打破数据孤岛,链接用户跟快递员、网点、商家等角色的过程中,数字化都发挥着很大的作用。简单来说,数字化就是一道门,你被关在门外面,那未来很可能就会被淘汰。而数据架构治理,就是为中通数字化转型打下了基础。


二、现状



1、数据标准


中通目前有500+的产品,这些持久化在存储上就是有100W+的数据库表。并且业务量以每年20%-30%的速度高速增长。各业务部门、开发团队的数据标准不一致,在数据打通和整合过程中会出现很多问题。所以就必须建立数据标准和推动数据模型的落地来对数据未来状态的规范,包括对数据的名称、含义、结构、取值及数据间关系的规范,以此对数据库表结构、字段定义进行指导约束。



2、数据安全


公司目前没有平台来做数据分类、敏感数据的标记,数据以什么形式对外提供出去不明确 ,什么数据可以对外暴露不明确 。一旦隐私数据泄露,对业务的影响非常大,甚至能影响整个业务的生死。同时对数据文件、图片、文件、音视频等类型数据的定期的备份恢复策略也没有制定,一旦误删除可能会导致数据的永久丢失。



3、数据模型


由于前期的快速发展,难免会遗留一下历史的原因,比如数据的上下游依赖公司就很难去识别到,随着业务的变动很容易出现上游发生变更,但下游却不知道的问题。开发的数据对象,都是通过口口相传。模型梳理难以完成,导致在数据开发和数据管理过程中都会遇到一些效率低的问题,开发不清楚数据的上下游是如何使用的。



4、数据质量


缺乏跨团队的数据工程流程,经常会导致“挂羊头卖狗肉”的情况,比如字段明明是网点名称,数据库里却是网点名称和网点编号都有存储在这一列,导致各个团队的成熟度不同,团队间没有一致的数据质量定义或指标。


三、怎么做数据架构治理



1、传统的数据治理是怎么做的


顶层规划设计的方法在五到十年前比较盛行,多源于国外咨询公司基于国际理论(如DAMA-DMBOK)结合自身实践积累形成的方法论,用这些理论框架为企业进行全面的现状调研,基于此再进行数据治理组织、数据治理工作内容/流程/制度、数据治理平台及未来建设路径的规划。其交付物通常是厚厚的调研报告、设计报告和PPT,项目周期在半年甚至更长。顶层规划设计的方法好处在于有理论依据,体系完整,能够帮助客户达成对数据治理全貌的理解和共识,有利于推动后续工作开展。但其也有许多不足,如过于理论化与企业实际情况结合不紧,导致管理组织和流程都无法落地;漫长的项目周期中,只部分解决了数据治理管理能力建设的问题,但并未解决实际数据问题、没有提升数据质量甚至业务质量、数据价值也没有显著发挥出来。因此,成果也看起来很厚重,但实效并不大。




2、我们是怎么做的


从一开始我们也想过自上而下的这样推动数据治理,但是就如上面所述,项目周期太长,同时实际效果也不一定很好。因此我们结合我们公司的实际情况,先治理关键流程:数据标准管理、数据模型管理、数据上下游链路管理、敏感数据管理以及数据的全生命周期管理。同时连同业务部门,按照产品线进行划分,小范围内快速验证和迭代数据治理相关的方法、流程、规范,然后再复制推广。总体的思路就是:定规范,建平台,建体系。



四、规范


结合公司的现状,我们对数据的全生命流程进行梳理,针对关键节点我们梳理出了:数据存储选型规范、数据建模管理规范、数据分发管理规范、数据生命周期管理规范。




1、数据存储选型规范


架构师在工作中经常会遇到数据库存储选型的问题,而市面上数据库产品众多,往往会无从下手,甚至有时候从业务开发到上线运维过程中会多次更换底层数据库,给整个研发中心带来不必要的额外工作,数据存储选型对于一个给定的应用环境,针对公司现有业务背景和整个DBA团队技术储备,选取最优的数据库类型,建立数据库及其应用系统,使之能够有效地存储数据,满足各种用户的应用需求。




2、数据建模管理规范


针对数据的开发设计阶段,我们将数据对象抽象成逻辑模型和物理模型,同时针对表、字段、数据库的命名和设计制定了一系列的规范并前置到逻辑模型设计阶段,同时针对持久化到数据库上进行流程管控。



数据建模总体流程:




3、数据分发管理规范


对于现在公司的数据实际情况,数据分发应该严格按照分发数据量进行分发类型选择,并且除了SQL查询方式之外,都应使用中通数据分发平台ZDTP进行数据分发,并且通过订阅方式对数据下发至各个合规终端,同时通过可配置的软件或工具对源数据进行收集、处理以达到符合中通内部或合规的外部第三方生产需求的操作,以上所有的操作均有流程进行管控。




4、数据生命周期管理规范


结合公司实际,针对科技中心所管辖的所有数据,文件,图片,视频,录音等存储。将数据进行分级分类,按照对应的级别的不同制定不同的生命周期管理策略。



数据敏感级别属于数据安全领域,敏感等级不同的数据对内使用时受到的保护策略不同,对外共享开放的程度也不同。数据管理者负责制定其领域内数据敏感等级的划分规则,并制定和发布本部门的数据敏感等级目录。



数据分类治理是实现不同部门之间数据共享互认的目的。我们通过分类标识,将分散的、存储在不同系统的数据内容,打破数据的孤岛,进行有效匹配,指定不同的数据敏感级别,理清各方的数据权限,达到数据安全治理的目的。



根据数据级别的不一样,我们将制定不一样的数据保留策略:



五、平台


为了保障上述规范的落地,我们连同技术平台团队,建设了数据建模平台,将建模平台放入统一的运管平台,为用户提供一站式的开发服务。


中通数据建模平台是由中通科技完全自主开发的拥有知识产权的跨平台数据库建模工具,相较于传统的PowerDesigner之类的C/S架构的建模工具,我们采用更加轻便的B/S的架构设计,更符合公司的产品规划。数据建模平台不仅能够按照公司产品粒度进行mysql等传统关系型数据库的对接,还可以提供国产数据库如TIDB的对接,并且我们将将应用对应的物理库抽象成一个逻辑库,用户可以制定环境生成物理模型。并且按照产品线进行划分,我们提供私有词典和标准词典供用户进行标准字段的引用。私有词典是在本产品线引用的标准字段,标准词典是中心藏经阁维护的一系列标准的基础数据供给所有产品线进行引用。在模型设计阶段我们提供可视化的模型设计能力,可以可视化的新增、编辑、删除模型,并针对字段顺序可进行拖拽排序,为方便模型的管理,我们还提供了模型的自定义分组。并且在设计阶段我们就将数据的分类和敏感数据的标记要求在模型中体现。



针对于分库分表的模型,我们将按照分片的规则将物理存储上的多个分表在建模平台上抽象成一个模型。并且内置了mod和hash算法,可以按照用户配置的分表设置,快速的生成分库分表/分表的模型。



同时针对模型的变更,我们提供了版本管控的功能,平台会记录模型的各个版本的元数据信息,并提供不同环境的模型快速部署和回滚的服务。并且模型的所有的变更我们都和IDB进行了打通,每次应用都会生成IDB的工单进行快速部署。



相较于传统的C/S建模工具,我们也提供了web端的数据模型关系操作工作台,用户进行全局的数据模型的浏览,并支持放大缩小以及导出。可以任意拖拽模型的位置进行保存,并且可以任意的进行模型之间的关系的维护。针对于初始化模型较多的产品我们还有搜索聚焦以及自适应布局功能。


数据治理不是一蹴而就的,它是一个漫长而持续的过程,我们将在平台完善、治理服务、体系化运营这三块持续努力,对数据安全、资源利用、数据质量等各方面进行治理。

已开课!扫码加入学习

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
伊能静儿子NYU提前毕业全网狂夸!王诗龄目标牛剑!原来明星的艺术鸡娃路径也能抄作业?抄作业 | 12张图解析数据安全分类分级快手抄作业,能成为本地生活「拼多多」吗?快来抄作业!加国华人大哥用这招 $6.6买了两只龙虾!合情合理!青眼情报&中通生化32024中国祛痘产品市场趋势洞察报告深陷跑路风波的健身房,正在靠“抄作业”自救专访普译生物黄亿华:从头研发具有自主知识产权的「第四代测序仪」,成立仅2年已推出首款中通量纳米孔测序系统百年银行赶大潮:三年攻坚,出击数据治理与 AI 应用上海人工智能安全治理实验室成立了!广发银行一年科技投入达37亿元,深化转型并加强数据治理中式幽默西方人不笑?关于网络隐私保护和相关法律的几个常见问题和答案人类的三层脑不读世界名校,是因为不喜欢吗?操盘孩子进名校,布局抄作业~最佳实践|一文讲解端线程死循环的治理再造大湾区︱深中通道特别报道从TikTok在美困境看全球大数据治理“麻辣烫万能点餐公式”直接戳到心巴上!快来抄作业~抄作业 | 人工智能时代的消费者保护:美国FTC的AI监管方法早鸟报|视频号总用户时长同比增超80%;抖音电商一年治理超8000个虚假营销账号;美团闪电仓对违规“一店多开”从严治理...抄作业 | 万字长文:数据资产入表全流程,实操指南!抄作业 | 曹操出行上市招股书中关于数据合规相关风险的论述当我搞懂辅导作业的底层逻辑,陪写作业再也不生气了广发银行一年科技投入达 37 亿元,深化转型并加强数据治理练字--灵飞经青眼情报&中通生化:2024中国祛痘产品市场趋势洞察报告专访华润银行:中小银行如何突围“数据治理”的层层障碍?【229秒 -> 69秒】部署时间缩短69%,ICBU商家技术部应用部署治理实践狗引儿【长篇】下部(五十九)智慧医疗建设走过数据收集与治理阶段,正步入医疗数据价值应用“战场”中文信息处理实验室2025届推免招生说明 — 欢迎加入中文信息处理实验室!直击!深中通道明日正式开通!大批港人闪现中山!儿子的科学老师居然用它来“鸡娃”,太值得抄作业!成本与效率:作业帮数据治理全方位解析成立3年,拿下天猫618双品类冠军,SINSIN的思路可以直接抄作业吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。