上海网信办推荐案例 | 数据分类分级自动化工具—敏感数据发现使用手册
一、引言
为加快建立健全数据分类分级保护制度及重要数据目录管理机制,促进数据共享应用,2022年7月至12月,市委网信办会同市政府办公厅成立试点工作组,组织开展了数据分类分级、制定重要数据目录试点工作,遴选出一批试点优秀单位和试点优秀案例。
今天分享杨浦区大数据中心试点优秀案例——《数据分类分级自动化工具—敏感数据发现使用手册》。
二、案例概述
本案例根据数据生存周期的各阶段特性,在数据采集、存储阶段进行数据扫描、分析、清洗、标注标识等治理步骤,治理后的数据建立数据分类目录,使用混合分类法创建数据发现规则,分类分级分析对象强化至元数据或数据内容特征级,对初期结果采用人工辅助修正和规则校对。本案例模式可提升分类分级自动化标识的合理性与准确性,大幅降低人工分类处理耗时,并在逻辑执行环节降低错误分类打标的发生率,提升目标数据的识别精度。
1、数据发现
1)发现模板管理
发现模板管理包括工具内置的发现模板和自定义发现模板,本次我单位为匹配实际业务场景新增使用了自定义和内置相结合的发现模板。
2)发现任务管理
汇总已创建的数据发现任务,形成对应任务列表进行统一管理,并可以对任务增删改查。
a)新增任务
新增数据发现任务包括三个功能:设置任务基本信息、选择数据资产和配置任务。
(1)基本信息设置
可通过对任务名称、生效模板、抽样方式等的选项设置基础任务信息。为了提高效率,采用抽样扫描方式而非全量扫描的方式。
(2)选择资产
选择已更新资产作为任务执行范围,支持多选数据资产,可选粒度精确到数据库/schema级别。
(3)执行模式
任务可选手动执行、定时执行、周期执行三种模式。
b)任务维护
对任务进行包括开始、中止、暂停、查看、编辑、删除在内的操作,同时可对选中任务进行批量执行的操作。
3)任务结果查看
从任务信息总览、库表信息、字段信息、统计信息、任务日志等维度的任务结果查看功能,发现任务与不同打标粒度的分类分级任务展示内容有所差异。
a)库表信息
从库表视图对发现任务结果进行展示,包括所属库/资产,分类分级情况,表中敏感字段数统计,表内字段详情查看等。
b)字段详情
从字段的基本信息和匹配结果信息等维度对字段详情进行展示,支持各维度的筛选和匹配结果的修改调整(包括敏感类型和分类标签的修改)。
c)统计信息
统计发现任务结果中各数据特征涉及到字段数量和位置数量。
d)任务日志
以日志形式展示数据扫描发现的进程。
4)任务筛选查询
通过关键字对列表中的任务名称进行搜索,也可通过任务类型、执行模式、任务状态、更新时间等维度对进行筛选查看。
2、分类分级
1)分类分级模板
分类分级模板包括内置和自定义两种定义方式,本次使用的工具支持多个分类分级模板;可设置其中某个分类模板为默认模板,创建分类分级任务系统将自动使用默认模板。
杨浦区大数据中心数据安全运营人员结合本单位实际业务场景,整合制定了适用于本单位的数据分类分级规则模板,以便用于长期运营的自动化分类分级和打标任务。
a)新建/编辑分类分级模板
新建/编辑分类分级模板包括分级设置、重要性设置、分类规则设置和类型映射设置4个步骤。
(1)分级设置
杨浦区大数据中心这里创建了5个级别的分级,工具可自定义分级的名称,最多为5个级别。
(2)重要性设置
创建分类分级模板第二步,首先通过分类分级模板导入分类分级规范;按模板指导规范维护分类分级规范,上传文件后导入;导入成功后,通过层级结构展示分类分级树结构。
点击某个数据分类类型,可设置该类型的重要性。如果不设置,则默认重要性为中。
(3)分类规则设置
创建分类分级模板第三步,通过设置某个分类标签的辅助规则,来应对由于业务系统等保等级变化导致分类分级和是否重要数据发生改变。
当数据资产所在的业务系统等保等级发生变化时,可通过辅助规则来展示不同的数据等级和是否重要数据。
(4)类型映射设置
创建分类分级模板第四步,通过设置映射关系将分类模板中的数据类型和识别规则关联;在系统识别数据资产时自动完成分类打标操作。
通过设置类型命中率来设置识别规则的要求,只有当命中率达到要求时,才认为是对该数据类型识别成功。
b)删除分类分级模板
如果分类分级模板不是默认模板,则可执行删除操作。
2)数据特征
数据特征包括内置和自定义两种定义方式,可以通过增删改对数据特征进行维护和管理,同时可以按数据特征名称和定义方式对数据特征进行检索。
a)新增/编辑数据特征
可以通过设置字段名称、字段注释、数据类型、数据内容、数据长度的匹配规则来定义数据特征,也可以通过引用已有规则来定义数据特征。
可以定义多个规则形成一组规则,并对组内多个规则的关系进行设置。可以通过检验值功能来验证规则设置是否生效。
b)删除数据特征
支持批量删除数据特征操作,执行删除操作前,系统弹确认提示框,用户确认后才会进行删除操作。
c)查看数据特征
添加完数据特征后用户可对设置信息进行查看,但不支持编辑数据特征的设置结果。
3)数据字典
a)添加/编辑关键字字典
添加关键字字典包括字典名称、字典类型和字典描述等字段。编辑包括对关键字字典的增删改查操作。
b)检索关键字字典
支持关键字模糊查询字典名称。
c)批量删除关键字字典
支持一次删除多个关键字操作,在执行删除操作前系统弹确认提示框。
3、工作台
1)数据分类分级
首页的数据分类分级概览展示了数据资产整体的分类分级打标情况,包括是否分类分级和分类分级执行的时间分布情况。
以杨浦区大数据资源平台为例,数据分类分级概览还展示了分类分级任务的执行情况,包括分类分级任务的数据统计信息和分类分级任务的进展情况。
a)创建任务
创建分类分级任务流程第一步,设置任务的基本信息;包括任务名称、参考规范、执行周期、资产类型(默认为数据库资产类型)、任务内容、负责人等。
创建分类分级任务流程第二步,规划执行分类分级打标操作的数据资产。操作员可从已进行任务的全部数据资产选择多个资产进行分类分级打标操作。
创建分类分级任务流程第三步,选择执行方案,即本次任务的分类分级模板。
保存创建的分类分级任务,返回工作台更新我的分类分级任务列表。
b)手动打标
在工作台我的分类任务操作栏点击进入按钮,进入手动打标的标准视图。可通过手动操作对分类分级任务所规划的数据资产进行逐表打标操作。
c)智能打标
可以在手动打标开始前,通过系统智能打标对数据资产进行一轮“预打标”,减少部分人工的工作量。智能打标操作在手动打标开始之后仍可以执行。
4、数据资产
1)手动添加/编辑单条数据资产
通过选择资产类别,逐一完善资产基本信息和分组信息的形式完成单条数据资产的添加。
a)批量导入数据资产
下载excel格式的模板文件,按照模板填写数据资产信息,并上传导入,即可添加完成数据资产。
通过资产导入模板执行批量导入操作,模板包括资产类型、名称、IP地址、端口号、实例名/库名、用户名、schema/文件路径等信息。
b)资产管理
(1)查看资产详情
对更新完成的资产提供详情查看功能,展示内容包括资产基本信息、数据库表信息、用户信息。
(2)连通性测试、更新及删除
依据已提供的基础信息进行连通性测试,验证数据库必要信息的准确性;对列表中资产进行手动更新操作;对列表中单个资产进行删除。
(3)批量操作
通过批量操作按钮,对列表中已选中的资产进行批量更新、批量删除、批量导出的工作。
(4)快速筛选
资产列表提供通过系统/部门/区域分组情况、资产类型分布情况对数据资产进行快速筛选查看,也可以通过资产名称和资产状态对数据资产进行快速搜索。
2)文件资产
展示全部文件资产信息,按文件资产名称关键字模糊查询。
a)资产添加
添加文件数据资产,可添加的类型如下:
HDFS、FTP、SFTP、SMB、CIFS
b)手动添加/编辑单条数据资产
用户于资产列表页,通过选择资产类别,逐一完善资产基本信息和分组信息的形式完成单条数据资产的添加。
c)资产管理
(1)查看资产详情
对更新完成的资产提供详情查看功能,展示内容包括资产基本信息、数据库表信息、用户信息。
(2)资产更新及删除
对列表中资产进行手动更新操作,也可以进行删除。
(3)批量操作
通过批量操作按钮,对列表中已选中的资产进行批量更新、批量删除、批量导出等操作。
(4)快速筛选
资产列表提供通过系统/部门/区域分组情况、资产类型分布情况对数据资产进行快速筛选查看,也可以通过资产名称和资产状态对数据资产进行快速搜索。
3)自动扫描
基于IP段、端口进行数据库扫描,能够准确识别出运行的数据库类型、IP地址和端口号等信息,且可以设定定时、周期扫描任务。可对发现出来的数据库进行认领、忽略,对认领的数据库可配置连接信息。
a)自动扫描任务
初始状态下可通过右上角“添加扫描任务”按钮新增扫描任务,可选择多种执行模式,设置多个扫描IP段。
b)扫描任务维护
具备扫描任务的开始、停止、查看、编辑、删除操作。
c)扫描任务结果查看
具备任务基本信息、数据资产认领情况等信息的展示。
d)认领数据资产
新发现的数据资产可被确认添加,点击“添加”,填写数据库连接信息,确认后即可添加至资产目录列表,同时具备对已选中的多条资产进行批量认领操作。
4)资产清单
列表展示全部资产信息,可以通过关键字模糊查询,也可以按数据库类型、资产归属部门和业务系统进行筛选。支持导出资产信息Excel文档。
5、任务中心
任务中心包括分类分级任务和智能打标任务两种任务类型;分类分级任务是指手动打标,在执行手动打标分类分级任务之前(或过程中)执行了智能打标,会自动生成对应的一个智能打标任务。
1)分类分级任务
在工作台创建的分类分级任务在任务中心/分类分级任务下进行管理,包括终止、编辑、删除和生成报告等操作。
在任务中心/分类分级任务也可以新建分类分级任务。
a)编辑分类分级任务
分类分级任务未开始或执行完成,支持编辑操作。编辑分类分级任务可修任务基本信息、任务管理资产,但无法变更任务使用的分类分级模板。
分类分级任务编辑保存之后,按保存的设置参数重新开始分类分级打标操作。
工作台/我的分类任务列表中移除,停止按钮也变为启动按钮。再次启动分类分级任务后,任务记录再次出现在工作台/我的分类分级任务列表中。
b)生成报告
分类分级任务支持手动生成报告功能,当任务完成后,可手动生成分类分级报告,并在报告中心自动生成报告记录。
c)筛选任务
分类分级任务支持按任务名称关键字模糊检索;支持按任务状态、任务更新时间筛选。
2)智能打标任务
分类分级任务可通过系统自动执行分类分级打标,同时在任务中心自动生成相应的智能打标任务。
a)开始智能打标任务
点击开始后,智能打标任务下发给数据处理器,开始执行智能打标任务;可暂停已经开始的智能打标任务;暂停后可从暂停位置恢复智能打标任务执行。
b)智能打标高级设置
智能打标任务支持高级设置,智能打标任务未开始执行或已执行完成后,可以点击高级设置对智能打标任务的扫描方式以及抽样范围进行设置。
c)查找智能打标任务结果
查看智能打标任务结果包括查看库表信息、字段信息、统计信息和任务日志,还包括智能打标任务的总览信息,包括任务开始/结束时间和表/视图数量等信息。
DPOHUB招募兼职研究助理
申请条件:在数据隐私、数据安全及数据治理等方面具有丰富的理论积累或实践经验;并具有全英文写作的能力。 优先条件:发表过数据法或科技法相关论文的优先;有英文期刊发表经验的优先。 申请方式:请将您的简历和代表作发送到微信:heguilvshi 或邮箱:[email protected]
微信扫码关注该文公众号作者