面向关系型数据与知识图谱的数据集成技术综述

2022-12-31 16:12

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 专知

目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,本文聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗三方面的数据集成关键技术,最后展望未来研究方向与趋势.

http://www.jos.org.cn/jos/article/abstract/6808

『引言』

随着物联网、社交媒体、电子医疗等技术的高速发展,全球数据呈现爆炸式增长的态势.根据国际数据公司(International Data Corporation,简称 IDC)统计,到 2025 年全球数据量预计将达 175ZB,表明人类社会已进入大数据时代[1].近年来,各个国家和地区已陆续将大数据上升至战略层面.例如,2015 年我国在十八届五中全会上首次提出“国家大数据战略”,同年国务院印发《促进大数据发展行动纲要》,以推进我国大数据发展进程,加速数据强国建设.此外,美国实施的《大数据研究和发展计划》、英国发布的《英国数据能力发展战略规划》以及欧盟力推的《数据价值链战略计划》等均已显示出布局大数据战略的迫切性.可以说,大数据正在改变全球社会的发展动力与发展方式,重塑世界格局[2]. 然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,数据孤岛现象严重、数据质量低下,进而导致数据要素潜能难以释放.2020 年《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》指出 1 :要加快培育数据要素市场,推进政府数据开放共享,加强数据资源整合,提高数据质量和规范性.因此,各行业各领域对于数据集成的需求日益迫切.数据集成的最终目标是为驻留在不同数据源中的异构数据提供统一访问渠道,它是打破数据壁垒,实现信息共享,提升数据质量的重要手段.同时,也为下游的各类数据驱动应用提供可靠的数据基础.

数据集成的概念广泛,包括实体解析、数据融合数据清洗、关系解析、语义消歧等技术.专家学者们对于实体解析、数据融合以及数据清洗技术的关注度日益增加,实体解析、数据融合以及数据清洗已成为数据集成领域的关键研究方向.实体解析是实现数据集成的先决条件,旨在关联不同来源中指向同一实体的数据实例.在执行完实体解析后,需要将已关联的不同来源的数据集成至统一的数据库中,使得数据内容更丰富,从而发现新的价值信息.然而,由于不同数据集的异构性、信息不完整、数据错误或数据过时等问题,可能在数据集成过程中发生冲突.因此,需要通过数据融合以解决来自不同数据源的同一实体在集成过程中产生的冲突问题,从而保证数据的正确性与一致性,提升数据价值.此外,不同来源的数据本身以及数据集成过程中很可能产生数据质量问题.所以,数据清洗是贯穿整个数据集成过程的关键技术,旨在检测并修复脏数据,以确保数据集成的有效性.

尽管目前已有若干关于数据集成的综述性文献,但现有的综述性文献侧重于(1)描述数据集成的框架概念 [3-4]、发展脉络[5];或是(2)对数据集成中的某一关键技术(譬如实体解析[6-8]、数据融合[9]、数据清洗[10,11]等)进行综述,尚缺乏对数据集成中各项关键技术研究现状的全面探讨与分析.此外,随着 5G 和物联网等技术的飞速发展,网络数据内容呈现爆炸式增长的态势.由于互联网内容的大规模、异质多元、组织结构松散等特点,为人们有效地获取信息和知识提出了巨大挑战.不同于传统的关系型数据,知识图谱[12](Knowledge Graph,简称 KG)以其强大的语义处理能力和开放组织能力,已成为一种流行的数据组织形式.近年来,工业界和学术界都致力于构建大规模知识图谱.然而,尽管这些知识图谱的规模较大(存储了真实世界中的数百万条事实),但仍然是高度不完整的.例如,开源知识库 Freebase 中 71%的人没有对应的出生地,75%的人没有对应的国籍信息.此外,对于一些不常见的事实描述可能更不完整.因此,数据集成所关注的数据类型已不仅局限于传统的关系型数据,知识图谱亦是数据集成所需应对的关键数据类型.此外,亦有一些研究工作涉及面向半结构化数据（Json、XML 等）、非结构化数据（多媒体数据）的数据集成问题[13,14],然而此类工作仍处于起步阶段,尚未形成完整的体系. 鉴于此,本文从关系型数据和知识图谱两种关键数据类型出发,归纳总结并分析实体解析、数据融合、数据清洗三方面的数据集成关键技术(如图 1 所示),最后展望未来研究方向与趋势.

『实体解析』

实体解析是数据库、信息检索、机器学习、自然语言处理等领域的研究重点.近年来,专家学者对于实体解析的关注度日益提升,已提出了许多面向不同数据类型(包括知识图谱[7]、关系型数据[15,16]、文本数据[17]、图像数据[18]等)的实体解析技术.本节聚焦面向关系型数据与知识图谱的实体解析技术,下面分别对这两部分工作予以阐述和分析.

1.1 面向关系型数据的实体解析

概念与定义. 在现实生活中,大量的数据被存储为关系型数据.然而,这些数据通常分散在彼此孤立的数据库中,从而导致数据孤岛,阻碍数据的关联与共享[19].关系型数据实体解析长期以来是学术界和工业界所共同关注的研究热点[20,21],其旨在识别来自两个不同来源的元组是否指向真实世界中的同一对象(或称两者为正确匹配项),以打破数据孤岛,实现跨源数据之间的关联互通,从而为数据集成奠定基础.

1.2 面向知识图谱的实体解析

概念与定义. 知识图谱由一系列三元组(或称事实)所构成,其中每个三元组包含两个实体以及连接它们的关系.知识图谱作为一种被广泛使用的知识表现形式,能够以一种便于机器存储、识别和理解的方式对数据进行有效地组织与管理.在现实生活中,不同来源的知识图谱具有异构性和不完整性的特点,因而需要关联共享来自不同来源或不同语言的异构知识,以扩大知识规模、丰富知识内容,从而实现知识集成.面向知识图谱的实体解析是知识集成的先决条件,旨在关联不同来源知识图谱中指向真实世界同一对象的等价/匹配实体.长期以来,专家学者一直致力于探索各类知识图谱实体解析技术.

『数据融合』

由于数据不完整、数据错误和数据过时等问题,不同数据源可能产生相互矛盾的数据,对后续查询分析的结果产生误导作用.例如,人们拨打无效的电话号码可能无法联系上对方,或是导航到错误的诊所导致错过最佳就诊时间,从而导致严重后果.因此,解决不同来源数据之间的冲突问题并识别相关数据的真实/正确性显得至关重要.近年来,随着互联网的迅速发展以及网络监管的局限性,互联网成为了虚假信息泛滥的重灾区,数据冲突问题变得尤为突出.数据冲突可以被归纳为两种问题,即不确定性和矛盾性.不确定性由信息的不完整引起, 指非空值的数据与一个或多个空值数据之间的数据冲突.矛盾性是指两个或多个不同的非空值之间的冲突,这些非空值亦是对同一实体中相同属性的描述.数据融合的目标是通过鉴别不同来源数据的真实性,解决来自不同数据源的数据冲突问题,进而确保数据集成过程中的数据一致性.

『数据清洗』

在现实生活中,脏数据无处不在,各组织或机构的研究调查报告了惊人的脏数据比例：在全球顶尖的企业中,超过 25%的关键数据都存在一定的数据缺陷[162].脏数据的存在,不仅会导致错误的决定和不可靠的分析,还可能对企业经济造成巨额损失.例如,IBM 的报告指出：脏数据造成美国每年损失近 3 万亿美元[163].近几十年来, 数据清洗已成为学术界和工业界的研究重点,其旨在检测与修复脏数据（包括属性值域错误、错别字、缺失值、数据冗余等），从而提升数据质量[164].本节围绕关系型数据和知识图谱的数据清洗技术展开研究,下面将分别对这两部分的相关工作进行阐述和分析.

『研究展望与趋势』

面向关系型数据与知识图谱的数据集成技术是一个充满挑战性的研究课题,目前仍有大量的研究工作亟待进一步深入探讨.本节先依次对本文所聚焦的三类数据集成关键技术（即实体解析、数据融合以及数据清洗）的未来研究方向进行展望.而后,从数据类型角度出发,探讨未来数据集成技术在不同类型数据上的研究方向. 最后,进一步探究数据集成与数据治理之间的依存关系,指出未来研究趋势.

1）放松知识图谱实体解析技术研究的前提假设. 随着知识互联时代的日渐趋近,基于知识图谱的相关研究工作越来越受到专家学者的广泛重视.目前现有的知识图谱实体解析方法主要建立在以下两大前提假设上:(1)不同来源实体之间存在一一匹配关系;(2)已知一部分既定的实体解析标签.然而,现实生活中不同来源的知识图谱通常具有不同规模且高度不完整,因而无法为每个实体找到其对应的匹配项.为此,探讨非一一匹配约束下的知识图谱实体解析技术更具现实意义.另外,在现实生活中,由于实体解析在各行各业的需求日益增大, 故在少标签甚至无标签情况下探索有效的知识图谱实体解析技术,以降低成本、提高普适性,这对于实际应用而言至关重要.尽管本文已提出了若干基于实体名称信息的匹配标签生成策略,为降低知识图谱实体解析的成本提供了行之有效的方法.然而,现实生活中存在一类情况——由于隐私保护或数据编码等问题,导致实体名称差异过大,因而难以利用名称信息实现有效的标签自动生成策略.鉴于此,如何利用实体本身所蕴含的内在特征探索更为通用的标签生成策略或探讨有效的无监督方法,亦是值得进一步研究的关键问题.

2）支持大规模的关系型数据实体解析技术. 现有的关系型数据实体解析技术主要为单机算法,由于单机系统在存储容量、计算资源等方面的限制,其难以有效地处理大规模数据.此外,深度学习已在关系型数据实体解析任务上展现出强大的能力,但其复杂且庞大的模型架构与模型参数对大规模的关系型数据实体解析任务提出了进一步的挑战.因此,在大数据环境下,还需解决分布式存储、分布式模型训练等问题,以确保大规模关系型数据实体解析技术的可扩展性.另外,计算效率也是大规模关系型数据实体解析任务所亟待解决的关键问题,需深入地探索面向大规模关系型数据实体解析任务的数据分块、索引、剪枝等优化策略,以进一步提高计算效率.

3）支持来源广泛、类型异构的复杂数据融合技术. 大数据时代,数据来源复杂、类型异构、规模庞大, 如何高效地融合多源异构数据,确保数据的正确性与一致性至关重要.然而,现有的方法大多关注于单一的数据类型,难以有效地衡量具有异构特征但对应于同一实体的不同数据实例之间的正误性.另外,现有的数据融合方法耗时长且扩展性不高,难以支持大规模的数据融合,因而如何提升大数据环境下复杂数据融合效率仍有待进一步深入的研究.

4）低时延、高质量、易交互的数据清洗新模式. 随着大数据的蓬勃发展,数据规模不断增大.大多数现有的数据清洗方法侧重于全局数据清洗,其在应对大规模数据时易导致效率与可扩展性问题,难以满足现实生活中各种具有高时效性要求的数据查询与分析需求.为此,在线数据清洗技术应运而生.此类技术以用户查询或分析需求为主导,仅需清洗用户所需的数据集合,因而大大缩小了数据清洗的范围,能够在一定程度上提高清洗效率.然而,如何在包含脏数据的数据集中精准定位用户所需的数据范围,并以低时延、高质量、易交互的方式将清洗后的干净数据及时返回给用户,仍是需要深入探索的关键问题.

5）跨类型的数据集成新技术. 目前现有的数据集成技术大多关注于单一的数据类型,而较少关注于不同类型数据之间的交互.然而,大数据类型多样,半结构化数据（Json、XML 等）、非结构化数据（多媒体数据）等层出不穷,且随着万物互联时代的日益趋近,对于跨类型的数据集成需求日益迫切.尽管目前已有一些专家学者进行了初步尝试（譬如,Fan 等人[13]提出了支持关系型数据与图结构数据互通的异构实体解析技术）,但现有方法在数据种类数量、数据规模、效率等方面离满足实际的跨模态数据集成需求存在较大差距.

6）深入探索复杂数据治理技术. 实体解析、数据融合以及数据清洗不仅是数据集成的核心技术，更是数据治理中的关键步骤,但仅凭这些技术不足以解决当前复杂而多样的数据共享、共融、共用问题.所以,还需进一步深入地探索复杂数据融合、元数据管理、数据风险监测与预警等技术,从而为数据治理提供更丰富且有效的技术支撑.

『总结』

大数据时代普遍存在数据流通困难、监管不足等问题,导致数据共享薄弱、质量低下.这驱使研究人员探索数据治理技术,以实现数据共享、提升数据质量,从而激活数据要素潜能.数据集成作为数据治理的关键技术, 长期以来受到专家学者的重点关注.数据集成旨在通过实体解析、数据融合和数据清洗等技术,打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.本文聚焦关系型数据和知识图谱,归纳总结并分析了实体解析、数据融合、数据清洗三方面的现有数据集成关键技术,并展望了未来的研究方向与趋势,以供相关的研究工作人员参考.

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章