一文盘点图数据增广 (Graph Data Augmentation) 近期进展

公众号新闻

2022-12-14 05:12

©作者 | 刘纪玺

单位 | 北邮GAMMA Lab

来源 | 北邮GAMMA Lab

本文旨在简要总结近期在 graph 领域新提出的数据增广方法，带领读者了解图数据增广的基本定义和最新进展。

简介

近年来，以数据为驱动的推理在数据增广技术的引进后，泛化能力和模型性能方面得到了显着提升。数据增广技术通过创建现有数据的合理变体而无需额外的真实标签来增加训练数据量，并且已在计算机视觉（CV）和自然语言处理（NLP）得到广泛应用。

而随着图神经网络等图机器学习方法的快速发展，人们对图数据增广技术（GDA）的兴趣和需求不断增加。但由于图数据的不规则和非欧结构，很难将 CV 和 NLP 中使用的数据增广技术（DA）直接应用到 graph 领域。

此外，图机器学习面临着独特的挑战，例如特征数据的不完整性，幂律分布带来的结构数据稀疏性，由于人工标注的昂贵成本所导致的标记数据的缺乏，以及 GNN 中消息传递会导致的过度平滑。为了应对这些挑战，关于图数据增广的工作越来越多。

类似于 CV 和 NLP 的数据增广技术，图数据增广技术通过修改或生成来创建数据对象。然而，由于图是连接数据，与图像和文本不同，图机器学习中的数据对象通常是非独立同分布的。因此，无论是节点级和边级，抑或是图级别的任务，图数据增广技术往往会对整个图数据集做出改动。

基于此，GraphCL（NIPS 2020）提供了最常用的四种增广策略，分别是节点丢弃（Node Dropping），边扰动（Edge Puturbation），属性掩膜（Attribute masking）和子图采样（Subgraph Sampling）。虽然上述尝试将数据增广应用到了 Graph 中，但它们通常无法生成关于原始图语义的视图或使增广策略来适应特定的图学习任务。

下面将分别介绍近期提出的三篇工作：一种新的增广策略，一种自动选择已有增广策略的自动图对比学习方法，以及一种将元学习应用到图数据增广的可学习增广方法。

方法介绍

2.1 -Mixup

论文标题：

G-Mixup: Graph Data Augmentation for Graph Classification

论文链接：

https://arxiv.org/pdf/2202.07179.pdf

文章来自获得杰出论文奖的莱斯大学胡侠团队作者：

Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu

在这项研究中，作者提出了一种新的图数据增广方法：-Mixup，实验表明，-Mixup 能够提高图神经网络的泛化性和鲁棒性。

2.1.1 动机

当前流行的数据增广方法 Mixup 通过在两个随机样本之间插入特征和标签，在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是，Mixup 更适用于处理图像数据或表格数据，直接将其用于图数据并非易事，因为不同的图通常：

有不同数量的节点；
不容易对齐；
在非欧几里得空间中的类型学具有特殊性。

为此，提出了一种 class-level 的图数据增广方法：-Mixup。具体来说，首先使用同一类中的图来估计一个 graphon。然后，在欧几里得空间中对不同类的 graphons 进行插值，得到混合的 graphons，合成图便是通过基于混合 graphons 的采样生成的。经实验评估，-Mixup 显着提高了图神经网络的泛化性和鲁棒性。

2.1.2 主要贡献

1. 首先，本文提出了 G-Mixup 来扩充用于图分类的训练图。由于直接混合图是难以处理的，因此 G-Mixup 将不同类别的图的图元混合以生成合成图。

2. 其次，本文从理论上证明合成图将是原始图的混合，其中源图的关键拓扑（即判别主题）将被混合。

3. 最后，本文证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明，G-Mixup 在增广图神经网络的泛化性和鲁棒性方面显著提高了其性能。

2.1.3 -Mixup的实现方法

作者使用矩阵形式的阶进函数作为 graphon 来混合和生成合成图。对阶跃函数估计方法，作者首先根据节点测量值将节点对齐在一组图中，然后从所有对齐的邻接矩阵中估计阶跃函数。

与图像数据在欧氏空间中的插值不同，由于图是不规则的、不对齐的、非欧氏的数据，所以对图数据的插值不是一件简单的事情。本文证明了这些挑战可以用 graphon 理论来解决。直观地说，一个图可以看作是一个图生成器。同一类的图可以看作是从同一个图上生成的。考虑到这一点，本文提出了 G-Mixup，一种通过图形插值的类级数据增广方法。

-Mixup 对不同的图生成器进行插值，得到一个新的混合图生成器。然后，基于混合 graphon 对合成图进行采样，实现数据扩充。从该生成器中采样的图部分具有原始图的性质。形式上，G-Mixup 的表达式为：

其中是图集和的 graphons。混合 graphon 由表示，是控制不同源集贡献的权值超参数。由生成的合成集合

和分别是包含图和图的真实标签的向量, 其中为类的数量。图集中合成图的标签向量记为。如图 1 和上面的方程所示，提出的 G-Mixup 包括三个关键步骤：

1）为每一类图估计一个 graphon；

2）混合不同图类的 graphons；

3）基于混合 graphons 生成合成图。

具体来说，假设我们有两个图集，标签，标签为。Graphons 和分别从图集和中估计。然后，我们通过线性揷值两个 graphons 及其标签将它们混合，得到和。最后，基于对一组合成图进行采样，作为额外的训练图数据。

▲ 图 1：在二值图分类任务中，有两类不同的图 G 和 H，二者拓扑不同（G 有两个社区，而 H 有八个社区）。G 和 H 具有不同的 graphons。

Graphon 估计和混合：graphon 是一个末知函数，没有真实图形的封闭表达式。因此，我们使用阶进函数来近似 graphon。一般来说。阶梯函数可以看成是一个矩阵，其中是节点和节点之间存在边的概率。

在实践中，我们使用矩阵形式的阶梯函数作为 graphon 来混合并生成合成图。阶进函数估计方法已经得到了很好的研究，该方法首先根据节点测量值（如度）对一组图中的节点进行对齐，然后从所有对齐的邻接矩阵中估计阶进函数。典型的阶进函数估计方法包括排序和平滑（SAS）方法，随机块逼近（SBA），“最大差距”（LG），矩阵完成（MC），通用奇异值阈值（USVT）。

在形式上，一个阶进函数被定义为

，其中表示将划分成长度为的个相邻区间，如果，则指示函数，否则为 0 。

对于二分类问题，我们有和具有不同的标签，我们估计他们的阶进函数和，其中我们让为所有图中节点的平均数量。对于多类分类，我们首先估计每一类图的阶进函数，然后随机选择两类图进行混合。所得的阶进函数

，作为合成图的生成器。

合成图生成：graphon 提供了一个分布来生成任意大小的图。具体来说，节点随机图的生成过程如下：

我们设

。第一步在上独立于均匀分布对 K 个节点进行采样。第二步生成邻接矩阵，其元素值遵循由阶梯函数确定的伯努利分布。由此得到一个图，其中和。通过多次执行上述过程，可以生成一组合成图。

合成图节点特征的生成包括两个步骤：

1）基于原始节点特征构建 graphon 节点特征；

2）基于 graphon 节点特征生成合成图节点特征。

具体来说，在 graphon 估计阶段，我们在对齐邻接矩阵的同时对齐原始节点特征，因此我们对每个 graphon 都有一组对齐的原始节点特征，然后我们对对齐的原始节点特征进行池化（在我们的实验中是平均池化），获得图形节点特征。生成的图的节点特征与 graphon 特征相同。

2.2 AutoGCL

论文标题：

AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators

论文链接：

https://arxiv.org/abs/2109.10259

论文作者：

Yin, Yihang and Wang, Qingzhong and Huang, Siyu and Xiong, Haoyi and Zhang, Xiang

代码链接：

https://github.com/Somedaywilldo/AutoGCL

2.2.1 动机

对比学习已广泛应用于图表示学习，其中视图生成器在生成有效对比样本方面起着至关重要的作用。大多数现有的对比学习方法采用预定义的视图生成方法，例如节点丢弃或边缘扰动，通常不能很好地适应输入数据或保留原始语义结构。为了解决这个问题，本文提出了一个名为自动图对比学习（AutoGCL）的新框架。

2.2.2 主要贡献

提出了一个图形对比学习框架，其中可学习的图形视图生成器嵌入到自动增广策略中。据我们所知，这是第一项为图对比学习构建可学习的生成节点增广策略的工作。
提出了一种联合训练策略，用于在图对比学习的背景下以端到端的方式训练图视图生成器、图编码器和图分类器。
本文在具有半监督、无监督和迁移学习设置的各种图形分类数据集上广泛评估了所提出的方法。t-SNE 和视图可视化结果也证明了方法的有效性。

2.2.3 论文方法

如何设计一个好的图视图生成器

一个理想的用于数据扩展和对比学习的图视图生成器应该满足以下特性：

（1）同时支持增广图拓扑结构以及结点特征。

（2）具有标签保持性，即增广图应保持原图的语义信息。

（3）适应不同的数据分布，可扩展到大型图。

（4）为对比多视图训练前提供足够的方差。

（5）它是端到端可微的，对于反向传播（BP）梯度快速计算足够有效。

本文的视图生成器（增广策略）包括：结点丢弃和特征掩膜，但又比这两种方法更为的灵活，因为可以自适应的选择。

可学习的视图生成器

视图生成器如上图所示。首先使用 GNN 来从结点特征获得结点嵌入。对于每一个结点，使用结点的嵌入结点特征来预测选择一个数据增广方法的概率。结点数据增广的方法包括：丟弃节点，保持不变和属性掩膜。本文使用 gumbel-softamx 从这些概率中采样，相当于自适应地从三种方法中选择最优的增广策略，然后给每个节点分配一个增广操作。

如果采用个 GNN 层作为嵌入层，那么将记为结点在第层的隐藏状态，记为结点在第层的嵌入。对于每一个结点都有结点特征，增广选择以及应用数据增广的函数。结点的增广特征通过以下公式获得：

将最后一层的维度设为每个节点的可能增广次数。记作选择某种数据增广的概率。是通过 gumbel-softmax 得到的分布中采集的 one-hot 向量。增广应用函数通过不同的操作结合结点和。

对于增广后的图谱，边缘通过对所有的使用操作进行更新，当结点被移除时，边也被删除。由于边缘只是节点特征聚合的指导，不参与梯度计算，因此不需要以可微的方式更新。因此，视图生成器是端到端可微的。GNN 嵌入层和 gumbel-softmax 可以有效地扩展到更大的图数据集和更多的扩展选择。

2.3 MEGA

论文标题：

Bootstrapping Informative Graph Augmentation via A Meta Learning Approach

论文链接：

https://arxiv.org/pdf/2201.03812.pdf

论文作者：

Hang Gao, Jiangmeng Li, Wenwen Qiang, Lingyu Si, Fuchun Sun, Changwen Zheng

代码链接：

https://github.com/hang53/MEGA

2.3.1 动机

在图对比学习中，各种基准方法也都应用了各种图增广的方法。然而，大多数增广方法都是不可学习的，这会导致生成无益的增广图的问题。这种增广可能会降低图形对比学习方法的表示能力。

因此，本文使用可学习的图增广器生成增广图，称为 MEta 图增广（MEGA）。一个“好的”图形增广必须在实例级别具有一致性，在特征级别具有信息量。为此，本文据此提出了一种学习图形增广器的新方法，该方法可以生成具有均匀性和信息量的增广。图增广器的目标是促进特征提取网络学习更具辨别力的特征表示，本文的方法结合了元学习范式来达成该目标。

2.3.2 主要贡献

本文提出了一种可学习的方法来生成信息图扩充，称为元图扩充，它提高了图对比学习的性能。
本文提出了一种辅助元学习方法来训练可学习的图形增广器，它引导编码器学习在实例级别具有均匀性和在特征级别具有信息量的表示。
本文在基准数据集上进行实验，将方法与最先进的图自监督学习方法进行比较，结果证明了该方法的优越性。

2.3.3 MEGA模型

框架

Learnable graph augmentation

该方法核心的部分为 Learnable graph augmentation，该部分由一个 GNNencoder 和一个 MLP 组成，该工作中 MLP 使用的是两个线性层和一个 Relu 激活函数来引入了非线性因素，原图和增广图都是使用的加入了自信息的邻接矩阵，将原图和经过可学习增广器后得到的增广图用共享参数的 GNNencoder 以及 projection head 映射后进行对比学习，得到对比学习的 loss ：

Auxiliary meta-learning

用元学习的 pipeline 来看，该对比学习过程作为内层学习器，而外层元学习器的 loss，则分别引入了实例级别和 feature 级别的目标来指导训练。

C 表示一个 batch 中原始图和增广图的图级别的特征之间的互相关矩阵：

D 表示图级别的特征中，某两个特征维度之间的关系，这是用一个 batch 中所有的图来计算的：

由此可以定义元学习 loss ：

总结

这三篇工作分别提出一种新的增广策略，一种自动选择增广策略的自动图对比学习方法，以及一种将元学习应用到图数据增广的可学习增广方法，对图数据增广的自动学习和新的增广策略进行了深入的探究。由此可见，用新的图增广策略和可适应的自动图增广能够解决当前对比学习存在的一些问题并取得很好的效果，也启发我们能够在该领域进行更加深入的研究。

更多阅读