Redian新闻
>
一文盘点图数据增广 (Graph Data Augmentation) 近期进展

一文盘点图数据增广 (Graph Data Augmentation) 近期进展

公众号新闻

©作者 | 刘纪玺

单位 | 北邮GAMMA Lab

来源 | 北邮GAMMA Lab





本文旨在简要总结近期在 graph 领域新提出的数据增广方法,带领读者了解图数据增广的基本定义和最新进展。



简介


近年来,以数据为驱动的推理在数据增广技术的引进后,泛化能力和模型性能方面得到了显着提升。数据增广技术通过创建现有数据的合理变体而无需额外的真实标签来增加训练数据量,并且已在计算机视觉(CV)和自然语言处理(NLP)得到广泛应用。

而随着图神经网络等图机器学习方法的快速发展,人们对图数据增广技术(GDA)的兴趣和需求不断增加。但由于图数据的不规则和非欧结构,很难将 CV 和 NLP 中使用的数据增广技术(DA)直接应用到 graph 领域。

此外,图机器学习面临着独特的挑战,例如特征数据的不完整性,幂律分布带来的结构数据稀疏性,由于人工标注的昂贵成本所导致的标记数据的缺乏,以及 GNN 中消息传递会导致的过度平滑。为了应对这些挑战,关于图数据增广的工作越来越多。

类似于 CV 和 NLP 的数据增广技术,图数据增广技术通过修改或生成来创建数据对象。然而,由于图是连接数据,与图像和文本不同,图机器学习中的数据对象通常是非独立同分布的。因此,无论是节点级和边级,抑或是图级别的任务,图数据增广技术往往会对整个图数据集做出改动。

基于此,GraphCL(NIPS 2020)提供了最常用的四种增广策略,分别是节点丢弃(Node Dropping),边扰动(Edge Puturbation),属性掩膜(Attribute masking)和子图采样(Subgraph Sampling)。虽然上述尝试将数据增广应用到了 Graph 中,但它们通常无法生成关于原始图语义的视图或使增广策略来适应特定的图学习任务。



下面将分别介绍近期提出的三篇工作:一种新的增广策略,一种自动选择已有增广策略的自动图对比学习方法,以及一种将元学习应用到图数据增广的可学习增广方法。



方法介绍


2.1 -Mixup



论文标题:

G-Mixup: Graph Data Augmentation for Graph Classification

论文链接:

https://arxiv.org/pdf/2202.07179.pdf

文章来自获得杰出论文奖的莱斯大学胡侠团队作者:

Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu


在这项研究中,作者提出了一种新的图数据增广方法:-Mixup,实验表明,-Mixup 能够提高图神经网络的泛化性和鲁棒性。


2.1.1 动机


当前流行的数据增广方法 Mixup 通过在两个随机样本之间插入特征和标签,在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是,Mixup 更适用于处理图像数据或表格数据,直接将其用于图数据并非易事,因为不同的图通常:

  • 有不同数量的节点;

  • 不容易对齐;

  • 在非欧几里得空间中的类型学具有特殊性。


为此,提出了一种 class-level 的图数据增广方法:-Mixup。具体来说,首先使用同一类中的图来估计一个 graphon。然后,在欧几里得空间中对不同类的 graphons 进行插值,得到混合的 graphons,合成图便是通过基于混合 graphons 的采样生成的。经实验评估,-Mixup 显着提高了图神经网络的泛化性和鲁棒性。


2.1.2 主要贡献

1. 首先,本文提出了 G-Mixup 来扩充用于图分类的训练图。由于直接混合图是难以处理的,因此 G-Mixup 将不同类别的图的图元混合以生成合成图。

2. 其次,本文从理论上证明合成图将是原始图的混合,其中源图的关键拓扑(即判别主题)将被混合。

3. 最后,本文证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明,G-Mixup 在增广图神经网络的泛化性和鲁棒性方面显著提高了其性能。


2.1.3 -Mixup的实现方法

作者使用矩阵形式的阶进函数作为 graphon 来混合和生成合成图。对阶跃函数估计方法,作者首先根据节点测量值将节点对齐在一组图中,然后从所有对齐的邻接矩阵中估计阶跃函数。

与图像数据在欧氏空间中的插值不同,由于图是不规则的、不对齐的、非欧氏的数据,所以对图数据的插值不是一件简单的事情。本文证明了这些挑战可以用 graphon 理论来解决。直观地说,一个图可以看作是一个图生成器。同一类的图可以看作是从同一个图上生成的。考虑到这一点,本文提出了 G-Mixup,一种通过图形插值的类级数据增广方法。

-Mixup 对不同的图生成器进行插值,得到一个新的混合图生成器。然后,基于混合 graphon 对合成图进行采样,实现数据扩充。从该生成器中采样的图部分具有原始图的性质。形式上,G-Mixup 的表达式为:


其中 是图集 的 graphons。混合 graphon 由 表示, 是控制不同源集贡献的权值超参数。由 生成的合成集合  和 分别是包含图 和图 的真实标签的向量, 其中 为类的数量。图集 中合成图的标签向量记为 。如图 1 和上面的方程所示,提出的 G-Mixup 包括三个关键步骤:
1)为每一类图估计一个 graphon;
2)混合不同图类的 graphons;

3)基于混合 graphons 生成合成图。


具体来说,假设我们有两个图集标签  标签为 。Graphons 分别从图集 中估计。然后,我们通过线性揷值两个 graphons 及其标签将它们混合,得到 。最后,基于 对一组合成图 进行采样,作为额外的训练图数据。

▲ 图 1:在二值图分类任务中,有两类不同的图 G 和 H,二者拓扑不同(G 有两个社区,而 H 有八个社区)。G 和 H 具有不同的 graphons。


Graphon 估计和混合:graphon 是一个末知函数,没有真实图形的封闭表达式。因此 ,我们使用阶进函数来近似 graphon。一般来说。阶梯函数可以看成是一个矩阵 ,其中 是节点 和节点 之间存在边的概率。
在实践中,我们使用矩阵形式的阶梯函数作为 graphon 来混合并生成合成图。阶进函数估计方法已经得到了很好的研究,该方法首先根据节点测量值(如度)对一组图中的节点进行对齐,然后从所有对齐的邻接矩阵中估计阶进函数。典型的阶进函数估计方法包括排序和平滑(SAS)方法,随机块逼近(SBA),“最大差距”(LG),矩阵完成(MC),通用奇异值阈值(USVT)。
在形式上,一个阶进函数被定义为 ,其中 表示将 划分成长度为  个相邻区间,如果 ,则指示函数 ,否则为 0 。
对于二分类问题,我们有   具有不同的标签,我们估计他们的阶进函数 ,其中我们让 为所有图中节点的平均数量。对于多类分类,我们首先估计每一类图的阶进函数,然后随机选择两类图进行混合。所得的阶进函数 ,作为合成图的生成器。
合成图生成:graphon  提供了一个分布来生成任意大小的图。具体来说, 节点随机图 的生成过程如下:



我们设 。第一步在 上独立于均匀分布 对 K 个节点进行采样。第二步生成邻接矩阵 其元素值遵循由阶梯函数确定的伯努利分布 。由此得到一个图 ,其 和 通过多次执行上述过程,可以生成一组合成图。

合成图节点特征的生成包括两个步骤:

1)基于原始节点特征构建 graphon 节点特征;

2)基于 graphon 节点特征生成合成图节点特征。


具体来说,在 graphon 估计阶段,我们在对齐邻接矩阵的同时对齐原始节点特征,因此我们对每个 graphon 都有一组对齐的原始节点特征,然后我们对对齐的原始节点特征进行池化(在我们的实验中是平均池化),获得图形节点特征。生成的图的节点特征与 graphon 特征相同。


2.2 AutoGCL



论文标题:

AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators

论文链接:

https://arxiv.org/abs/2109.10259

论文作者:

Yin, Yihang and Wang, Qingzhong and Huang, Siyu and Xiong, Haoyi and Zhang, Xiang

代码链接:

https://github.com/Somedaywilldo/AutoGCL


2.2.1 动机


对比学习已广泛应用于图表示学习,其中视图生成器在生成有效对比样本方面起着至关重要的作用。大多数现有的对比学习方法采用预定义的视图生成方法,例如节点丢弃或边缘扰动,通常不能很好地适应输入数据或保留原始语义结构。为了解决这个问题,本文提出了一个名为自动图对比学习(AutoGCL)的新框架。


2.2.2 主要贡献


  • 提出了一个图形对比学习框架,其中可学习的图形视图生成器嵌入到自动增广策略中。据我们所知,这是第一项为图对比学习构建可学习的生成节点增广策略的工作。
  • 提出了一种联合训练策略,用于在图对比学习的背景下以端到端的方式训练图视图生成器、图编码器和图分类器。
  • 本文在具有半监督、无监督和迁移学习设置的各种图形分类数据集上广泛评估了所提出的方法。t-SNE 和视图可视化结果也证明了方法的有效性。


2.2.3 论文方法



如何设计一个好的图视图生成器

一个理想的用于数据扩展和对比学习的图视图生成器应该满足以下特性:

(1)同时支持增广图拓扑结构以及结点特征。

(2)具有标签保持性,即增广图应保持原图的语义信息。

(3)适应不同的数据分布,可扩展到大型图。

(4)为对比多视图训练前提供足够的方差。

(5)它是端到端可微的,对于反向传播(BP)梯度快速计算足够有效。

本文的视图生成器(增广策略)包括:结点丢弃和特征掩膜,但又比这两种方法更为的灵活,因为可以自适应的选择。

可学习的视图生成器


视图生成器如上图所示。首先使用 GNN 来从结点特征获得结点嵌入。对于每一个结点,使用结点的嵌入结点特征来预测选择一个数据增广方法的概率。结点数据增广的方法包括:丟弃节点,保持不变和属性掩膜。本文使用 gumbel-softamx 从这些概率中采样,相当于自适应地从三种方法中选择最优的增广策略,然后给每个节点分配一个增广操作。

如果采用 GNN 层作为嵌入层,那么将 记为结点 在第 层的隐藏状态, 记为结点 在第 层的嵌入。对于每一个结点 都有结点特征 ,增广选择 以及应用数据增广的函数 。结点 的增广特征 通过以下公式获得:




将最后一层 的维度设为每个节点的可能增广次数。 记作选择某种数据增广的概率。 是通过 gumbel-softmax 得到的分布中采集的 one-hot 向量。增广应用函数 通过不同的操作结合结点

对于增广后的图谱,边缘通过对所有的 使用操作 进行更新,当结点被移除时,边也被删除。由于边缘只是节点特征聚合的指导,不参与梯度计算,因此不需要以可微的方式更新。因此,视图生成器是端到端可微的。GNN 嵌入层和 gumbel-softmax 可以有效地扩展到更大的图数据集和更多的扩展选择。


2.3 MEGA



论文标题:

Bootstrapping Informative Graph Augmentation via A Meta Learning Approach

论文链接:

https://arxiv.org/pdf/2201.03812.pdf

论文作者:

Hang Gao, Jiangmeng Li, Wenwen Qiang, Lingyu Si, Fuchun Sun, Changwen Zheng

代码链接:

https://github.com/hang53/MEGA


2.3.1 动机


在图对比学习中,各种基准方法也都应用了各种图增广的方法。然而,大多数增广方法都是不可学习的,这会导致生成无益的增广图的问题。这种增广可能会降低图形对比学习方法的表示能力。

因此,本文使用可学习的图增广器生成增广图,称为 MEta 图增广(MEGA)。一个“好的”图形增广必须在实例级别具有一致性,在特征级别具有信息量。为此,本文据此提出了一种学习图形增广器的新方法,该方法可以生成具有均匀性和信息量的增广。图增广器的目标是促进特征提取网络学习更具辨别力的特征表示,本文的方法结合了元学习范式来达成该目标。

2.3.2 主要贡献


  • 本文提出了一种可学习的方法来生成信息图扩充,称为元图扩充,它提高了图对比学习的性能。
  • 本文提出了一种辅助元学习方法来训练可学习的图形增广器,它引导编码器学习在实例级别具有均匀性和在特征级别具有信息量的表示。
  • 本文在基准数据集上进行实验,将方法与最先进的图自监督学习方法进行比较,结果证明了该方法的优越性。


2.3.3 MEGA模型


框架



Learnable graph augmentation

该方法核心的部分为 Learnable graph augmentation,该部分由一个 GNNencoder 和 一个  MLP 组成,该工作中   MLP 使用的是两个线性层和一个 Relu 激活函数来引入了非线性因素,原图和增广图都是使用的加入了自信息的邻接矩阵,将原图和经过可学习增广器后得到的增广图用共享参数的  GNNencoder 以及 projection head 映射后进行对比学习,得到对比学习的 loss :



Auxiliary meta-learning

用元学习的 pipeline 来看,该对比学习过程作为内层学习器,而外层元学习器的 loss,则分别引入了实例级别和 feature 级别的目标来指导训练。

C 表示一个 batch 中原始图和增广图的图级别的特征之间的互相关矩阵:


D 表示图级别的特征中,某两个特征维度之间的关系,这是用一个 batch 中所有的图来计算的:


由此可以定义元学习 loss :





总结


这三篇工作分别提出一种新的增广策略,一种自动选择增广策略的自动图对比学习方法,以及一种将元学习应用到图数据增广的可学习增广方法,对图数据增广的自动学习和新的增广策略进行了深入的探究。由此可见,用新的图增广策略和可适应的自动图增广能够解决当前对比学习存在的一些问题并取得很好的效果,也启发我们能够在该领域进行更加深入的研究。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北京新增本土31+33!近期进返京问题诉求集中,北京12345回应bāo huā shēng?bō huā shēng?Happy New Year!! 中英文盘点 世界各国跨年盛典!黎舒苇听《归途有风》阿里开发者2022年度技术热文盘点在美国北方,荷花(莲藕)怎么过冬?君权与神权 信仰的颠覆(六十)EMNLP 2022 | 基于视角转换的反事实数据增强方法没有这套OSM全国地图数据,你的ArcGIS彻底废了!秋游河溪--看不够的 Erindale 公园备战2023年H1B抽签!一文盘点工作签证申请全流程Mphil/PhD student recruitmentGENIUS:一个基于“草稿”进行文本生成、数据增强的“小天才”模型高并发图数据库系统如何实现?NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习一文盘点十大币安孵化项目马斯克再售特斯拉股票,套现 36 亿美元;苹果 VR 头显或在 WWDC 发布;Meta微软合作地图数据对抗谷歌 | 极客早知道苹果iOS审核新增广告买量约束条款:不准跳过iOS内购搞促销!平价买到高级感!IKEA全新 OBEGRÄNSAD系列,全系列都好看!WPP收购北美数字机构Fēnom Digital;凯捷旗下The Works公司公布新任命(广告狂人日报)一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势Bankless:一文盘点四大去中心化永续合约平台​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强备战2023年H1B抽签!一文盘点全流程AAAI 2023 | 均匀序列更好:时间间隔感知的序列推荐数据增强方法一文浅谈Graph Transformer领域近期研究进展NFT百花齐放,一文盘点主要国家监管态度2022生成模型进展有多快?新论文盘点9类生成模型代表作歌舞伎町,门可罗雀Graph Transformer近期进展NeurIPS 2022 | 面向图数据分布外泛化的因果表示学习从多篇顶会论文看图神经网络黑盒攻击近期进展IKEA x OBEGRÄNSAD联名!宜家22年最受瞩目系列开售!英国银行 | NatWest Group 2023 Graduate Programme 开放中,福利待遇优厚Web Series Revisits Hostels Serving as Refuge for Migrant Women
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。