AAAI 2022 | 正交图神经网络

2022-11-17 04:11

©作者 | 桑士龙

单位 | 南京邮电大学

来源 | MIND Laboratory

论文介绍

图神经网络 (GNNs) 模型依靠消息传递和特征转换函数来编码来自邻居的结构和特征信息，消息传递是沿着边传递邻居消息，特征转换是通过投影节点嵌入来提高模型的学习能力，但卷积层太多则会导致 GNNs 的性能降低。最近的研究指出这个问题来源于过平滑，也就是因为图结构上的递归邻域聚合导致节点表示变得难以区分。最近提出了图增强等模型来缓解过平滑，主要思想是避免过多的邻域信息，在每个卷积层都强化自身的特定节点特征。

相比于深层的 GNNs 模型，本文更加关注影响浅层 GNNs 性能的主要因素。因为从图 1(d) 中可以看到，当 GNNs 的深度增加达到 8 层时，节点分类精度就会迅速下降，但此时还没有达到过平滑的状态。而作者发现仅仅移除特征转换模块，即便有几十个卷积层，但 GNNs 依然可以稳定的执行。

作者通过大量实验提出，因为设计了不恰当的特征转换导致不稳定的前向归一化和后向梯度，最终导致了 GNNs 性能下降。如图 1(a) 和 (b)vanilla GNNs 有前向嵌入爆炸和后向梯度消失的问题，前向嵌入爆炸改变了层之间的内部嵌入分布，使模型训练效率低下，后向梯度消失阻碍了特征转换模块适应下游任务的优化。因此作者认为 vanilla 特征转换在前向和后向都破坏了模型的稳定，从而导致性能降低。

为了克服训练的不稳定性，本文提出了一种新的正交特征变换方法来保证特征变换的正交性，称为 Ortho-GConv，可以对现有的 GNNs 进行扩展，提升泛化能力。

论文标题：

Orthogonal Graph Neural Networks

论文链接：

https://arxiv.org/pdf/2109.11338.pdf

论文贡献

1. 提出了两个衡量前向推理和后向梯度稳定性的指标，从理论和实验证明了不稳定特征变换对浅层 GNNs 的影响；

2. 提出了正交图卷积，称为 Ortho-GConv，来实现特征变换的正交性，稳定 GNNs 的前向和后向信号；

3. 使用实验测试了 Ortho-GConv 的性能。

实验方法

3.1 实验方法

给定一张无向图，令表示节点的特征矩阵，其中第行是节点对应的维特征向量，邻接矩阵和度矩阵分别为和，记和是由自循环增广的邻接矩阵和度矩阵，表示归一化的邻接矩阵。

在第 1 层的前向推理可以定义为：，其中表示第 l 层的节点嵌入矩阵，由X给出, 是例如 ReLU的非线性激活函数, 是线性变换矩阵。可知图卷积由两步组成，分别是基于矩阵的空间邻域聚合和基于矩阵的特征变换。

3.2 前向推理稳定性

在没有对矩阵适当约束的情况下，特征变换可以放大节点嵌入的量级，这种放大的幅度呈指数增长，从而导致前向节点嵌入的不确定性和随机性。为了量化节点嵌入在整个 GNN 模型中幅度放大，将信号放大率定义为：

较大表示在前向推理过程中，节点嵌入被过度放大，理想值应该为 1，保证嵌入幅度和层间信号分布相同。

3.3 后向梯度稳定性

作者从参数的角度对梯度进行了分析，通过简化非线性激活函数可以得到，含非线性和不含非线性的 GNNs具有类似的节点分类性能和学习曲线，简化模型可以更直观的理解后向梯度。给定 L 层的线性 GNNs 模型和特定的训练损失层对参数的梯度为：

为了在第I层更新参数，最初始的梯度由后面的 L-I 层进行平滑。在训练中产生损失，这样的平滑和变换会使大部分梯度近似于零，也就是后向梯度可能在最初几层后消失，这阻止了 GNNs 训练。为了研究梯度消失的影响，作者选择使用梯度范数。

3.4 正交性

域聚合后的节点嵌入。正交权值可以保留经过特征转换模块的信号的前向嵌入和后向梯度。文中列举了正交特征变换对稳定简化的 GNNs 的好处：1) 节点嵌入和的 F 范数保持一致，可以约束嵌入幅度，使近似为 1；2）在特征转换时可以保持后向梯度范数稳定。

由于节点特征通常包含下游任务的关键信息，直观的正交初始化会加速训练过程向局部极小化，达到局部最优，损害模型的学习能力。即使在严格正交的情况下，由于邻居聚合和非线性激活函数的影响，也无法保持连续层的嵌入稳定。在简化后的 GNNs 中，正交性只能得到，而不是严格等于非线性 GNNs 的连续层中的。因此作者提出了正交图卷积，从混合权值初始化、正交变换和正交正则化三个角度对正交性设计进行综合优化。

3.4.1 混合权值初始化

尽管正交初始化可以有效地训练神经网络，但快速收敛可能会迭代到局部最优，加剧过拟合问题。为了取得正交性和模型学习能力之间的权衡，作者提出混合权值初始化，在第 l 层设置权值

。其中由传统的随机方法初始化，是超参数。

3.4.2 正交变换