Redian新闻
>
AAAI 2022 | 正交图神经网络

AAAI 2022 | 正交图神经网络

公众号新闻


©作者 | 桑士龙
单位 | 南京邮电大学
来源 | MIND Laboratory




论文介绍


图神经网络 (GNNs) 模型依靠消息传递和特征转换函数来编码来自邻居的结构和特征信息,消息传递是沿着边传递邻居消息,特征转换是通过投影节点嵌入来提高模型的学习能力,但卷积层太多则会导致 GNNs 的性能降低。最近的研究指出这个问题来源于过平滑,也就是因为图结构上的递归邻域聚合导致节点表示变得难以区分。最近提出了图增强等模型来缓解过平滑,主要思想是避免过多的邻域信息,在每个卷积层都强化自身的特定节点特征。 


相比于深层的 GNNs 模型,本文更加关注影响浅层 GNNs 性能的主要因素。因为从图 1(d) 中可以看到,当 GNNs 的深度增加达到 8 层时,节点分类精度就会迅速下降,但此时还没有达到过平滑的状态。而作者发现仅仅移除特征转换模块,即便有几十个卷积层,但 GNNs 依然可以稳定的执行。


作者通过大量实验提出,因为设计了不恰当的特征转换导致不稳定的前向归一化和后向梯度,最终导致了 GNNs 性能下降。如图 1(a) 和 (b)vanilla GNNs 有前向嵌入爆炸和后向梯度消失的问题,前向嵌入爆炸改变了层之间的内部嵌入分布,使模型训练效率低下,后向梯度消失阻碍了特征转换模块适应下游任务的优化。因此作者认为 vanilla 特征转换在前向和后向都破坏了模型的稳定,从而导致性能降低。 



为了克服训练的不稳定性,本文提出了一种新的正交特征变换方法来保证特征变换的正交性,称为 Ortho-GConv,可以对现有的 GNNs 进行扩展,提升泛化能力。


论文标题:
Orthogonal Graph Neural Networks

论文链接:

https://arxiv.org/pdf/2109.11338.pdf




论文贡献

1. 提出了两个衡量前向推理和后向梯度稳定性的指标,从理论和实验证明了不稳定特征变换对浅层 GNNs 的影响;

2. 提出了正交图卷积,称为 Ortho-GConv,来实现特征变换的正交性,稳定 GNNs 的前向和后向信号;

3. 使用实验测试了 Ortho-GConv 的性能。




实验方法

3.1 实验方法
给定一张无向图 ,令 表示节点的特征矩阵,其中第 行是节点 对应的 维特征向量,邻接矩阵和度矩阵分别为 ,记 是由自循环增广的邻接矩阵和度矩阵表示归一化的邻接矩阵。
在第 1 层的前向推理可以定义为其中 表示第 l 层的节点嵌入矩阵, 由X给出, 是例如 ReLU的非线性激活函数, 是线性变换矩阵。可知图卷积由两步组成,分别是基于矩阵 的空间邻域聚合和基于矩阵 的特征变换。
3.2 前向推理稳定性
在没有对矩阵 适当约束的情况下,特征变换可以放大节点嵌入的量级,这种放大的幅度呈指数增长,从而导致前向节点嵌入的不确定性和随机性。为了量化节点嵌入在整个 GNN 模型中幅度放大,将信号放大率定义为:


较大表示在前向推理过程中,节点嵌入被过度放大,理想值应该为 1,保证嵌入幅度和层间信号分布相同。
3.3 后向梯度稳定性
作者从参数 的角度对梯度进行了分析,通过简化非线性激活函数可以得到 ,含非线性和不含非线性的 GNNs具有类似的节点分类性能和学习曲线,简化模型可以更直观的理解后向梯度。给定 L 层的线性 GNNs 模型和特定的训练损失 层对参数 的梯度为:
为了在第I层更新参数 ,最初始的梯度 由后面的 L-I 层进行平滑 在训练中产生损失,这样的平滑和变换会使大部分梯度近似于零,也就是后向梯度可能在最初几层后消失,这阻止了 GNNs 训练。为了研究梯度消失的影响,作者选择使用梯度范数 
3.4 正交性
域聚合后的节点嵌入。正交权值 可以保留经过特征转换模块的信号的前向嵌入和后向梯度。文中列举了正交特征变换对稳定简化的 GNNs 的好处:1) 节点嵌入 的 F 范数保持一致,可以约束嵌入幅度,使 近似为 1;2)在特征转换时可以保持后向梯度范数稳定。
由于节点特征通常包含下游任务的关键信息,直观的正交初始化会加速训练过程向局部极小化,达到局部最优,损害模型的学习能力。即使在 严格正交的情况下,由于邻居聚合和非线性激活函数的影响,也无法保持连续层的嵌入稳定。在简化后的  GNNs 中,正交性只能得到 而不是严格等于非线性 GNNs 的连续层中的 因此作者提出了正交图卷积,从混合权值初始化、正交变换和正交正则化三个角度对正交性设计进行综合优化。
3.4.1 混合权值初始化
尽管正交初始化可以有效地训练神经网络,但快速收敛可能会迭代到局部最优,加剧过拟合问题。为了取得正交性和模型学习能力之间的权衡,作者提出混合权值初始化,在第 l 层设置权值 。其中 由传统的随机方法初始化, 是超参数。
3.4.2 正交变换
给定初始权值 ,本文使用一个额外的正交变换层对其进行变换,在将其用于特征变换之前改善正交性,文中使用牛顿迭代法,分为两步:光谱边界和正交投影。由第一步可以得到 然后将正交投影映射到矩阵 可以获得正交权值
3.4.3 正交正则化
即使在特征变换中使用正交矩阵 ,由于 GNNs 的邻域聚合和非线性激活,仍然无法保持正向节点嵌入的规范。作者提出了简单的正交正则化约束为:


其中 是超参数, 是控制权重 范数的可训练标量,初始化为 1。


实验结果


测试了在六个上的分类精确度,并进行了比较,Ortho-GCNII 的平均提升为 2.2%。


在不同的层数下,Ortho-GConv 在性能上都有一定的提升。在 Cora 和 Citeseer 上,Ortho-GConv 在 2 层基础上分别实现了 1.9% 和 2.1% 的提升;而在 8 层的情况下,获得了 2.8% 和 12.4% 的提升。



在 D&D 和蛋白质数据集上,Ortho-g-U-Nets 得到了较好的性能。


随着 T 的增加,时间消耗变得越来越大;较大的迭代次数和较小的迭代次数会降低我们提出的模型的性能。当迭代次数为 4 时,可以得到最好的性能。因此优化适当的T可以在可接受的时间复杂度下获得较高的精度。




总结

本文首先进行了一系列的分析实验,探讨在使用更多卷积层时 GNNs 性能下降的原因,指出主要因素是 GNNs 中不稳定的前向和后向信号。因此提出了一种正交图卷积对 GNNs 进行增强,以稳定模型训练,提高模型的泛化性能。最后通过实验验证模型的性能。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一种基于神经网络的策略,可增强量子模拟清华&上交等发表Nature子刊!分片线性神经网络最新综述!北邮王啸:挖掘图神经网络中的「万物真理」混在唱歌班清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索Benchmark古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子神经网络的简单偏好王啸@北京航空航天大学:图神经网络的“共性”与“个性”往事如烟,和女王的绵绵不了情畅游法国(19)-葡萄酒之都汇编语言之母100岁逝世:曾和冯·诺依曼一起研究,退休后还在研究神经网络解决神经网络的百年难题,MIT新模型Liquid CfC让模拟大脑动力学成为可能百岁汇编语言之母逝世!71岁时她还在和儿子合写神经网络论文NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络Hinton最新研究:神经网络的未来是前向-前向算法|NeurIPS 2022特邀演讲神经网络高斯过程 (Neural Network Gaussian Process)大规模GNN如何学习?北邮最新《分布式图神经网络训练》综述,35页pdf阐述分布式GNN训练算法和系统7 Papers & Radios | 用神经网络推开数学推理大门;世界首个宏基因组蛋白质图谱ICLR'23截稿, 图神经网络依然火热 (附42 篇好文整理)TPAMI 2022 | 利用子图同构计数提升图神经网络的表达能力研究人员开发在小型设备上训练大型神经网络 保护隐私架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息“光明邨”的鲜肉月饼NeurIPS 2022 | 仅用256KB就实现单片机上的神经网络训练at标号与“圈a”从多篇顶会论文看图神经网络黑盒攻击近期进展ICML2022 | GNNRank: 基于有向图神经网络从两两比较中学习全局排序只需一次向前推导,深度神经网络可视化方法来了!(ECCV Workshops 2022)上海交大副教授五年参禅:神经网络的简单偏好中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA因果推理相关的图神经网络研究进展
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。