Redian新闻
>
HIRE——基于异构图神经网络的高阶关系级知识蒸馏方法

HIRE——基于异构图神经网络的高阶关系级知识蒸馏方法

科技


©PaperWeekly 原创 · 作者 | 刘静

单位 | 中科院计算技术研究所博士生

研究方向 | 异构图神经网络、知识蒸馏


由于异构图在学术界和工业界的普遍存在,研究人员最近提出了大量的异构图神经网(HGNN)。与追求更强大的 HGNN 模型不同,本文更加感兴趣的是设计一个通用的即插即用模块,该模块从预先训练的 HGNN 中提取相关知识。据我们所知,本文是首篇提出异构图神经网络上的高阶关系(HIgh-order RElational, HIRE)知识蒸馏框架,该框架可以显著提高异构图神经网络模型的性能。

具体来说,该方法通过进行节点级知识蒸馏(Node-level Knowledge Distillation, NKD),对预训练异构教师模型的单个节点语义进行编码;通过进行关系级知识蒸馏(Relation-level Knowledge Distillatio, RKD),对预训练异构教师模型的不同类型节点之间的语义关系进行建模。

通过整合节点级知识蒸馏和系级知识蒸馏,这种高阶关系知识蒸馏方法成为一种实用且通用的训练方法,适用于任意的异构图神经网络,不仅提升了异构学生模型的性能和泛化能力,而且保证了对异构图神经网络的节点级和关系级知识提取。


论文标题:
HIRE: Distilling high-order relational knowledge from heterogeneous graph neural networks

论文单位:

中科院计算技术研究所 & 浙江大学

论文链接:

https://www.sciencedirect.com/science/article/pii/S0925231222009961 https://arxiv.org/abs/2207.11887





方法

1.1 动机

近年来,为了解决异构图中节点和边的异质性问题,研究人员提出了许多基于 HGNN 的方法,主要分为基于元路径的方法和基于边关系的方法。虽然现有的 HGNN 已经取得了很好的性能,但它们的表示能力受限于(1)数据标注不精确。一般来说,HGNN 的训练方式属于半监督学习,因此其性能高度依赖于大量高质量的标签数据。然而,模糊的数据标注将成为 HGNN 建模的瓶颈;(2)不同类型节点之间的语义关系建模困难。尽管元路径被用于异构图中的高阶语义建模,但是不同领域的元路径选择仍然具有挑战性,因为它需要足够的领域知识。
近年来,深度学习中的知识蒸馏(KD)技术在提升模型的性能上展现出一定的优点。目前,有一些工作尝试将知识蒸馏方法和图神经网络结合在一起进行应用。虽然这些蒸馏方法的性能很好,但它们都是为同构图神经网络设计的,其中处理的数据中每个节点或边都是相同的类型。

那么如何在 HGNN 上设计出一种高效通用的知识蒸馏方法呢?本文提出 HIRE 方法来解决该问题,具体实现见下文。

1.2 创新
本文工作的创新点主要有 3 点:
1. 据我们所知,本文是第一个研究异构图上的知识蒸馏研究问题的工作。值得注意的是,本文通过考虑异构图的二阶关系知识来建模 HGNN 的高阶知识。
2. 本文提出了一个新的知识蒸馏框架——HIRE,同时考虑单个节点软标签和不同节点类型之间的相关性知识。后者通过引入类型相关的注意层来获取异构图中不同类型节点的丰富语义信息,从而将不同节点之间的关系知识传递给学生。

3. 本文在流行的 HGNN 模型上进行了广泛的实验,证实了 HIRE 框架的有效性和强泛化能力。

1.3 HIRE

本文提出的高阶关系知识蒸馏 HIRE 模型框架如下图 2 所示,主要包含两个组件:一阶节点级知识蒸馏 NKD 和二阶关系级知识蒸馏 RKD,分别用来解决 HGNN 目前面临的两大挑战。



其中 RKD 的具体实现可见下图 1c。


1.4 NKD

针对数据标签标注不精确的问题,本文引入一阶节点级知识蒸馏(NKD)方法,将目标节点(如电影数据中的电影)的软标签传递给学生,为下游任务(如节点分类)提供一般的监督信息,解决节点标注问题。



1.5 RKD

针对异构图中不同类型节点之间的语义关系建模问题,设计二阶关系级知识蒸馏(RKD)方法,从预训练教师模型中编码不同节点类型之间的关系知识转移到学生模型中,为下游任务(如节点分类)提供高阶关系语义监督信息,解决软性建模语义关联问题。



1.6 训练

HIRE 模型训练过程见下面算法 1:





实验

本文通过大量的实验主要回答以下三个问题:
  • RQ1:HIRE 在节点分类、节点聚类和节点可视化任务上的整体表现如何?

  • RQ2:HIRE 中的 NKD 和 RKD 这两个组件分别起着什么样的作用?

  • RQ3:超参数的不同设置如何影响 HIRE 框架的整体预测性能?

3.1 数据集

本文使用的数据集包括 ACM、IMDB 等常用基准数据集,具体如下表 3 所示:


3.2 节点分类

HIRE 方法在 ACM 数据集上的节点分类实验结果如表 4 所示,发现随着培训比例的增加,学生模型性能均获得一致显著提升,提升范围为 0.1% ∼ 3.1%,这表明本文提出的 HIRE 方法的有效性和强泛化能力。HIRE 在其他两个数据集上的效果详细可见论文。

3.3 节点聚类

如表 7 所示,HIRE 方法在节点聚类任务上仍表现出卓越的性能,学生模型能够持续显著地提高相应教师模型的性能,最高可达∼53.3%


3.4 节点可视化

为了更直观的比较,本文还进行了节点可视化任务。以 ACM 数据集为例,从图 3 中,可以观察到相较于教师模型,学生模型可以提供清晰的边界,使得类内相似性变高,类间隔变大


3.5 消融实验

3.5.1 不同阶知识蒸馏效果对比

为了验证 HIRE 每个组件的有效性,本文进一步对不同的 HIRE 变体进行了实验。其中,CE(交叉熵)等价于教师模型。四种变体的实现效果如下图 5 所示,整体表现出 HIRE ≥ RKD ≫ NKD > CE


3.5.2 注意力值可视化

HIRE 的一个显著特性是加入了一个类型相关的注意层模块,为了验证该模块的作用,本文对不同异构节点的注意力值进行可视化,实验结果如下图 7 所示:发现该模块可以自是定获取不同节点类型和边的高阶语义监督信息


3.6 参数敏感性实验

通过在 3 个数据集上对所有异构模型的超参数进行参数敏感性实验,HIRE 对参数不敏感,具有很好的鲁棒性





总结

本文首次提出了基于 HGNN 的高阶关系(HIgh-order RElational, HIRE)知识蒸馏框架,填补了从异构图神经网络模型中提取知识的空白。在 ACM、IMDB 和 DBLP 数据集上进行的大量实验证明了我们提出的 HIRE 的有效性,尤其可以自适应获取高阶语义,且可适用于任意的异构图神经网络。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML2022 | GNNRank: 基于有向图神经网络从两两比较中学习全局排序深蓝丛中一点红TPAMI 2022 | 知识蒸馏为什么有效?因为有老师给你划“重点”经典的股神经解剖——玩转神经阻滞必备最“智障”的深度神经网络,可能是计算的未来?研究人员开发在小型设备上训练大型神经网络 保护隐私一个项目帮你了解数据集蒸馏Dataset Distillation崩溃得真哭了NAACL 2022 | 机器翻译SOTA模型的蒸馏花园里的月季两次登顶Nature,“轻断食”好在哪?延长寿命 13-18%,还促进神经再生!但方法要对...ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏NAACL 2022 | 简单且高效!随机中间层映射指导的知识蒸馏方法百度提出动态自蒸馏方法,结合交互模型与双塔模型实现稠密段落检索[电脑] Green & White——分型工艺 Meshify 2 Mini 装机展示[电脑] BLACK&ORANGE—ASUS AP201机箱+B660G主板构建黑橙主题!只需一次向前推导,深度神经网络可视化方法来了!(ECCV Workshops 2022)清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!华为这页PPT“架构图”,被我改了一下后~熊二征战AJGA south padre junior all-star之旅(三)那些“升学指导”到底有什么用?【宏观经济】如何用高频指标预测出口—基于量价的视角【22年9月】神经科上个月最受关注SCI论文解析丨神经变性病、脑血管病最受关注;这所医院发表的论文最多CIKM 2022 | ReTime—基于检索的时间序列预测ICLR'23截稿, 图神经网络依然火热 (附42 篇好文整理)[电脑] All for the game——12700K+Z690I-UNIFY+3080Ti 微星海皇戟X开箱简测常规神经阻滞失灵,如何补充神经阻滞?NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络COLING 2022 | Pro-KD:循序渐进的平滑知识蒸馏[汽车] Sheer Driving Pleasure——BMW 5 Series GranTurismo 9周年记一种基于神经网络的策略,可增强量子模拟算力新生态,透视异构计算的机会和挑战 | Q推荐清华&上交等发表Nature子刊!分片线性神经网络最新综述!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。