Redian新闻
>
因果推理相关的图神经网络研究进展

因果推理相关的图神经网络研究进展

公众号新闻



©作者 | 莫燕虎

单位 | 北邮GAMMA Lab

来源 | 北邮GAMMA Lab



本文介绍两篇因果推理相关的图神经网络研究工作。



OOD推荐系统下的因果表征学习


本文介绍了什么是推荐系统中的 Out-of-Distribution(OOD)问题,并从因果的角度提出了一种解决 OOD 问题的表示学习方式。

文章链接:

https://dl.acm.org/doi/pdf/10.1145/3485447.3512251


1.1 简介


现代推荐系统的用户表征都是从其历史交互中学习出来的,这就存在着用户表征变化带来的问题,历史交互会将过时的信息注入到与最新的用户特征相冲突的表示中,从而导致不恰当的推荐。


如下图所示,在 IID 环境下,左边这位女士处于未怀孕的状态,此时她在系统中的点击是鞋子或者衣服等商品。但在 OOD 的环境下,这位女士变成了怀孕的状态,此时之前的历史交互所学到的表征不适用于 OOD 环境下的推荐。


在这项工作中,作者考虑了在用户特征发生变化的 Out-Of-Distribution(OOD)环境中的推荐问题,并为表征学习设定了额外的两个目标:强大的 OOD 泛化能力以及快速的 OOD 适应能力。这项工作从因果关系的角度制定和解决了这两个问题。即将用户的特征转移表述为一种干预,而 OOD 推荐则是干预后的交互概率推测。



1.2 符号声明与问题定义


1.2.1 符号声明



图 2 中的 表示的可观测到的用户 features,如年龄和收入等, 表示不可观测到的用户 features,如爱好等。 表示潜在的用户倾向,其中 由用户特征 共同决定, 仅由 决定。D 表示的是点击或者购买等用户的交互信息。


1.2.2 问题定义


基于 OOD 环境下的推荐系统,文章中定义了两个问题:1. OOD generalization:当干预 已知,即已经知道干预后的用户的交互数据不可用时,模型的泛化能力。2. Fast adaptation:我们假设很少一部分干预后的用户交互数据可以从 OOD 环境中收集到,并评估模型对 OOD 环境的适应速度和准确性。


1.3 方法


在推荐系统中,我们希望通过已有数据最大化如下对数似然估计,即利用用户的表征来预测他想购买的商品。但是由于公式 2 中 不可知,最大化公式 2 中的对数似然较难。文章中利用变分推断得到公式 2 的证据下界(ELBO),如公式 3 所示。


最大化公式 3 中 ELBO 则可以提高公式 2 的上界,为了计算公式 3 中的 ELBO,文章中采用了 encoder 网络和 decoder 网络去拟合公式 3 中的 and



首先利用公式 4 拟合 ,即给定已知的交互数据 d 和用户表征 ,得到不可观测的用户表征



再利用公式 5(decoder network),来拟合公式中的 ,由于积分计算起来较为复杂,文中采用公式 7 中的蒙特卡洛采样来近似



在训练阶段,可以利用用户 ,和历史交互信息 d,以及 target d 来进行训练,从而得到 figure 4 中四个 MLP 的参数。


在 OOD 环境下的测试阶段,因为 的采样和历史信息 d 有关,这也会可能将一些 IID 场景下的过时信息传递给下游的 。因此,为了避免 IID 数据带来的影响,作者采用 对 d 进行干预(图4 (b)),使得生成的下游 不受过时信息的影响。由于生成的 是在 的情况下得到的,对 对推断保留了原始的一些有用的信息。最后结合二者得到最终的推荐交互



1.4 实验


作者在生成数据集和真实数据集下做了如下实验,可以看到作者的方法 COR 虽然在 IID 场景下效果比 baseline 差,但是在 OOD 环境下表现比 baseline 提升较为明显。


当很少一部分干预后的用户交互数据可以从 OOD 环境中收集到时,可以看到作者的方法在 Fast adaptation 评估中也有提升。




学习图上因果不变表征分布外泛化


本文利用了因果不变性的方法来解决图上的 OOD 问题。

文章链接:

https://openreview.net/pdf?id=A6AFK_JwrIW


2.1 简介


目前图神经网络假设训练图和测试图来自相同的分布,然而在现实中经常被违反这一假设,出现训练和测试分布的不匹配的情况,即分布偏移。图神经网络难以在这种分布外(OOD)泛化问题上取得很好的效果。

尽管 OOD 问题在欧几里得数据上的泛化取得了比较大的成功,而这些在欧式数据上的方法大多用的是因果关系的不变性原则,该原则利用了不变的因果机制(ICM)假设。但是由于图上的复杂性,存在着几个新的挑战,禁止直接采用该原则。

首先,图上的分布偏移更加复杂,它包括属性层面和拓扑层面上的分布偏移;其次,每一种偏移与标签的虚假相关形式可能不一样;此外,由于图的抽象性,环境信息更加难以获取。为了解决上述问题,本文提出了“因果启发的不变图学习”(CIGA),具体来说,本文建立了三个结构因果模型(SCM)来描述图上可能发生的分布转移,然后将不变性原则推广到图上,用于 OOD 泛化。


2.2 通过因果的视角看图上的OOD泛化


2.2.1 问题定义


本文聚焦于图分类上的 OOD 问题,举个例子,GNN 需要对图形是否包含“房子”或“五边形环”子图进行分类,其中颜色代表节点特征。然而,训练数据中的分布变化存在于结构层面(从左到右:“房子”大多与六边形同时出现)、属性层面(从上到下:如果图形包含“房子”,节点大多被染成绿色,如果图形包含“五边形环”,则被染成蓝色)和图形大小。ERM 可能会将有六边形或大部分节点为绿色的图预测成 house,而无法捕捉到拓扑结构的不变性。



2.2.2 图生成过程



(1)本文假设一张图的生成过程是由两个部分和三个函数组成(Assumption 2.1),C 表示图上不变的部分、S 表示图上变化的部分。 继承了 C 中不受环境 E 影响不变的信息, 表示 G 中会随着 E 的变化而变化的部分,其他三个 f 表示数据的生成函数。


(2)遵从以前的工作,本文根据 C 和 S 之间潜在的关系,得到了完全信息不变性的 SCM(FIIF,图2(b))和部分信息不变性的 SCM(PIIF,图2(c)),即 FIIF 表示 C 中包含了所有与标签 Y 有关的信息,PIIF 表示 C 中只包含了标签 Y 的部分信息。



2.3 方法


为了使 GNN 能够学习从 G 中提取关于 C 的信息,本文提出了 CIGA 框架,明确地与假设 2.1 中的两个因果机制 对齐,即优化下面的公式 1:



最大化互信息相当于最小化损失函数 ,同时让得到的 与环境 独立等同于通过函数 提取出与图上环境无关、不变的部分。

但是由于环境 的不可用性,不能直接计算环境 与子图之间相互独立,这使得 的识别更具挑战性。为了缓解这个问题,我们需要找到并将 的其他性质转化为一些可微调的等价目标,以满足独立约束 的目标。
假设 在同一个子图 c 在不同环境下的两个图, 表示两个在不同环境下有很高互信息的两个图,例如 。同时假设 与环境相同标签不同的一个图,那么我们需要满足
例如,假设上面的房子连接六边形环为 ,房子连接田字型为 ,五边形环连接田字型为 ,那么我们尽可能让房子连接六边形环的图与房子连接田字型的图互信息最大化,让房子连接田字型和五边形环连接田字型互信息最小化,根据 的性质可以得到如下优化目标:


我们假设所有的子图的大小是相等的,即 ,这样我们可以强制预测得到的子图节点数少于 。在实际中,由于变量 C 时不可知的,由于 C 和 Y 在 FIIF 和 PIIF SCMs 中都存在着因果关系,所以我们可以利用 Y 来代替上述公式中的 C。

并且如果我们最大化 和 那么就会自动的被最小化,因为若没有被最小化,则所有的类别会变得不可区分。结合上述分析,我们可以将 3.2 的优化目标转化成下述目标:



由于 中需要满足 这个限制,我们提出了 ,该优化目标不需要满足此限制。在 中,我们进一步讨论 的性质,在 FIIF 和 PIIF SCMs 中, 都有可能包含 Y 的信息,当最大化  的过程中, 并不会影响该优化过程,但是这样会损失掉 中的一些信息,故在 中加入了最大化 与 Y 的互信息这一项,即



其中 表示训练集中与 有相同标签的图。


2.4 实验

首先作者在生成数据集不同的偏差下进行实验,对比的 baseline 包括一些 OOD 的方法以及非 OOD 的方法,可以看到 的效果提升比较明显。


此外作者还在真实数据上与 baseline 进行了对比,可以看到它们的方法效果不错。





总结

这两个工作都是将因果推理运用到图神经网络当中,同时解决的都是 OOD 问题,第一篇利用了最大化 ELBO 来对提高极大似然的下界,第二篇是从互信息的角度来分析并解决图上的 OOD 问题。从这两篇工作可以看出,将因果推理运用到图神经网络中往往是利用它去约束学习 GNN 的过程,使得学到的 GNN 能够更好的解决相应的问题。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AAAI 2023 | 用因果推理做部分可观测强化学习近万人围观Hinton最新演讲:前向-前向神经网络训练算法,论文已公开中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门人生如白驹过隙,哪有时间把玩悲剧?神经网络的简单偏好北邮王啸:挖掘图神经网络中的「万物真理」NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索Benchmark7 Papers & Radios | 用神经网络推开数学推理大门;世界首个宏基因组蛋白质图谱AAAI 2022 | 正交图神经网络大规模GNN如何学习?北邮最新《分布式图神经网络训练》综述,35页pdf阐述分布式GNN训练算法和系统架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息​ICLR 2023 | 标识分支结点,提升图神经网络对环的计数能力文末送书 | 因果推断与机器学习,终于有本书能讲明白啦!神经网络高斯过程 (Neural Network Gaussian Process)大半生就爬過一座山解决神经网络的百年难题,MIT新模型Liquid CfC让模拟大脑动力学成为可能错误的例子证明错误的结论:论“中国队大胜美国队与中国队大败美国队”大姨首次引入!用因果推理做部分可观测强化学习|AAAI 2023上海交大副教授五年参禅:神经网络的简单偏好从多篇顶会论文看图神经网络黑盒攻击近期进展Hinton 最新研究:神经网络的未来是前向-前向算法Marcos López:因子投资与因果推断China’s open-door policy王啸@北京航空航天大学:图神经网络的“共性”与“个性”百岁汇编语言之母逝世!71岁时她还在和儿子合写神经网络论文GNN如何建模时空信息?伦敦玛丽女王大学「时空图神经网络」综述,简明阐述时空图神经网络方法汇编语言之母100岁逝世:曾和冯·诺依曼一起研究,退休后还在研究神经网络一文了解英特尔神经拟态芯片的研究进展Hinton最新研究:神经网络的未来是前向-前向算法|NeurIPS 2022特邀演讲有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA7 Papers & Radios | Hinton前向-前向神经网络训练算法;科学家造出「虫洞」登Nature封面最新综述:等变图神经网络因果推理效果比肩ChatGPT,封神榜推出燃灯模型TPAMI 2022 | 利用子图同构计数提升图神经网络的表达能力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。