KDD 2022最佳论文 | HyperSCI:在超图上学习因果效应
©PaperWeekly 原创 · 作者 | 张三岁
研究方向 | 图神经网络
论文标题:
Learning Causal Effects on Hypergraphs
Jing Ma, Mengting Wan, Longqi Yang, Jundong Li, Brent Hecht, Jaime Teevan
KDD 2022 Best Paper
https://arxiv.org/abs/2207.04049
Background
个人(individual)间的群体互动(Group interaction)广泛存在,比如大规模的聚会、WhatsApp 或微信上的日常群聊(group chat)以及微软团队或 Slack 频道上的工作交际(workplace interaction)。尽管传统图(pairwise graph)的定义涵盖了大部分的应用场景(例如人与人之间的物理接触或社交网络),但它不能捕捉到群体互动(group interaction)的信息(即每个互动会涉及两个以上的人)。
虽然许多研究都致力于利用这样一个超图(hypergraph)结构来促进机器学习任务,但它们中的大多数仍是在统计相关性(statistical correlation)的角度进行研究。例如,通过捕捉一个人(individual)的人口信息(即节点特征 node features)、团体聚会史(超图结构 hypergraph structure)和感染结果(节点标签 node labels)之间的相关性来预测每个人(节点 node)的 COVID-19 感染风险。
这类研究方法的一个局限性在于缺乏因果性(causality),而因果性对于了解政策干预(如:戴口罩)对结果(如:感染 COVID-19)的影响尤为重要。例如,对图 1(a) 中相连的个体(individual),有人可能会问:“个人是否戴口罩(实验 treatment)会如何在因果关系上影响其感染风险(结果 outcome)?”
但如 motivation 中所述的因果推断任务需要保持除实验变量(treatment variable)外所有其他可能的因素不变,从而构建同一个个体的反事实状态(counterfactual state)。这在超图(hypergraph)数据上是一个特别困难的问题,因为个人的结果(outcome) 不仅受到他们自己(如个人的健康状况和疫苗状态)的影响(confounding factor),而且还受到超图(hypergraph)上其他个体的影响(如与目标个体通过聚会有物理接触的其他个体是否戴口罩),具体可分为如下两点:
1. 随机实验的实证限制(Empirical constraints of randomized experiments):估计实验效果(treatment effect estimation)最可靠的方法之一是进行随机对照试验(randomized controlled trials RCTs),然而进行 RCTs 实验通常成本高且不切实际,还会存在实验道德问题。此外,由于在图(graph)上的节点彼此间存在依赖性(dependency),我们很难在图上直接应用 RCTs 方法来估计实验效果。
2. 超图上高阶干涉(High-order interference on hypergraphs)的建模困难:ITE 估计问题(ITE estimation)的目标是估计某个实验 treatment(如戴口罩)对每个个体的结果 outcome(如 COVID-19 感染)的因果效应(causal effect)。
传统的 ITE 估计(ITE estimation)是基于稳定单位实验值(Stable Unit Treatment Value SUTVA)的假设。这个假设是指实例(instance)或单位(unit)之间不存在干涉(interference),即不存在溢出效应(spillover effect)。这意味着任何实例的结果(outcome)都不会受到其他实例的影响。这个假设在真实世界中是不现实的,特别是在实例间存在依赖性的图(graph) 上。
目前大部分试图解决这个问题的工作都认为干涉(interference)只以成对的(pairwise)方式存在于普通图(ordinary graph)上,如图 1(b) 所示。但这种成对的干涉不足以描述存在于超图(hypergraph)上的高阶干涉(high-order interference)。
Method
▲ 图2
为了对高阶干涉进行建模从而在超图上进行因果推断任务,这篇文章提出了一个新的框架 Causal Inference under Spillover Effects in Hypergraphs(HyperSCI)。简单来说,HyperSCI 控制了混杂因素(confounder),在表征学习(representation learning)的基础上建立了高阶干涉(high-order interference)模型,最后根据学习到的表征做出估计(estimation)。
具体来说,HyperSCI 主要由三部分构成,如图 2 所示,:
(1)Confounder Representation Learning:基于混杂因素(confounder)包含在特征(feature)中的假设,通过表征学习技术,从个体的特征中捕捉和控制混杂因素。
(2)Modeling High-order Interference:通过超图卷积(hypergraph convolution)和注意力机制(attention operation)来学习每个节点的干涉表征(interference representation),从而对干涉(interference)进行建模。
3.2 Interference Modeling
▲ 图3
▲ 公式1
▲ 公式2
尽管上述卷积层可以通过超边(hyperedge)传播干涉(interference),但它没有提供太多的灵活性来说明不同节点在不同超边下干涉的意义。在 COVID-19 的例子中,从直觉上来说,那些活跃参加聚会活动的个体更有可能感染或被这些群体中的其他人所传染。因此,为了更好捕捉到超图上节点和超边之间这种内在的关系(intrinsic relationship),我们利用超图注意力机制来学习每个节点及包含该节点的超边的权重(attention weight)。
▲ 公式3
▲ 公式4
3.3 Outcome Prediction
▲ 公式5
在这一章节,我们重新审视所提出的 HyperSCI 框架中一些隐含假设。
2. 为了简单起见,假设每个节点的干涉只来自其他具有非零实验分配(non-zero treatment assignment)的节点;
3. 假设在同一超边(hyperedge)内的节点表征在隐空间(latent space)是相似的;
4. 假设超边表征和节点表征是同质的(homogeneous)。
Experiment
实验部分可分为如下章节,关于数据集的处理和介绍在这里不多做赘述,有兴趣的读者可以自行阅读原文。
4.1 Experiment Settings
4.1.1 Metrics
▲ 公式7
1. No graph-LR, CFR, CEVAE
这一类基线不考虑图数据(graph data)和溢出效应(spillover effect)。具体来说,由线性回归 LR 实现的结果(outcome)计算、由反事实回归 CFR (counterfactual regression) 实现的结果预测和因果效应自动编码器 CEVAE (causal effect variational autoencoder)。这一类基线是用来评估建模干涉(modeling interference)对 ITE 估计的有效性。
这一类基线考虑图结构(network structure),但仍不考虑溢出效应(spillover effect)。具体来说,网络去混因子模型 Netdeconf 利用实例间的网络结构 (network structure)来为 ITE 估计捕捉潜在的混杂因子(latent confounder)。
3. Spillover effect in ordinary graphs -
这一类基线可以处理普通图(ordinary graph)上的成对(pairwise)溢出效应 (spillover effect)。它们以一种基于节点表征学习的方法在网络干扰下估计 ITE,分为如下两种:
(1)GNN+HSIC:基于图神经网络(GNNs)和希尔伯特-施密特独立性准则 HSIC(Hilbert Schmidt independence criterion);
4.2 ITE Estimation Performance
▲ 表1
ITE 估计(ITE estimation)的实验结果如表 1 所示,在线性和二次结果模拟(outcome simulation)的任务下,HyperSCI 表现都优于所有的基线(baseline)。我们认为 HyperSCI 的优越表现源于:它可以利用超图中的关系信息(relational information)来建模高阶干扰(high-order interference),从而减轻了溢出效应(spillover effect)对 ITE 估计任务的负面影响。
▲ 图4
4.3 Ablation Study
▲ 图5
为了研究 HyperSCI 中不同组成部分的有效性,我们通过以下变种(variant)对进行 HyperSCIL 进行消融实验:
(1)HyperSCI-P:将 HyperSCI 应用于投影图(projected graph)上。请注意该投影图为超图结构(hypergraph structure)。
(2)HyperSCI-G:用一个具有相同层数的图神经网络模块来取代超图神经网络模块,然后将其应用于投影图(以原始图结构的形式)。请注意,尽管 HyperSCI-P 和 HyperSCI-G 都是在投影图上进行评估,但 HyperSCI-G 是用图神经网络模块处理普通图,而 HyperSCI-P 使用超图神经网络模块处理超图。
(3)HyperSCI-NB:移除了 HyperSCI 中的表征平衡模块(balancing technique)。
▲ 图6
这篇文章研究了超图上存在高阶干扰(high-order interference)的个体实验效果估计(individual treatment effect estimation)的问题。我们确定并分析了高阶干扰对因果效应(causal effect)估计的影响。为了解决这个问题,我们提出了一个基于表征学习来估计 ITE 的新框架 HyperSCI。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者