KDD 2023 | SGIR：半监督的图不平衡回归

2023-07-13 04:07

©Paperweekly 原创 · 作者 | 刘罡

单位 | 圣母大学

研究方向 | 图机器学习

背景

分子（molecules）和聚合物（polymers）的应用在现代生活中无处不在，诸如药物、塑料杯、电子设备甚至航空航天技术。医学和环境等领域的新挑战越来越需要具有独特性质的分子和聚合物来满足不断变化的需求。这些物质具有独特的图结构，为我们理解它们的性质提供了基础途径。由于许多性质可以在连续尺度上进行测量，从分子图结构预测这些性质的回归任务对于推动药物发现和材料设计至关重要。通过解析这些图结构内部的关系，科学家可以在开发新药物和设计创新材料方面取得重大进展。

在我们的论文《半监督图不平衡回归》（Semi-Supervised Graph Imbalanced Regression）中，我们发现了图回归任务中的两个重要挑战：有限的数据规模有限和非常不平衡的标签分布。我们通过一个名为 SGIR 的新颖半监督框架来解决这些新问题。

SGIR是一个自我训练的框架，通过三个协同组件：回归置信度（regression confidence）、反向采样（reverse sampling）和锚定混合（label-anchored mixup），从伪标签和增强样本中创建平衡且丰富的训练数据。我们也对 SGIR 进行了理论动机描述。实证验证涵盖了分子、聚合物和图像等七个来自不同领域的图回归任务。

不平衡回归问题

▲ 图1. 六个分子及聚合物属性预测任务的不平衡数据分布。根据不平衡的特点，我们将标签空间分为三个不同的区域：多样本区域（many-shot region）、中等样本区域（medium-shot region）和少样本区域（few-shot region），以进行公平而全面的模型评估。

让

表示图回归模型的标记训练数据，其中是不平衡标记数据集中的训练图数量。这些数据往往集中在连续标签空间中的特定区域。为了揭示这一点，我们首先将标签空间分成个区间，用它们完全覆盖连续标签值的范围。这些区间是

。然后，我们将标记的示例分配到个区间中，并在每个区间中计数，构建频率集合。

我们可以发现，实际情况是（即标签不平衡）经常存在，而不是大多数现有模型假设的（即标签平衡）。在分离出一定数量的平衡验证集和测试集后，我们在图 1 中可视化了六个常见分子及聚合物任务的训练分布，以此来更直观地揭示回归任务中的数据不平衡问题。由此可以观察到，现有模型可能对标签空间中由大多数标记数据主导小区域存在偏差，并且对同样重要但示例较少的区域缺乏泛化能力。

方法

▲ 图2. SGIR 框架。SGIR 从无标记数据的预测标签中选择高度可信的示例（第二列），并通过一种锚定混合的数据扩增算法为严重缺乏数据的标签区域提供更多样本（第三列）。

经典的自我训练框架是利用平衡标签的分类/回归任务中的未标记数据进行训练的循环过程。首先，通过一个特定的阈值，该框架会对未标记训练样本进行伪标签分配，形成一个新的带有伪标签的标记训练集。然后，利用这些伪标签样本来丰富标记的训练集，并持续训练分类器/回归器。然而，对于一个包含不平衡标签集合的模型训练循环来说，除了扩充数据集，自训练也应该承担补偿不足标签的作用。

图 2 展示了 SGIR 框架的基本构想。我们通过逐步改进标记和未标记集合的训练数据，逐渐减少模型对大部分标签的偏见。每次迭代中，模型对多数标签的偏见减小。而偏见较小的模型能够对未标记数据进行更准确和自信的预测。因此，模型训练和数据平衡能够相互增强。SGIR 的更多技术细节如下所述。

3.1 基于置信度的图回归

缺乏置信度测量可能会导致标签平衡中引入噪声。我们依赖于两个概念来定义良好的回归置信度测量：原理子图（rationale subgraph）和环境子图（environment subgraph）。原理子图被定义为最佳地支持和解释图属性推断中的预测的子图结构。与之对应的环境子图是原理子图的补充子图，如果使用，会扰动基于原理子图的预测。我们的想法是基于识别到的原理子图的可靠性来测量图属性预测的置信度。

具体来说，我们使用由特定理性子图和许多可能环境子图组成的图形中预测标签值的方差。我们将表示为大小为的批次中的第个图。通过子图分离模型，我们可以将分为原理子图和环境子图。

对于同一批次中的第个图，我们有一个组合示例，它具有的原理子图和的环境子图。但该图的标签仅由原理子图决定，即它具有与相同的标签。通过枚举，回归模型可以被训练来预测任何的标签值。由此，我们可以定义对于某张图的回归置信度为：

3.2 反向采样

反向采样选择性地为欠表示的标签区域采样更多伪标签。为了补偿不同标签范围中的数据不平衡，我们使用标签分布的反向分布来揭示需要更多或更少选择进行标签平衡的标签范围。我们将表示为第个区间的采样率，以及进行反向采样。如果，我们希望。我们定义一个新的频率集合。如果是中第大的值，则在新的集合中，等于中第小的值。然后采样率为

经过置信度筛选和反向采样，我们得到可以用来扩充数据集且平衡数据分布的伪标签数据集。在每个自我训练迭代中，我们将其与原始训练集相结合。

3.3 锚定混合数据扩增

即使已经充分利用了伪标签来解决标签不平衡问题，标记和伪标记示例的联合标签分布可能仍然远离完美平衡。这是因为在不足标签范围中可能没有足够数量的伪标记示例来填补缺口。现在，我们可以将每个区间的中心点作为标签锚点，并通过池化（如求平均）操作将该区域内的标签数据表征聚合为区域表征向量。

之后通过数据扩增，我们可以在潜空间中得到更多图数据示例。具体来讲，我们从中选择与最接近的标签的个真实图样本，其中可由反向采样公式计算得出。对于，我们将区间（，）和图表征及标签（，）进行混合，其中和分别是第个图的表示向量和真实或预测标签。混合（mixup）操作定义为

其中和分别是扩增图的表示向量和标签。，，是一个超参数。因为我们希望更接近于标签锚点，应通常接近于 1。设表示所有扩增图的表示向量集合，我们将其与和结合，得到用于下一轮自训练的标签平衡的训练集。

实验

▲ 图3. 分子回归任务性能对比实验。最好以及次好结果以粗体和斜体显示。MAE 表示平均绝对误差，GM 表示几何平均误差。

我们在七个不同的数据集上进行的充分的实验。在所有任务中，SGIR 的性能始终优于竞争性基准模型。我们在图 3 中展示了在三个分子回归任务的性能对比。在整个标签范围内，我们的方法在分子任务上相对于最佳基准模型能够将平均绝对误差降低约 10%。重要的是，我们发现基准方法在特定范围内的最佳性能会牺牲其他标签范围的性能，而我们的改进同时涵盖了所有如图 1 所示的标签范围。

结论

我们的研究探索了图结构上的不平衡回归任务，并提出了一个全新的半监督学习方法。我们引入了自训练的框架，通过多次迭代逐渐减少由数据不平衡引起的模型偏差。我们的实验证明了所提出框架的有效性和合理设计，特别是在药物发现和材料科学等应用领域。

参考文献

[1] Wei, C., Sohn, K., Mellina, C., Yuille, A., & Yang, F. (2021). Crest: A class-rebalancing self-training framework for imbalanced semi-supervised learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10857-10866).

[2] Yang, Y., Zha, K., Chen, Y., Wang, H., & Katabi, D. (2021, July). Delving into deep imbalanced regression. In International Conference on Machine Learning (pp. 11842-11851). PMLR.

[3] Ren, J., Zhang, M., Yu, C., & Liu, Z. (2022). Balanced mse for imbalanced visual regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7926-7935).

[4] Liu, G., Zhao, T., Xu, J., Luo, T., & Jiang, M. (2022, August). Graph rationalization with environment-based augmentations. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 1069-1078).

更多阅读