Redian新闻
>
KDD 2023 | SGIR:半监督的图不平衡回归

KDD 2023 | SGIR:半监督的图不平衡回归

科技



©Paperweekly 原创 · 作者 | 刘罡

单位 | 圣母大学

研究方向 | 图机器学习





背景

分子(molecules)和聚合物(polymers)的应用在现代生活中无处不在,诸如药物、塑料杯、电子设备甚至航空航天技术。医学和环境等领域的新挑战越来越需要具有独特性质的分子和聚合物来满足不断变化的需求。这些物质具有独特的图结构,为我们理解它们的性质提供了基础途径。由于许多性质可以在连续尺度上进行测量,从分子图结构预测这些性质的回归任务对于推动药物发现和材料设计至关重要。通过解析这些图结构内部的关系,科学家可以在开发新药物和设计创新材料方面取得重大进展。

在我们的论文《半监督图不平衡回归》(Semi-Supervised Graph Imbalanced Regression)中,我们发现了图回归任务中的两个重要挑战:有限的数据规模有限和非常不平衡的标签分布。我们通过一个名为 SGIR 的新颖半监督框架来解决这些新问题。

SGIR是一个自我训练的框架,通过三个协同组件:回归置信度(regression confidence)、反向采样(reverse sampling)和锚定混合(label-anchored mixup),从伪标签和增强样本中创建平衡且丰富的训练数据。我们也对 SGIR 进行了理论动机描述。实证验证涵盖了分子、聚合物和图像等七个来自不同领域的图回归任务。



不平衡回归问题

▲ 图1. 六个分子及聚合物属性预测任务的不平衡数据分布。根据不平衡的特点,我们将标签空间分为三个不同的区域:多样本区域(many-shot region)、中等样本区域(medium-shot region)和少样本区域(few-shot region),以进行公平而全面的模型评估。
示图回归模型的标记训练数据,其中 是不平衡标记数据集中的训练图数量。这些数据往往集中在连续标签空间中的特定区域。为了揭示这一点,我们首先将标签空间分成 个区间,用它们完全覆盖连续标签值的范围。这些区间是 。然后,我们将标记的示例分配到 个区间中,并在每个区间中计数,构建频率集
我们可以发现,实际情况是 (即标签不平衡)经常存在,而不是大多数现有模型假设的 (即标签平衡)。在分离出一定数量的平衡验证集和测试集后,我们在图 1 中可视化了六个常见分子及聚合物任务的训练分布,以此来更直观地揭示回归任务中的数据不平衡问题。由此可以观察到,现有模型可能对标签空间中由大多数标记数据主导小区域存在偏差,并且对同样重要但示例较少的区域缺乏泛化能力。



方法

▲ 图2. SGIR 框架。SGIR 从无标记数据的预测标签中选择高度可信的示例(第二列),并通过一种锚定混合的数据扩增算法为严重缺乏数据的标签区域提供更多样本(第三列)。

经典的自我训练框架是利用平衡标签的分类/回归任务中的未标记数据进行训练的循环过程。首先,通过一个特定的阈值,该框架会对未标记训练样本进行伪标签分配,形成一个新的带有伪标签的标记训练集。然后,利用这些伪标签样本来丰富标记的训练集,并持续训练分类器/回归器。然而,对于一个包含不平衡标签集合的模型训练循环来说,除了扩充数据集,自训练也应该承担补偿不足标签的作用。

图 2 展示了 SGIR 框架的基本构想。我们通过逐步改进标记和未标记集合的训练数据,逐渐减少模型对大部分标签的偏见。每次迭代中,模型对多数标签的偏见减小。而偏见较小的模型能够对未标记数据进行更准确和自信的预测。因此,模型训练和数据平衡能够相互增强。SGIR 的更多技术细节如下所述。
3.1 基于置信度的图回归

缺乏置信度测量可能会导致标签平衡中引入噪声。我们依赖于两个概念来定义良好的回归置信度测量:原理子图(rationale subgraph)和环境子图(environment subgraph)。原理子图被定义为最佳地支持和解释图属性推断中的预测的子图结构。与之对应的环境子图是原理子图的补充子图,如果使用,会扰动基于原理子图的预测。我们的想法是基于识别到的原理子图的可靠性来测量图属性预测的置信度。

具体来说,我们使用由特定理性子图和许多可能环境子图组成的图形中预测标签值的方差。我们将 表示为大小为 的批次中的第 个图。通过子图分离模型,我们可以将 分为原理子图 和环境子图
对于同一批次中的第 个图 ,我们有一个组合示 它具有 的原理子图和 的环境子图。但该图的标签仅由原理子图决定,即它具有与 相同的标签。通过枚举 ,回归模型可以被训练来预测任何 的标签值。由此,我们可以定义对于某张图 的回归置信度为:
3.2 反向采样
反向采样选择性地为欠表示的标签区域采样更多伪标签。为了补偿不同标签范围中的数据不平衡,我们使用标签分布的反向分布来揭示需要更多或更少选择进行标签平衡的标签范围。我们将 表示为第 个区间的采样率,以及进行反向采样。如果 ,我们希望 。我们定义一个新的频率集 如果 中第 大的值,则在新的集合中, 等于 中第 小的值。然后采样率为

经过置信度筛选和反向采样,我们得到可以用来扩充数据集且平衡数据分布的伪标签数据集 。在每个自我训练迭代中,我们将其与原始训练集 相结合。
3.3 锚定混合数据扩增
即使已经充分利用了伪标签来解决标签不平衡问题,标记和伪标记示例的联合标签分布可能仍然远离完美平衡。这是因为在不足标签范围中可能没有足够数量的伪标记示例来填补缺口。现在,我们可以将每个区间的中心点 作为标签锚点,并通过池化(如求平均)操作将该区域内的标签数据表征聚合为区域表征向量
之后通过数据扩增,我们可以在潜空间中得到更多图数据示例。具体来讲,我们从 中选择与 最接近的标签的 个真实图样本,其中 可由反向采样公式计算得出。对于 ,我们将区间()和图表征及标签()进行混合,其中 分别是第 个图的表示向量和真实或预测标签。混合(mixup)操作定义为

其中 分别是扩增图的表示向量和标签。 是一个超参数。因为我们希望 更接近于标签锚点 应通常接近于 1。设 表示所有扩增图的表示向量集合,我们将其与 结合,得到用于下一轮自训练的标签平衡的训练集。


实验

▲ 图3. 分子回归任务性能对比实验。最好以及次好结果以粗体和斜体显示。MAE 表示平均绝对误差,GM 表示几何平均误差。

我们在七个不同的数据集上进行的充分的实验。在所有任务中,SGIR 的性能始终优于竞争性基准模型。我们在图 3 中展示了在三个分子回归任务的性能对比。在整个标签范围内,我们的方法在分子任务上相对于最佳基准模型能够将平均绝对误差降低约 10%。重要的是,我们发现基准方法在特定范围内的最佳性能会牺牲其他标签范围的性能,而我们的改进同时涵盖了所有如图 1 所示的标签范围。


结论
我们的研究探索了图结构上的不平衡回归任务,并提出了一个全新的半监督学习方法。我们引入了自训练的框架,通过多次迭代逐渐减少由数据不平衡引起的模型偏差。我们的实验证明了所提出框架的有效性和合理设计,特别是在药物发现和材料科学等应用领域。


参考文献

[1] Wei, C., Sohn, K., Mellina, C., Yuille, A., & Yang, F. (2021). Crest: A class-rebalancing self-training framework for imbalanced semi-supervised learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10857-10866).

[2] Yang, Y., Zha, K., Chen, Y., Wang, H., & Katabi, D. (2021, July). Delving into deep imbalanced regression. In International Conference on Machine Learning (pp. 11842-11851). PMLR.

[3] Ren, J., Zhang, M., Yu, C., & Liu, Z. (2022). Balanced mse for imbalanced visual regression. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7926-7935).

[4] Liu, G., Zhao, T., Xu, J., Luo, T., & Jiang, M. (2022, August). Graph rationalization with environment-based augmentations. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (pp. 1069-1078).


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
让张学友在演唱会上晕倒的“耳水不平衡”是什么病?GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 20231200只ESG基金花170亿美金买LVMH,财务回报大于奢牌「原罪」|氪金·ESG俄乌战况24KDD 2023 | 认知进化搜索:基于交叉特征选择的点击率预估算法KDD23丨认知进化搜索:基于交叉特征选择的点击率预估算法华人快来领!纽约发100万个N95口罩!​8大道因毒气狂飙取消活动!存好这张图不怕被毒死!光源资本郑烜乐:从三大不平衡看中国企业的全球化机遇Distributional Graphormer:从分子结构预测到平衡分布预测一 大桑树下【玩具日报】泡泡玛特获执行董事司德增持36.5万股;元隆雅图不超8.96亿定增获深交所通过KDD2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布人为什么会衰老 (2023二 重建“史小”KDD 2023 | 因果启发的可解释框架:大模型解释的高效之路wow! Tom Hanks Presidential Harvard Speech Motivational Inspirat学生为何热衷于举报老师?若有那份心思,请学生花在真正需要监督的人身上KDD 2023奖项出炉:港中文、港科大等获最佳论文奖,GNN大牛Leskovec获创新奖娘親舅大 (二)最可愛的人CVPR 2023 | 完全无监督的视频物体分割 RCF突发:西雅图犯罪团伙持枪入室抢劫,专挑亚裔家庭下手;电影《西雅图不眠夜》体验之夜,1000美元起跳KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布让张学友晕倒在舞台上的“耳水不平衡”是啥病?乐高集团正式发布乐高10318 协和式飞机,看图不觉得,这飞机一米多长!失业、分配不平衡和结构性转变:人还能否“卷”过AIViLT: 没有卷积和区域监督的视觉-语言Transformer模型2023 唱坛母亲节快闪【谁言寸草心】合辑今天买到TKDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型张学友演唱会上晕倒!“耳水不平衡”是什么病?​KDD 2023 | MaskGAE:图自编码器背后的掩码机理构图不能太随意!这些禁忌你知道吗?清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下写在第一个没有母亲的母亲节GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会AutoFocusFormer:摆脱传统栅格,采用自适应下采样的图像分割中年时,体内的蛋白质不平衡,更容易患痴呆;迄今最精确希格斯玻色子质量测得 | 环球科学要闻也谈母亲节CVPR 2023 | RCF:完全无监督的视频物体分割西雅图公寓楼跳楼价大甩卖;西雅图不明物质致病引发恐慌
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。