AAAI 2023 | 面向低质量数据的时空预测

科技

2023-04-22 16:04

©PaperWeekly 原创 · 作者 | 寄家豪

单位 | 北京航空航天大学

研究方向 | 时空数据挖掘

论文标题：

Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction

论文链接：

https://doi.org/10.48550/arXiv.2212.04475

代码链接：

https://github.com/Echo-Ji/ST-SSL

研究背景

时空预测广泛存在于我们生活的方方面面，例如交通预测、细粒度疫情预测、空气质量预测等，由于待预测的数据同时存在时间属性和空间属性，因此这类问题被称为时空预测。

作为时空预测的典型案例，交通预测旨在研究如何利用历史交通状况、城市路网等数据，对未来交通状况进行预测。准确且稳健的交通预测有助于提升城市出行效率，因此它是智能交通系统的核心技术之一。

本文介绍

交通预测通常会面临数据质量低的问题，这些低质量数据主要指城市郊区的交通数据比较稀疏。原因在于郊区人口稀少、交通活动强度低。而这些数据稀疏的地方通常不被预测模型所关注，因此预测误差较大，这就会导致模型在这些区域的泛化性不足。

例如，下图展示了不同模型在北京出租车数据集上的相对预测误差，像素点越明亮表示相对误差越大。可以发现，现有模型（ST-ResNet、AGCRN）在数据低质的城郊区域（图像边缘）预测误差较大。相比之下，我们提出的面向低质量数据的时空预测模型 ST-SSL，在这些区域则表现出了较强的泛化能力。

在时间维度，交通数据分布也存在相应的时间异质性。如上图（c）所示，即使是同一地区的交通数据，夜间数据明显比早晚高峰期的数据更加稀疏。

因此，建模数据分布的异质性，是提升模型在低质量数据上泛化性能的关键。为此，我们首次引入自监督学习方法来解决这一问题，时空自监督学习模型 ST-SSL（Spatio-Temporal Self-Supervised Learning）应运而生。

传统交通预测模型使用时间卷积和空间卷积进行信息聚合，在此基础之上，ST-SSL 额外引入了自监督学习方法建模异质性。对于空间异质性，引入软聚类的辅助自我监督机制，以感知不同区域之间的空间格局差异。对于时间异质性，则使用对比学习增强模型对不同时间步的表征区分能力。

模型架构

本文在传统时空卷积基础上，充分吸收自监督学习范式的优势，以增强模型表征，捕获数据分布的时空异质性。模型工作原理如下图。

ST-SSL 分为三个阶段，首先是时空编码（ST Encoder）阶段，利用时空卷积生成数据的原始表征；然后的是自适应数据增强阶段，对输入的时空图数据进行增强，并获取模型对增强后数据的表征，即增强表征。最后是多任务学习阶段，它基于原始表征和增强表征捕获时空异质性。

3.1 时空编码

该模块是一个多层卷积结构。在每一个卷积层，模型依次进行三次卷积：时间卷积-空间卷积-时间卷积。其中，

时间卷积阶段，在时间维上进行一维卷积，以捕获不同时间步的特征相关性。这一操作对不同节点分开进行。
空间卷积阶段，利用地理邻接矩阵，将不同节点的信息进行传播和聚合，以捕获节点间特征相关性。这一操作对不同时间步分开进行。

通过时空编码会生成一个聚合了时空信息的表征，其中是空间区域数量，是表征维度。

3.2 自适应数据增强

在这一阶段，ST-SSL 利用数据异质性信息，分别在时间和空间两个层面进行数据增强。

在时间层面，ST-SSL 依据各个时间步同整个时间序列的异质程度，对时间步进行遮盖（mask）。这一操作对不同节点分开进行。由于这一步操作作用在交通流数据上，所以称为 Traffic-level 增强。

而在空间层面，我们以区域间的邻接矩阵为对象，依据不同节点间时空模式的异质程度，对节点间连边进行删除或增加。异质程度越高，则越可能被删除，异质性程度越低，则越可能被增加。由于这一步操作作用在交通图的拓扑结构上，所以称为 Topology-level 增强。

将增强后的数据喂给时空编码器，同样会生成一个表征，为了原始表征区分，我们称其为增强表征。

PS：这里提及的两个「异质程度」，是通过模型学习出来的，具体可点击阅读原文参考原论文。

3.3 多任务学习阶段

多任务学习阶段包含三个学习任务，分别是未来预测、空间异质性捕获、时间异质性捕获。其中未来预测对应原本的交通预测问题，其他两个则可以看作自监督辅助任务。

未来预测任务最为简单，使用一个多层感知机根据时空编码模块输出的表征对下一时间步的交通流量进行预测，利用真实标签数据计算损失。

后两个任务是文章的关键部分，下面详细展开。下图左半部分为空间异质性建模示意图，右半部分为时间异质性建模示意图。

在空间异质性捕获部分，模型利用软聚类方法，增强模型对不同地区不同时空模式的区分能力。模型使用深度学习方式对模型的增强表征进行软聚类，计算每个节点被分到各个簇的概率。并期望原始表征能够准确预测每个区域所属的类簇。因为增强数据的时间和空间异质性更低，所以生成的表征质量更高，如果用其聚类结果作为标签，可以指导原始表征的学习，使得时空编码器关注不同区域的差异。

于是，可以得到该任务的优化目标：

其中，带浪号的是增强数据的节点表征被分到各个簇的概率，也就是标签，带帽子的是原始数据节点表征对该节点所属类簇的预测。

在时间异质性捕获部分，模型计算不同时间步的对比损失。具体来说，模型对每个时间步分别计算出「整体表征向量」。随后将同一时间步下的节点表征与整体表征视为正样本，将不同时间步的节点表征与整体表征视为负样本计算对比损失，从而将时间异质性引入时空编码器，让其感知当前所处时间步的特征。

为此，先将原始表征和增强表征按可学习的权重相加得到「融合表征」，公式如下：

然后将各个节点的融合标准相加得到整体表征：

这一操作对每个时间步分开进行。最后，我们通过交叉熵损失来进行正负样本的区分：

最后，ST-SSL 将三个任务的损失函数相加作为最终的优化目标，来提升模型表征能力。

实验

我们使用两种数据进行实验。第一种是纽约自行车租赁数据（NYCBike1，NYCBike2）。第二种是出租车 GPS 数据（NYCTaxi，BJTaxi）。数据统计信息如下：

4.1 性能评估

为了避免随机性，我们使用了 5 个不同的随机种子来跑所有深度学习模型，并给出了平均性能及其标准差。

如上表所示，在水平 0.01 的 t 检验下，ST-SSL 在所有数据集的各个评估指标下显著优于其他竞争基线。这表明 ST-SSL 以自监督的方式联合建模时间异质性和空间异质性是非常有效的。

4.2 时空稳健性分析

接下来，我们分析 ST-SSL 在空间尺度的和时间尺度上的稳健性。为此，我们在 BJTaxi 数据集上对具有不同数据分布的时间段的不同模式的空间区域分别进行了预测结果评估。

对于空间稳健性，我们使用交通数据统计量，即历史交通流量的（平均值、中位数、标准差）来对区域进行聚类。聚类结果如下图 (a)，可以看到，类别 ID 较小的区域主要位于交通数据稀疏的区域，它们具有较低的流量，例如郊区。

我们对比了 ST-SSL 和几个 SOTA 基线模型在不同类别区域上的预测性能，如上图（b）所示。可以发现，ST-SSL 对于数据稀疏的区域的预测性能提升更明显，这也验证了 ST-SSL 性能的空间稳健性，它可以准确预测不同类型空间区域的交通流量。

对于时间稳健性，我们将工作日划分为四个时间段，将节假日划分为两个时间段，如下图（c）所示。我们在图（d）中给出了不同模型在不同时间段的预测性能，并发现 ST-SSL 在每个类别上都超过了基线模型。

值得注意的是，ST-SSL 在类别 3 和 5 中相较于基线模型表现出了显著的提升，而这两个列别分别对应工作日和节假日的夜间。在这些时候，交通流量数据通常是非常稀疏的，这使得基线模型很难准确预测。而 ST-SSL 可以处理这种情况，恰恰是因为它充分捕获了时间异质性。

4.3 异质信息指导的数据增强

本文提出了异质信息指导的 Topology-level 数据增强，我们看看异质信息是否有用。首先，我们在下图左图可视化了流量数据，然后在右图画出了增强图断开的连边和新增的连边，并在左图中标注出了对应的位置。

我们发现增强后的图结构断开了两个相邻但数据异质性较高的区域，他们分别是三元桥区域（交通枢纽）和它邻接的左家庄区域（居民区），从左图可以看到这两个区域的数据分布差异很大。同时，我们还发现增强后的图结构在具有相似城市功能的远距离区域之间建立连边，例如西直门桥和三元桥，它们都是交通枢纽。通过这种方式，ST-SSL 不仅可以消除低相关交通模式的区域间连边的带来的 bias，还可以捕捉到整个城市范围内远距离的区域依赖关系。