Redian新闻
>
AAAI 2023 | 面向低质量数据的时空预测

AAAI 2023 | 面向低质量数据的时空预测

科技

©PaperWeekly 原创 · 作者 | 寄家豪

单位 | 北京航空航天大学

研究方向 | 时空数据挖掘


论文标题:

Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction

论文链接:

https://doi.org/10.48550/arXiv.2212.04475

代码链接:

https://github.com/Echo-Ji/ST-SSL



研究背景

时空预测广泛存在于我们生活的方方面面,例如交通预测、细粒度疫情预测、空气质量预测等,由于待预测的数据同时存在时间属性和空间属性,因此这类问题被称为时空预测。

作为时空预测的典型案例,交通预测旨在研究如何利用历史交通状况、城市路网等数据,对未来交通状况进行预测。准确且稳健的交通预测有助于提升城市出行效率,因此它是智能交通系统的核心技术之一。



本文介绍

交通预测通常会面临数据质量低的问题,这些低质量数据主要指城市郊区的交通数据比较稀疏。原因在于郊区人口稀少、交通活动强度低。而这些数据稀疏的地方通常不被预测模型所关注,因此预测误差较大,这就会导致模型在这些区域的泛化性不足。

例如,下图展示了不同模型在北京出租车数据集上的相对预测误差,像素点越明亮表示相对误差越大。可以发现,现有模型(ST-ResNet、AGCRN)在数据低质的城郊区域(图像边缘)预测误差较大。相比之下,我们提出的面向低质量数据的时空预测模型 ST-SSL,在这些区域则表现出了较强的泛化能力。


现有模型出现这种问题的本质原因在于:不同区域的数据分布差别很大,即空间异质性。如下图(a)所示,这里有两个空间相邻的区域,但他们的数据分布差异很大,如图(b)。如果在建模的时候对两种数据分布不做区别,那就会导致模型把更多的注意力放在数据充沛的区域 B,而对数据稀疏的区域 A 关注度不足,难以捕捉这类地区的时空模式,导致模型在这类地区的泛化能力变差。

在时间维度,交通数据分布也存在相应的时间异质性。如上图(c)所示,即使是同一地区的交通数据,夜间数据明显比早晚高峰期的数据更加稀疏。

因此,建模数据分布的异质性,是提升模型在低质量数据上泛化性能的关键。为此,我们首次引入自监督学习方法来解决这一问题,时空自监督学习模型 ST-SSL(Spatio-Temporal Self-Supervised Learning)应运而生。

传统交通预测模型使用时间卷积和空间卷积进行信息聚合,在此基础之上,ST-SSL 额外引入了自监督学习方法建模异质性。对于空间异质性,引入软聚类的辅助自我监督机制,以感知不同区域之间的空间格局差异。对于时间异质性,则使用对比学习增强模型对不同时间步的表征区分能力。



模型架构

本文在传统时空卷积基础上,充分吸收自监督学习范式的优势,以增强模型表征,捕获数据分布的时空异质性。模型工作原理如下图。

ST-SSL 分为三个阶段,首先是时空编码(ST Encoder)阶段,利用时空卷积生成数据的原始表征;然后的是自适应数据增强阶段,对输入的时空图数据进行增强,并获取模型对增强后数据的表征,即增强表征。最后是多任务学习阶段,它基于原始表征和增强表征捕获时空异质性。
3.1 时空编码

该模块是一个多层卷积结构。在每一个卷积层,模型依次进行三次卷积:时间卷积-空间卷积-时间卷积。其中,

  • 时间卷积阶段,在时间维上进行一维卷积,以捕获不同时间步的特征相关性。这一操作对不同节点分开进行。
  • 空间卷积阶段,利用地理邻接矩阵,将不同节点的信息进行传播和聚合,以捕获节点间特征相关性。这一操作对不同时间步分开进行。
通过时空编码会生成一个聚合了时空信息的表征 ,其中 是空间区域数量, 是表征维度。

3.2 自适应数据增强

在这一阶段,ST-SSL 利用数据异质性信息,分别在时间和空间两个层面进行数据增强。

在时间层面,ST-SSL 依据各个时间步同整个时间序列的异质程度,对时间步进行遮盖(mask)。这一操作对不同节点分开进行。由于这一步操作作用在交通流数据上,所以称为 Traffic-level 增强。

而在空间层面,我们以区域间的邻接矩阵为对象,依据不同节点间时空模式的异质程度,对节点间连边进行删除或增加。异质程度越高,则越可能被删除,异质性程度越低,则越可能被增加。由于这一步操作作用在交通图的拓扑结构上,所以称为 Topology-level 增强。

将增强后的数据喂给时空编码器,同样会生成一个表征 ,为了原始表征 区分,我们称其为增强表征。
PS:这里提及的两个「异质程度」,是通过模型学习出来的,具体可点击阅读原文参考原论文。
3.3 多任务学习阶段
多任务学习阶段包含三个学习任务,分别是未来预测、空间异质性捕获、时间异质性捕获。其中未来预测对应原本的交通预测问题,其他两个则可以看作自监督辅助任务。
未来预测任务最为简单,使用一个多层感知机根据时空编码模块输出的表征对下一时间步的交通流量进行预测,利用真实标签数据计算损失。
后两个任务是文章的关键部分,下面详细展开。下图左半部分为空间异质性建模示意图,右半部分为时间异质性建模示意图。

空间异质性捕获部分,模型利用软聚类方法,增强模型对不同地区不同时空模式的区分能力。模型使用深度学习方式对模型的增强表征进行软聚类,计算每个节点被分到各个簇的概率。并期望原始表征能够准确预测每个区域所属的类簇。因为增强数据的时间和空间异质性更低,所以生成的表征质量更高,如果用其聚类结果作为标签,可以指导原始表征的学习,使得时空编码器关注不同区域的差异。

于是,可以得到该任务的优化目标:
其中,带浪号的 是增强数据的节点表征被分到各个簇的概率,也就是标签,带帽子的 是原始数据节点表征对该节点所属类簇的预测。

时间异质性捕获部分,模型计算不同时间步的对比损失。具体来说,模型对每个时间步分别计算出「整体表征向量」。随后将同一时间步下的节点表征与整体表征视为正样本,将不同时间步的节点表征与整体表征视为负样本计算对比损失,从而将时间异质性引入时空编码器,让其感知当前所处时间步的特征。

为此,先将原始表征和增强表征按可学习的权重相加得到「融合表征」,公式如下:

然后将各个节点的融合标准相加得到整体表征:

这一操作对每个时间步分开进行。最后,我们通过交叉熵损失来进行正负样本的区分:
最后,ST-SSL 将三个任务的损失函数相加作为最终的优化目标,来提升模型表征能力。



实验
我们使用两种数据进行实验。第一种是纽约自行车租赁数据(NYCBike1,NYCBike2)。第二种是出租车 GPS 数据(NYCTaxi,BJTaxi)。数据统计信息如下:

4.1 性能评估

为了避免随机性,我们使用了 5 个不同的随机种子来跑所有深度学习模型,并给出了平均性能及其标准差。

如上表所示,在水平 0.01 的 t 检验下,ST-SSL 在所有数据集的各个评估指标下显著优于其他竞争基线。这表明 ST-SSL 以自监督的方式联合建模时间异质性和空间异质性是非常有效的。

4.2 时空稳健性分析

接下来,我们分析 ST-SSL 在空间尺度的和时间尺度上的稳健性。为此,我们在 BJTaxi 数据集上对具有不同数据分布的时间段的不同模式的空间区域分别进行了预测结果评估。

对于空间稳健性,我们使用交通数据统计量,即历史交通流量的(平均值、中位数、标准差)来对区域进行聚类。聚类结果如下图 (a),可以看到,类别 ID 较小的区域主要位于交通数据稀疏的区域,它们具有较低的流量,例如郊区。

我们对比了 ST-SSL 和几个 SOTA 基线模型在不同类别区域上的预测性能,如上图(b)所示。可以发现,ST-SSL 对于数据稀疏的区域的预测性能提升更明显,这也验证了 ST-SSL 性能的空间稳健性,它可以准确预测不同类型空间区域的交通流量。

对于时间稳健性,我们将工作日划分为四个时间段,将节假日划分为两个时间段,如下图(c)所示。我们在图(d)中给出了不同模型在不同时间段的预测性能,并发现 ST-SSL 在每个类别上都超过了基线模型。

值得注意的是,ST-SSL 在类别 3 和 5 中相较于基线模型表现出了显著的提升,而这两个列别分别对应工作日和节假日的夜间。在这些时候,交通流量数据通常是非常稀疏的,这使得基线模型很难准确预测。而 ST-SSL 可以处理这种情况,恰恰是因为它充分捕获了时间异质性。

4.3 异质信息指导的数据增强

本文提出了异质信息指导的 Topology-level 数据增强,我们看看异质信息是否有用。首先,我们在下图左图可视化了流量数据,然后在右图画出了增强图断开的连边和新增的连边,并在左图中标注出了对应的位置。

我们发现增强后的图结构断开了两个相邻但数据异质性较高的区域,他们分别是三元桥区域(交通枢纽)和它邻接的左家庄区域(居民区),从左图可以看到这两个区域的数据分布差异很大。同时,我们还发现增强后的图结构在具有相似城市功能的远距离区域之间建立连边,例如西直门桥和三元桥,它们都是交通枢纽。通过这种方式,ST-SSL 不仅可以消除低相关交通模式的区域间连边的带来的 bias,还可以捕捉到整个城市范围内远距离的区域依赖关系。



总结

本文为低质量交通数据的预测问题提出了一个时空自监督学习模型 ST-SSL,这一模型能够对数据中存在的时间异质性与空间异质性进行充分利用,并引入了自监督学习方法来对这种异质性进行建模,从而解决已有预测方法在低质量数据区域表现不佳的问题。

在 NYCBike、NYCTaxi、BJTaxi 等数据集上进行的实验证实了 ST-SSL 模型的表现要优于现有预测模型,从而进一步证实了时空异质性在交通预测中的重要性。

由于时空异质性在时空数据中广泛存在,因此 ST-SSL 也可以用于其他时空预测应用中。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
独家 | B站考虑全面取消播放量数据的显示豪斯曼:《诗歌外编》: 第十七首:命运还没有把最坏的给我无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步没有这套OSM全国地图数据,你的ArcGIS彻底废了!(附矢量数据下载)爱尔兰苏格兰自驾游 (0) - 在犹豫不决中出发经销商“硬刚”零跑汽车跟踪:销量数据疑似造假,强迫经销商上牌拿国补夏季将止亏为盈 达美航空预计年底前恢复2019年运力扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模“低质量社交,不如高质量独处”,有远见的人都关注这些微信号OpenAI推出ChatGPT企业版:用户有权决定对话数据和API数据的去留丨最前线学习视角丨光影绘新篇③:文物修复的时空对话Eruope 2023【2022全新智能公寓】【本科生大数据的选择】【新房优惠免中介费/免2个月房租!8-9月最后一批房源】【门前绿橙地铁站】这几条芯片赛道,请停止低质量内卷波特兰被评为「美国大麻第一城」价低质量高!妥妥的大麻之乡!连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话向量数据库?不要投资!不要投资!不要投资!辣评-Weekly:华为已完成芯片14nm以上EDA工具国产化;窗户玻璃可接收卫星电视信号;有史以来最大的太空预算国际要闻简报,轻松了解天下事(032023 春 祝姐妹们周末快乐!北京内推 | 微软亚洲研究院机器学习组招聘时空序列预测方向研究型实习生南澳散记 (增订本) :第十八章:动物杂谈 (上)转:2023 回国探亲(5)这就好像一个奇妙的时空隧道,很不寻常与向量数据库Pinecone工程经理聊ChatGPT插件Zilliz星爵:向量数据库,开创AI原生数据基础软件时代 | GGV OMEGA访谈录LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩夏季将止亏为盈,达美航空预计年底前恢复2019年运力【宏观市场】如何看待财政与经济增长数据的背离?—评2023年1-2月财政数据Nature:剑桥大学徐宇/Michael Inouye构建出直接从基因型预测多组学数据的独特资源与其低质量行动,不如多一些高质量思考2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一小米回应被华为起诉专利侵权;多家车企公布2月销量数据;微博第四季度净收入4.48亿美元……Pinecone:大模型引发爆发增长的向量数据库,AI Agent的海马体Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体兰花,美的化身美国现在有大概250万非土生土长的华人。8点1氪:美国监管部门托底,硅谷银行储户周一可支取所有资金;硅谷银行CEO套现360万美元股票;B站考虑取消前台播放量数据显示如何度量数据的稀疏程度?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。