基于互补学习系统的时空预测模型，实现时空预测模型自适应进化

科学

2024-05-04 14:05

中国科大数据智能实验室联合港科大广州提出基于互补学习系统的时空预测模型，实现时空预测模型自适应进化，预印版及代码已开源。

论文标题：

ComS2T: A complementary spatiotemporal learning system for data-adaptive model evolution

论文链接：

https://arxiv.org/pdf/2403.01738.pdf

代码链接：

https://github.com/hqh0728/ComS2T

动机与引言

▲ 图1 城市数据随着时间演变产生的时空偏移现象

时空学习是实现城市智能和城市可持续城市发展的关键技术。然而，快速的城市扩张和城市演化导致城市时空数据分布和全城结构在短时间内产生波动，图 1 展示了城市时空数据分布与结构随时间的演变，从宏观角度来看，上海的车辆人口从 2020 年的 397 万增加到 2022 年的 537 万，而纽约市的人口从 2020 年到 2021 年从 877 万下降到 846 万；从微观角度看，如果一个地区经历了购物中心的建设，建设期间车辆强度会显著下降，建设完成后即会显著增加。

现有的大多数机器学习/深度学习仍然假设数据服从独立同分布的，这使得现有方法存在泛化和数据适应方面的问题。尽管一些工作已有针对泛化任务开展研究，但仍存在两大问题：1）无法直接建模新观测数据并进行模型自适应优化，2）泛化任务采用集成或重新训练的策略，面临重复训练、存储增长等复杂度问题。

因此，时间分布和城市结构的变化对当前时空模型各自的时间和空间视角带来了分布外（OOD）泛化的挑战。因而迫切需要一个面向时-空 OOD 问题、能够数据自适应与及时模型更新的时空学习框架。

我们发现，人类的大脑记忆学习本质上也是一种随着新场景到达不断学习、更新迭代的过程，这与时空学习模型动态理解快速演变、不断变化的时空数据并实时优化更新模型的过程是不谋而合的。事实上，为了更新和迭代技能，我们大脑的不同区域通常以不同的作用和互补的方式巩固历史记忆，吸收新的知识。

因而，互补学习系统（Complementary Learning System, CLS）理论即揭示了大脑中的新皮质层可以逐步巩固结构化和学习良好的现有知识，而海马体结构则倾向于有效地学习特定个体的知识，这两种结构相辅相成，即实现了我们旧知识的巩固与新技能的学习。

在这项工作中，我们尝试以互补的视角动态更新模型参数，以解决时空分布偏移问题，实现数据自适应的模型进化。然而，鉴于时空数据具备复杂的依赖关系并且与环境因素之间存在相互作用，设计互补时空学习系统还面临以下挑战：

首先，如何将复杂的时空学习器（ST learner）与互补学习无缝耦合在统一而高效的框架中，即如何在给定 ST Learner 的情况下，有效地识别稳定的新皮质神经模块和动态的海马体结构，分别用于可泛化性和模型更新？
其次，如何以整体视角共同建模时空观测和环境特征，恰当地处理未见数据以使海马体结构适应新环境？
最后，如何设计训练策略以同时保留历史信息并在新模式上赋予模型在线更新能力，同时减少计算资源的消耗？

为了应对这些挑战，我们设计了一种基于提示的自适应互补时空学习系统（ComS2T）。我们的 ComS2T 主动识别时空学习网络权重中相对稳定的权值和动态子空间来实例化为时空互补学习系统。

具体而言，首先，通过将时空依赖关系反映至可学习的参数中，我们将全部的学习权值分解为两个互补的子空间，稳定的新皮质和动态的海马体，通过保留两个变化矩阵来捕获权重行为在学习过程中的动态性。其次，为了分解和优化环境-观测交互，我们将空间位置描述和时间信号作为基本环境信号用于以下提示，并基于参数化的分布信息来训练可学习的时空提示。

然后，我们利用学习到的提示来微调我们的时空块的海马体结构，允许整个架构随着新的输入观察而演变。最后，我们设计了一个两阶段的训练过程，包括时空预热和基于提示的微调，逐步学习条件提示的映射函数，并在测试阶段进行有效适应。

因此，我们的互补学习赋予了模型在训练和测试阶段的演进能力。沿着训练过程，我们的 CLS 能够同时利用新皮质层保留历史信息并允许海马体灵活地更新网络适应新数据。在测试过程中，利用有限测试数据开展自监督训练空间-时间提示，进而将模型更新推广到测试阶段，进一步促进了模型的适应性。我们的贡献总结如下：

这是将神经科学中的互补学习与时空模型相结合实现泛化和数据适应的首次尝试，通过两个保留良好的变化矩阵设计了高效的神经架构分解。
提出了一种自监督的提示训练方法，用于建立环境因素与主要观测分布之间的关系，不仅允许神经网络微调提示，而且使模型参数敏感于数据分布的动态性和演变。
我们的框架可以同时处理空间和时间方面的分布变化，并构建了四种 OOD 场景来模拟模型验证的数据适应。实验表明，我们的 ComS2T 可以在时间偏移（数据分布偏移）时将性能提高 0.73% 至 20.70%，同时在结构偏移时提升 0.36% 至 17.30%。

方法介绍

▲ 图2 ComS2T 模型框架图

时空互补学习系统分为四个主要组件，分别是高效的神经网络解耦、自监督时空提示学习、渐进式时空学习、测试数据微调。

高效的神经网络解耦

为了确保可解释性的网络结构解耦，我们将空间模块和时间模块分别作为独立单元。假设空间聚合有层，时间卷积有次，我们将空间邻接性和特征级别的缩放都视为空间可学习空间

，并将时间可学习权值集合指定为。

为了简化标记，我们将中所有可学习参数都表示为，并将和表示为和中的特定确定性元素，其中和是这两组权重的虚拟维度。我们通过时空网络中参数的变异程度来确定海马体神经结构和新皮质神经结构。具体来说，训练过程中变异程度较小的参数被归纳为新皮质层，而其补集则被认为是海马体层。

其中，用于对集合中的可学习权重进行平均，以确保用于迁移的新皮质层结构的通用性和平滑性。是分别位于空间和时间模块上的解耦的新皮质神经结构，而则分别是空间、时间模块的海马体神经结构。

自监督时空提示学习

首先基于“提示-回答”设计了一种自监督形式的预训练机制，巧妙地以自监督的形式训练提示表征，并将提示信息传递至互补学习系统中以作为一个条件变量，与输入的主观测叠加来更新“海马结构”。我们显式建模了每个时空域中连续时间序列的观测分布，使得模型能够构建起时空 prompt 与连续时间序列摘要的潜在关联。

具体而言，我们先选取具有代表性的信号组织了空间信息和时序信息，空间上包括经纬度信息和节点编号，而时间上，选取 Day of week, time step, trend 等时间、时序指示作为输入。

对于 prompt 表征学习的监督信号，我们建模了当前连续个时间步的序列观测，训练得到具有区分性模式的 prompt 表征来预测序列观测分布，~。我们的预测模型可以形式化地表达为

无论在训练还是测试阶段，这种自监督机制均仅可以在获得空间嵌入、时间步和对应观测信息的条件下快速构建 prompt 与数据分布间的关联，使其天然地能够在分布外的场景微调 prompt 表示。同时，这种动态性能够传递至主模型的海马结构中，为回归任务的 test-time training 提供了可能（条件）。

渐进式时空学习

我们将解耦得到的海马体结构用于快速学习新信息，而利用新皮质层来保留时空学习中的稳定信息。具体而言，我们对空间学习模块和时间学习模块进行分别学习，冻结新皮质层、更新海马体层。鉴于上下文生成的 prompt 能够充分表达环境信号，使得模型能够感知到环境变化，因此我们基于时空 prompts来更新海马体层。

首先，我们对 prompt 信号对齐，将 spatial prompt 和 temporal prompt 分别注入到空间、时序学习的表征输入中，使之与时空主观测的输入保持相同维度和融合，并传送至海马体层。用表示空间 prompt 并用表示时序 prompt，在 fine-tune 阶段，空间学习层的输入为。随后我们将冻结皮质层并且更新海马体层，形式化地可以得到，同理，我们对时序学习块也进行更新。学习过程可以表示为：

测试数据微调

为了赋予模型自我进化的能力，能够根据数据实际分布进行自我进化和调整，我们在测试阶段对 prompt 信息再次微调。当测试数据到达，我们重新抽样一小批数据来构建 self-supervised learning pairs，随后优化 spatial and temporal prompts 并更新，我们将新的 prompt 与 X 观测表征相加，输入到时空模型中，以获得具有泛化能力的输出。这一部分的学习过程可以表示为：

实验

数据集

在数据集方面，我们选取了四个典型且不同领域的时空数据集合，两个交通数据集：SIP 和 Metr-LA，一个环境（空气质量）数据集：KnowAir，及一个气象数据集：Temperature。

实验设置

如图所示，我们分别构建了具有明确时序分布偏移和空间结构偏移的实验数据。

首先，时间分布偏移可以通过根据不同数据集上的数据分布特征进行两个训练-测试分割来模拟。

天级别划分：对于 SIP 和 Metr-LA 等动态的交通数据集，一天内的演变模式完全不同。因此，我们通过收集所有相同日期间隔（例如，每天的 8:00-16:00）来组织训练集，而在其他未见过的日期间隔（例如，每天的 1:00-7:00）上进行测试。
月份级别划分：对于相对短期内相对静态但季节性变化的空气质量和气候数据集，我们将全年记录分成四个季度，其中我们使用两个季度进行训练，而在一个季度进行测试。

其次，空间分布偏移是通过引入新节点和移除现有节点实现的。

节点引入：我们在训练期间屏蔽一些现有节点，并在测试阶段将它们重新添加，以模拟图结构的新连接。
节点移除：类似地，我们在测试阶段移除一些现有节点，以模拟动态图结构中的节点消失。

▲ 图3 时空偏移现象模拟

预测结果

▲ 表1 实验结果

实验结果分析

总体而言，我们的 ComS2T 在大多数场景下均取得了与基线模型相比更好的预测性能，在时序数据分布变化下，性能从 0.73% 提高到 20.70%，在结构变化下，性能从 1.19% 提高到 17.30%。我们的四个主要观察如下。

观测1：与传统 ST 学习器比较。虽然传统的 ST 学习器在连续序列预测的设置上显示出令人满意的性能，但在分布变化的情况下仍然存在不足，特别是在两个交通数据集上。MTGNN 和 ST-SSL 揭示了对结构变化的一些稳健性，主要是因为通过节点复制策略可以很好地将可学习的邻接关系转移到新节点上，而逐步和节点自监督信号可能在获得区分模式以进行泛化方面发挥重要作用。因此，SSL 学习的潜在优势在于改进表征，显著改善了在 Metr-LA 数据集上的性能，这也被继承到我们的 ComS2T.

观测2：与不变学习 ST 模型比较。一些模型考虑了跨环境的不变性和可转移性，以抵消时间分布的变化，实证结果表明，捕获不变性确实可以提高 OOD 学习能力，但仍不如我们的 ComS2T。这是由于即使将不变性转移到 OOD 场景，这些方法没有针对模型更新和数据适应构建具体方案。

观测3：与 ST 持续学习比较。对于明确考虑环境变化的预测模型，如 CauSTG、CaST 和 TrafficStream，无论是利用封闭的环境划分和码本，还是利用经验重放对模型进行重新训练，仍不能充分利用现有的环境信息来提高自适应能力。相比之下，我们的 ComS2T 利用了自监督提示和互补学习的优势，通过在主要观测值和环境提示之间建立桥梁来适应空间和时间提示，因而我们的模型在时序分布偏移下至少提高了 8.17%，在结构变化下提高了 3.16%。

观测4：结构转移下的比较。尽管 CauSTG 考虑了空间转移、PECPM 关注了路网扩张问题，我们的工作通过更新空间提示与新的观察明确建模空间结构背景。结果表明，ComS2T 显著优于 CauSTG 和 PECPM，例如在 SIP 的数据分布偏移下，它比 CauSTG 提高了 3.01%，在 Metr-LA 节点去除场景中下，它比 PECPM 提高了 17.30%。此外，ComS2T 还解决了需多次训练（CauSTG）和模式级匹配（PECPM）的计算效率问题。

综上所述，我们的 ComS2T 将主要在两个方面优于其他基准，即：

1）我们的 ComS2T 不牺牲内存存储来保存新模式，也不牺牲序列级模式匹配的计算负担，我们的 ComS2T 直接解算稳定和动态的神经架构，并在整个训练过程中主动更新神经网络，从而获得较高的效率；

2）我们的 ComS2T 结合了自监督提示与分布重构的优势和互补的学习框架，允许随着新的观测值进行灵活的提示更新，实现了精确的数据适应与时空学习框架模型。

可视化结果

我们从参数演化行为、学习过程误差等方面来更具体地验证 ComS2T 的有效性。

从可视化的结果可以发现：

参数在互补学习优化过程中经历了波动-稳定-波动-稳定的过程，也正表明了互补学习系统对参数学习的有效性；
我们互补学习的视角能够在原有唯一学习路径的基础上进一步补充、迭代地学习新知识，从而获得更小的学习误差；

总结

本工作受神经科学启发，将互补学习的思想与时空预测相结合，提出了基于提示的互补学习系统 ComS2T，赋予模型数据适应和演化能力。我们首先将时空学习神经网络解耦为两个不同的神经结构，通过显式建模可学习权重的训练行为。为了实现高效和自适应的模型演化，引入额外的环境因素，使用空间-时间提示来描述观察数据的分布，并使提示能够通过自监督信号进行学习。

然后，我们可以逐步解耦神经结构，并将信息提示纳入动态海马体进行环境感知的微调。ComS2T 允许在训练阶段基于环境提示进行模型调整，因此，在环境变化时，可将提示微调扩展至测试阶段，从而增强模型对新数据模式的拟合，提升模型进化能力。

我们在四个真实世界的城市数据集上开展了大量实验，涉及空间和时间变化。实证结果表明，我们的 ComS2T 可以应对城市流数据的分布外挑战，分别在时间和结构变化下将性能提高了 0.73%∼20.70% 和 0.36%∼17.30%。可视化的案例研究进一步展示了信息丰富且语义明确的中间结果以及有效的解耦学习方案，提升了内在的可解释性和对 ComS2T 的更深理解。

更多阅读