NeurIPS 2023 | 动态组合模型来应对数据分布的变化

2023-10-07 05:10

©PaperWeekly 原创 · 作者 | 张一帆

单位 | 中科院自动化所博士生

研究方向 | 计算机视觉

近年来，我们目睹到深度学习在时间序列预测方面的研究努力显著增加。深度模型不仅在预测任务中表现出色，还在表示学习方面表现出色，能够提取抽象表示，这些表示可以有效地用于下游任务，如分类和异常检测。然而，现有研究主要集中在批处理学习设置中，假设整个训练数据集在先前就已经可用，并且在学习过程中输入和输出变量之间的关系保持不变。这些方法在现实世界的应用中存在问题，因为概念往往不稳定而随时间变化，这被称为概念漂移（concept drift），未来的数据展现出不同于过去的模式。

比如在上图中海平面的平均值从 1881 年到 2013 年不断上升，基线模型即不在新的数据上重新 adapt model 的方法未能识别新数据中平均值持续漂移的情况。在这些情况下，从头重新训练模型可能会非常耗时。因此，在线训练深度预测模型，通过增量更新预测模型来捕捉环境中不断变化的动态是非常必要的。

在本文中，我们将介绍我们发表于 NeurIPS 2023 的文章，《OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling》，OneNet 的思想十分简单，它采用了两个不同的模型，一个模型专注于建模时间维度上的相关性，另一个模型专注于建模跨变量之间的依赖关系。

这两个模型都在训练过程中使用相同的训练数据进行独立训练。在测试时，OneNet 将强化学习方法引入传统的在线凸规划框架中，允许动态调整权重以线性组合两个模型。这样，OneNet 可以同时利用这两种模型的优势，既能处理概念漂移，又能提高预测精度。下文中我们会详细介绍为什么需要两个不同的模型，如何更好的 combine 两个模型的预测结果。

论文链接：

https://arxiv.org/abs/2309.12659

代码链接：

https://github.com/yfzhang114/OneNet

实验结果表明，OneNet 在挑战性数据集上表现尤为出色，误差降低超过 50%。以及我们还进行了全面的实验，以研究不同的模型设计选择对模型鲁棒性的影响，包括但不限于 instance normalization，variable independence，seaso nal-trend decomposition，以及 frequency domain augmentation。最后，我们系统地比较了现有的基于 transformer 的模型、基于 tcn 的模型和基于 mlp 的模型在面对概念漂移时的鲁棒性。希望我们的实验结果能为之后 online time series forecasting 的模型设计带来一些启发。

Motivation

如何动态，快速的调整模型让他迅速适应时序数据的变化，这个研究方向被称为 Online Time Series Forecasting。实际世界中的在线预测环境存在很大的挑战，如与离线小批量训练相比，存在高噪声梯度问题（只有少量数据点），以及连续的分布偏移问题，这可能导致从历史数据中学习的模型对当前的预测效果不佳。

在本文中，我们首先发现变量的独立性（模型专注于建模跨时间依赖性并独立地预测每个变量）对于模型鲁棒性至关重要。为了验证变量独立性假设的有效性，我们设计了 Time-TCN，它仅在时间维度上进行卷积。Time-TCN 这个简单的 baseline 在在线预测方面优于 FSNet（目前的 SOTA），并在与通常在变量维度上进行卷积的 TCN 结构相比取得了显著的收益。

尽管变量独立性增强了模型的鲁棒性，但跨变量依赖性对于预测同样至关重要，即对于特定变量，来自其他变量中关联系列的信息可能会改善预测结果。正如在表1中所示，对于具有少量变量的数据集 ETTm1和 ETTh2，只关注跨时间依赖性的预测器往往会产生较低的性能。然而目前那些旨在同时利用跨变量和跨时间依赖性的模型，如 CrossFormer 和 TS-Mixer，往往表现不如简单的 TCN。

为了调查这一现象，我们在图 1 中可视化了在线自适应过程中不同时间步长的均方误差（MSE），其中分别使用了跨时间模型（Time-TCN）和跨变量模型（TCN）。我们观察到在线自适应过程中 MSE 波动很大，表明随时间发生了显著的概念漂移。我们还观察到，这两种方法都没有始终表现比另一种更好，表明这两种数据假设都不适用于整个时间序列。这就是为什么依赖像 CrossFormer 这样的单一模型不能解决这个问题的原因。

现有工作依赖于一个简单的模型，但对于在线时间序列预测来说，随着在线概念漂移的持续变化，数据对模型偏见的偏好也将不断变化。因此，我们需要一种数据依赖策略，以持续更改模型选择策略。

这就是本文的 motivation，简单来说，一个模型所带有的 model bias 不足以面对复杂的 concept drift，我们需要两个正交的模型相互补充相互促进。

OneNet: Ensemble Learning for Online Time Series Forecasting

2.1 Two-stream forecasters

我们的模型结构相当简单，输入的多变量时间序列数据将分别输入到两个独立的预测器，即跨时间预测器和跨变量预测器。忽略了变量依赖性，则简单地选择了最后一个时间步时间序列的表示，忽略了时间依赖性。这两个模块为预测任务提供了不同但互补的归纳偏差。*然后使用 OCP 块学习最佳组合权重。两个encoder 在训练过程中相互不影响。

2.2 Learning the best expert by Online Convex Programming (OCP)

首先我们需要了解，对于 online learning 来说，在线的组合两个模型的预测结果不是一个 novel 的事情，指数梯度下降（EGD）就是一种常用的方法。如果不喜欢下面的数学公式，那么简单描述就是我们给表现好的 forecaster 越来越大的权重，表现差的越来越小的权重，下面框中是对 EGD 的一个大概介绍。

具体来说，决策空间是一个维单纯形，即，其中是时间步骤指示符，当不引起混淆时，我们简单地省略了下标。给定在线数据流，其预测目标，以及具有不同参数的个预测专家，玩家的目标是最小化预测误差，即

根据 EGD，选择作为单纯形的中心点，并将表示为时间步骤时的损失，每个的更新规则为

其中

是正则化项，该算法是具有一个不错的 regret bound 的。

然而，众所周知，指数加权平均预测器在分布发生急剧变化时响应非常迟缓，这是可以理解的因为如果我们一直给变现好的 forecaster 更大的权重，那么在一些它不 work 的 time pieces，我们很难把这个权重扭转过来。也就是说，EGD 算法生成的组合权重 基于长时间内的历史性能，因此不能快速适应瞬态环境变化。

我们在文中进行了额外的分析，即无论我们如何调整 EGD 的学习步长，EGD 算法都必须在切换速度和整体性能之间进行权衡。同时我们给出了一个简单的证明强调，通过考虑短期信息，我们可以在短时间间隔内获得更低的 regret。但是完全丢弃长期信息使得算法在在线学习过程的长时间内不如 EGD。

在这项工作中，我们通过利用离线强化学习来解决在线学习的这一挑战。首先，我们使用 EGD 来维护长期权重。此外，我们引入了一组不同的权重，它可以更好地捕捉各个模型的最近性能。通过结合和，我们的方法可以有效地融合长期历史信息和环境中更近期的变化。

EGD 做的事情就是我们刚才提到的给表现好的 forecaster 越来越大的权重，表现差的越来越小的权重，而 offline RL 可以理解为一个 linear head，我们将上一个时间步模型的预测以及 ground truth 作为输入，它来预测下一个时间步两个 branch 各自的权重，可以看到，它只依赖于非常短期的信息，因此能够很快的 adapt 到新的 pattern。

▲ OCP 块通过利用指数梯度下降（EGD）保存的的长期依赖和离线强化学习（RL）的短期依赖生成组合权重。

Experiments

在本节中，我们将展示以下内容：1）所提出的 OneNet 仅使用简单的重新训练策略就实现了卓越的预测性能（与先前的 SOTA 模型相比，均方误差减少了超过 50%）；2）OneNet 达到了比其他方法更快、更好的收敛性能；（3）我们进行了彻底的消融研究和分析，以揭示当前先进预测模型的每个设计选择的重要性。最后，我们介绍了 OneNet 的一个变体，称为 OneNet-，其参数显著更少，但仍然远远超过了先前的 SOTA 模型。

3.1 Online forecasting results

累积性能：表 3 展示了不同基线模型在均方误差（MSE）方面的累积性能。特别是，Time-TCN 和 PatchTST 表现出强大的性能，并超过了先前的最先进模型 FSNet。所提出的 OneNet-TCN（TCN 和 Time-TCN 的在线集成）在各种预测时段中超过了大多数竞争基线。

有趣的是，如果组合的分支更强大，例如，OneNet 结合了 FSNet 和 Time-FSNet，实现了比 OneNet-TCN 更好的性能。也就是说，OneNet 可以集成任何先进的在线预测方法或表示学习结构，以增强模型的稳健性。与仅使用一个分支（FSNet 或 Time-TCN）相比，OneNet 的平均 MSE 显著更好，突显了在线集成的重要性。

与强大的集成基线比较：如表 4 所示，双分支框架与仅使用简单的集成方法（如平均法）就能显著提高性能。从输入中学习权重的 MOE 方法表现不佳，甚至不如简单地平均。另一方面，从和中学习权重（Gating）表现比 MOE 好得多。这表明组合权重应该依赖于模型的预测。然而，由于在线数据流的稀缺性和学到的权重中存在高噪声，将学习问题形式化为线性回归并使用闭式解决方案并不是一个好主意。

EGD 相对于平均法提供了显著的好处，突显了每个专家的累积历史性能的重要性。此外，我们观察到 RL-W（只使用 RL 学习短期权重）在某些数据集上的性能与甚至更好。因此，我们提出了使用 EGD 更新长期权重和使用离线 RL 学习短期权重的 OCP 块。这一设计在性能上优于所有其他基线。除此之外，我们观察到 OneNet 对模型超参数不敏感。

预测结果可视化在上图中呈现。与难以适应新概念并产生糟糕预测结果的基线相比，OneNet 能够成功捕捉时间序列的模式。

3.2 Ablation studies and analysis

实例标准化和季节性趋势分解的影响：如表 5 所示。结果表明，从 PatchTST 中去除季节性趋势分解组件对其影响有限，无论模型是否进行在线适应。实例标准化（instances normalization）通常用于缓解训练和测试数据之间的分布差异，这对于在线适应不可能时的模型稳健性至关重要。

然而，当进行在线适应时，实例标准化的影响会减小。有趣的是，我们的实验发现，在预测时段较长（24 或 48）时，实例标准化阻碍了 ETTH2、ETTm1 和 WTH 数据集中模型的适应过程。因此，在概念漂移下，仅对时间序列进行零均值和单位标准差的标准化可能不是最佳方法。

变量独立性和频域增强的消融研究：如表 11 所示，我们观察到使用小波变换的频域增强块比傅立叶变换更具鲁棒性。FEDformer 在泛化方面优于 TCN，但在线适应对性能的影响有限，类似于其他基于 transformer 的模型。值得注意的是，我们发现变量独立性对模型的稳健性至关重要。通过仅在时间维度上卷积，与特征通道无关的 TCN，与在特征通道上卷积相比，可以显著降低均方误差，无论此时是否应用在线适应，。

现有先进预测模型的比较：结果如表 12 所示。考虑到所有四个数据集的平均均方误差，所有基于 transformer 的模型和 Dlinear 都优于 TCN 和 Time-TCN。然而，通过在线适应，TCN 结构的预测误差大幅减小，优于 DLinear 和 FEDformer。具体来说，我们展示了当前的基于 transformer 的模型（PatchTST）即使在没有任何在线适应的情况下，也表现出比 TCN 模型更好的泛化性能，特别是在具有挑战性的 ECL 任务中。

然而，我们也注意到 PatchTST 在在线重新训练后基本没有改变。相比之下，TCN 结构可以快速适应移动的分布，而在线更新的 TCN 模型更倾向于在前三个数据集上具有更好的预测误差，而不是适应后的 PatchTST。因此，将这两种结构的优点结合起来，创建一个更加稳健和适应能力更强的模型，可以更好地处理不断变化的数据分布，是有前途的。

Conclusion and Future Work

通过我们对具有概念漂移的先进预测模型行为的调查，我们发现在变量数量较多时，跨时间模型表现出更强的稳健性，但在变量数量较少时不如能够建模变量依赖性的模型。此外，由于概念漂移的发生，这个问题变得更加具有挑战性，因为模型偏差的数据偏好在整个在线预测过程中都在动态变化，使得单一模型难以克服。

为此，我们提出了 OneNet 模型，通过 OCP 充分利用了两种模型的优势。此外，我们提出通过离线强化学习学习额外的短期权重，以减轻传统策略学习算法中常见的“慢切换现象”。我们的大量实验证明，OneNet 能够有效处理各种类型的概念漂移，并在预测性能方面优于先前的方法。

我们还发现，instances normalization 在概念漂移下增强了模型的稳健性，但在某些情况下可能会妨碍模型迅速适应新分布的能力。这促使我们进一步探讨是否存在一种规范化技术，既可以减轻分布变化，又可以实现对不断变化的概念的快速适应。此外，尽管我们设计了 OneNet 的轻量级版本来解决引入额外参数和推断时间的问题，但存在更高效的适应方法的潜力，例如利用 NLP/CV 社区的提示和高效调整方法，以避免对整个模型进行重新训练。

最后，online ensembling 的潜力不仅仅适用于 time series data，对于动态变化的环境，包括但不限于 online learning，test-time adaptation 以及 continual test-time adaptation 的场景，他都有着相当不错的潜力。

更多阅读