KDD 2023 | WHEN异构时间序列分析模型：当Wavelet和DTW遇上Attention

科技

2023-09-13 04:09

论文题目：

WHEN: A Wavelet-DTW Hybrid Attention Network for Heterogeneous Time Series Analysis

论文链接：

https://dl.acm.org/doi/10.1145/3580305.3599549

论文作者：

王静远，杨晨，蒋笑寒，吴俊杰教授

作者单位：

北京航空航天大学计算机学院、经济管理学院

数据智能与智慧管理工业和信息化部重点实验室（北京航空航天大学）

课题组：

北航智慧城市课题组（BIGSCity）https://www.bigscity.com/

详细信息：

J. Wang, C. Yang, X. Jiang, and J. Wu. "WHEN: A Wavelet-DTW Hybrid Attention Network for Heterogeneous Time Series Analysis." InProceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD’23), pp. 2361-2373. 2023.

概述

在数据挖掘领域，时间序列数据分析是一项重要且具有挑战性的任务。而时间序列的本质问题之一，时间序列的异质性，尚未得到充分建模，这正是论文研究的动机所在。

论文认为时间序列的异质性包含了两个棘手且广泛存在的现象，即序列内非平稳性和序列间非同步性。如图 1 所示。

▲ 图1 时间序列异质性

序列内非平稳性源于同一个时间序列的不同部分具有固有的异质性特征，例如均值、方差、频率成分等。子图a给出了一个关于心电图（ECG）时间序列的示例，其中 QRS 波群部分（具有高变化频率和幅度）和 T 波部分（具有低变化频率和幅度）明显具有不同的频率成分。

序列间非同步性则指的是时间序列之间的非同步现象，可能由异构的采样率或相位扰动引起。子图 b 所示的示例中，同一类别中的两个心电图时间序列由于具有不同的采样率和初始相位，很可能被归类为不同的类别。这是时间序列分类问题中的常见现象。

方法

1）总体框架

为了应对上述挑战，论文提出了 Wavelet-DTW Hybrid attEntion Networks（WHEN），用于对异质时间序列的分析。WHEN 本质上是一个混合注意力网络，将小波变换和动态时间规整算法通过注意力机制进行整合。WHEN 的框架如图 2 所示，包含两个核心模块。

小波注意力（WaveAtt）模块的关键组件是与局部数据相关的小波函数，其中小波函数的频率由局部信号序列确定，该模块通过动态提取输入序列的异质频率成分来减少序列内非平稳性的问题。

动态时间规整注意力（DTWAtt）模块则通过局部动态时间规整注意力处理信息，模块将动态时间规整算法与注意力机制结合，用于处理序列间非同步性的问题。

这两个模块通过任务相关的神经网络（TD-NN-1 和 TD-NN-2）以端到端的方式连接成一个流水线形式的模型，用于时间序列分类或预测任务。

▲ 图2 WHEN 结构示例

2）小波注意力模块

小波注意力（WaveAtt）模块基于经典的小波频率分析并结合神经网络，能够在每个时间点提取不同频率对应的小波系数。

论文首先简要介绍小波变换。小波变换通过一组小波基来提取序列信号的小波系数，而同一个母函数下的一组小波基可以表示为

小波基可以看成是一个和时间维度 t 有关的一维函数，是一个缩放参数，控制基函数的频带，是一个平移参数，控制基函数的位置。

当把原信号记为一个和时间维度 t 有关的一维函数 f(t) 时，上述小波基能通过下面的计算过程从信号中提取出系数

通过上述变换，小波基可以提取时间序列的重要频率信息。原则上通过调整参数和，论文可以提取任何位置和频率的小波系数。

小波注意力：传统方法通常手动设置为一组离散数，从而覆盖所有可能的整数频率带，这显然无法发挥小波基提取任意频率的系数这一功能。同时，时间序列数据的内部非平稳性意味着这些信号数据具有随时间动态变化的频率参数，因此在不同情况下提取不同频率对应的小波系数是一件有必要的事。

具体做法则是将频率对应的系数从手动设置的参数变为一个由神经网络决定的可变函数，同时该函数输出由对应局部信号决定

这里 w 是神经网络参数，s 是小波注意力模块对应的信号输入（对应上面小波变换部分的信号 f(t)。

对应小波基则变为：

最后，将小波系数提取公式转化为注意力机制：

这样，就能够在每个时间点首先确定应当关注的频率，再根据频率提取对应的系数。同时整个模块也是可导的，因此可以将其放入神经网络中作为一个模块发挥作用。

▲ 图3 WaveATT示意图

3）动态时间规整注意力

首先简要介绍一下动态时间规整（DTW），这是一种用于测量两个时间序列相似度的算法。它可以在时间维度上非线性地对齐两个时间序列，因此非常适用于协调具有不同相位位置和采样率的两个异步时间序列。

对于两个序列

和

有一系列的规整方式（某种序列点配对方式），可以统一表示成

其中下标满足：

而动态时间规整目标则是寻找规整距离最短的规整方式，距离可以写为

因此寻找的是这样的规整方式

动态时间规整注意力中，论文通过注意力的方式使原本的动态时间规整方法具备可导性，同时支持现有深度学习环境下的大矩阵运算。

▲ 图4 DTWATT示意图

图 4 中，动态时间规整注意力模块的输入记为序列，这里论文采用一个滑动窗口覆盖输入序列，形成了图中的，而图中的则是一个可学习的参数序列。

因为每个滑动窗口采样后的和长度是有限的，所以它们对应的规整方式也是有限的（同时在滑动窗口长度较短时，规整方式总数目也并不大），假设总共有种不同的规整方式，它们对应的种规整距离可以写为

这时可以通过注意力机制选取近似的最小距离

具有较短距离的规整方式具有较大的注意力系数，因此，在输出 b 中，具有较短距离的规整方式将获得更多的关注。这样，动态时间规整注意力依然寻找到了最短的规整距离，并将其以神经网络的方式实现出来。

实验

论文的实验基于分类和预测两个任务进行，分类实验结果如下：

分类实验结果用准确率评价，越大越好。可以看出，WHEN 在所有基线模型中取得了平均排名 2.1 的好成绩。

预测实验结果如下

预测实验结果用均方根误差评价，越小越好。可以看出，WHEN 依然表现突出。

另外，论文还使用了 Critical difference diagram 以及 Pairwise statistical significance 对分类实验的统计显著性进行了检验。在 Critical difference diagram 的检验下，WHEN 对除了 DTWAtt（即只使用 DTWAtt 而不使用 WaveAtt 的版本）以外的对比方法都表现出了显著性。在 Pairwise statistical significance 的检验下，WHEN 对其它对比方法都表现出了显著性。