一文速览ICML 2023测试时自适应/在线学习相关论文

科技

2023-07-30 13:07

现实场景中，模型不仅仅局限于单次训练，在部署之后是依然可以利用在线的数据流对模型进行一些调整，本文总结了和 Test time adaptation, online learning 场景下 ICML 2023 的相关文章。

/ ICML 2023 /

论文标题：

Uncovering Adversarial Risks of Test-Time Adaptation

论文链接：

https://arxiv.org/abs/2301.12576

这篇文章的出发点是揭示测试时适应（Test-Time Adaptation，TTA）中存在的潜在安全漏洞。TTA 是一种先进的机器学习方法，用于解决测试数据分布转移的问题。文章首先指出 TTA 的一个潜在风险，即在测试批处理中引入恶意样本可能会对最终预测模型的生成产生影响。基于这一发现，文章提出了一种名为 "Distribution Invading Attack"（DIA）的新型攻击方法，旨在通过在测试批次中引入恶意样本来干扰模型的性能。DIA 可以实现多种攻击目标，包括将关键样本的预测翻转为指定标签（有目标攻击），降低所有正常数据的性能（非选择性攻击），以及在保持正常数据准确性的同时实现第一个目标（隐蔽有目标攻击）。

文章通过在多个基准数据集上对不同的 TTA 方法进行攻击实验，展示了 DIA 的高攻击成功率。实验结果表明，在 ImageNet-C 数据集上，使用测试批次中的 5% 恶意样本进行有目标攻击可以达到超过 92% 的攻击成功率。此外，文章还对加强当前TTA方法的对策进行了探索，包括使用经过对抗训练的模型作为基础模型以抵御DIA攻击，并通过鲁棒的批归一化统计估计方法来增强 TTA 方法的鲁棒性。

不过本文提到的风险个人理解的话并不适用于所有的方法，比如 AdaNPC 这种不需要调整模型参数的方法。

/ ICML 2023 /

论文标题：

On Pitfalls of Test-Time Adaptation

论文链接：

https://arxiv.org/abs/2306.03536

该文章的出发点是对测试时自适应（Test-Time Adaptation，TTA）方法的研究进行系统评估，并揭示现有方法中存在的一些常见问题。主要贡献是提出了一个名为 TTAB 的测试时自适应基准，包含了十种最先进的算法、多样化的分布偏移情况和两种评估协议。通过大量实验证明了先前的研究中存在的三个常见问题：1）选择适当的超参数，特别是模型选择，由于在线批处理的依赖性而变得非常困难；2）TTA 的有效性因模型的质量和特性而异；3）即使在理想的算法条件下，现有方法仍然无法解决所有常见类型的分布偏移。作者的发现强调了未来研究需要在更广泛的模型和分布偏移上进行严格评估，并重新审视 TTA 的经验成功背后的假设。

文章提到了先前研究中存在的问题，如超参数的选择困难、TTA 的有效性因模型质量和特性而异，以及现有方法无法应对所有常见类型的分布偏移。为了解决这些问题，作者提出了 TTAB 基准，用于统一评估 TTA 方法。该基准提供了一组常见数据集和多种分布偏移情况，使得可以对不同方法进行标准化评估。文章还介绍了基准的设计和设置，并说明了如何使用该基准进行评估。

具体而言，本文的核心观点在于

超参数的选择对 TTA 的有效性有很大影响，但在实践中很难进行选择，特别是在没有关于分布偏移的先验知识的情况下。常规的超参数选择方法并不一定提高测试准确性，甚至可能产生负面影响。
TTA 的有效性可能在不同模型之间差异很大。模型在源域中的准确性和特性都对适应后的结果产生很大影响。此外，对于域泛化的好的数据增强方法可能对 TTA 产生负面影响。
即使在理想的算法条件下，现有方法在某些分布偏移情况下仍表现不佳。这些情况包括相关偏移（correlation shift）和标签偏移（label shift），这些偏移在 TTA 领域中很少考虑，但在领域适应和领域泛化中广泛使用。

/ ICML 2023 /

论文标题：

Leveraging Proxy of Training Data for Test-Time Adaptation

论文链接：

https://openreview.net/forum?id=VVGNInOAm9

TTA 传统的方法是忽略训练数据，因为其需要占用大量的内存，并且可能导致隐私泄露。然而，训练数据是唯一的监督来源，因此作者提出了一种使用训练数据的轻量级且信息丰富的代理方法，并提出了一种完全利用这些代理的测试阶段自适应方法。

该方法的主要贡献有四个：

提出了一种使用训练数据代理的测试阶段自适应方法，避免了大内存需求和隐私泄露问题。
设计了一种专门用于测试阶段自适应的数据集压缩技术，通过合成少量的图像来代表整个训练数据集，同时保持较少的领域特异性和隐私敏感信息。
提出了一种名为 Class-Relation Knowledge Distillation（CRKD）的知识蒸馏方法，通过转移训练数据中的类间关系来适应测试数据。
在四个测试基准上，该方法在计算和内存方面的要求都比现有技术更低，同时性能更好。

具体方法包括两个部分：数据集压缩（Dataset Condensation）和使用训练数据代理的测试阶段自适应（Test-Time Adaptation using Proxies of Training Data）。

数据集压缩部分使用一个预训练网络来生成少量的合成图像，这些图像通过最小化真实训练数据的风格归一化特征分布与合成数据特征分布之间的最大均值差异来生成。通过这种方式，合成的图像在风格上更接近测试数据，并且减少了领域特异性。此外，该方法还提取了训练数据的类间相似性关系，用于后续的测试阶段自适应。

测试阶段自适应部分利用训练数据代理的两种方式。首先，使用具有测试数据风格的合成数据进行有监督学习。其次，将从训练数据中学习到的类间关系传递到测试数据的预测中。通过将测试样本的风格信息注入到合成数据中，可以减少训练和测试数据之间的分布差异。此外，还使用对比学习减小了测试样本和测试样本风格化的合成数据之间的表示差异。

/ ICML 2023 /

论文标题：

Learnability and Algorithm for Continual Learning

论文链接：

https://arxiv.org/abs/2306.12646

该论文的出发点是研究持续学习（Continual Learning，CL）中的类增量学习（Class Incremental Learning，CIL）设置。CIL 是一种学习由不相交的概念或类组成的任务序列的方法。在任何时间点，都会构建一个单一模型，该模型可以应用于预测/分类到目前为止学习的任何类的测试实例，而不为每个测试实例提供任何与任务相关的信息。尽管已经提出了许多用于 CIL 的技术，但它们大多是经验性的。最近的研究表明，强大的 CIL 系统需要强大的任务内预测（within-task prediction，WP）和强大的超出分布（out-of-distribution，OOD）检测。然而，目前尚不清楚 CIL 是否实际上是可以学习的。该论文证明了 CIL 是可以学习的，并基于这一理论提出了一种新的 CIL 算法。实验结果证明了其有效性。

该论文的主要贡献有两个：

首次进行了 CIL 的可学习性研究，以作者所知，迄今为止还没有类似的研究。
基于理论，提出了一种新的 CIL 方法，称为 ROW（Replay, OOD, and WP for CIL）。实验结果表明，它优于现有的强基准方法。

在论文中，首先提出了 CIL 的定义和挑战，包括灾难性遗忘（catastrophic forgetting，CF）和任务间类别分离（inter-task class separation，ICS）的问题。接着，论文介绍了一种理论，即良好的 WP 和 OOD 检测是强大的 CIL 模型的必要和充分条件。然而，之前的研究并未证明 CIL 是可学习的，因此本论文对 CIL 的可学习性进行了研究，并提出了基于该理论的新的 CIL 算法 ROW。

ROW 算法是一种基于重放（replay）的 CIL 方法，它结合了任务保护（task protection）和 OOD 检测。具体来说，ROW 算法使用两个独立的头部（head）来处理每个任务，一个用于 WP，另一个用于 OOD 检测。这两个头部共享相同的特征提取器（feature extractor）。在训练过程中，ROW 算法使用重放数据来细调每个任务的 OOD 检测头部，基于学习到的 WP 头部的特征。该算法的核心思想是保护每个任务的模型，同时进行良好的任务内预测和 OOD 检测。

/ ICML 2023 /

论文标题：

Test-time Adaptation with Slot-Centric Models

论文链接：

https://arxiv.org/abs/2203.11194

这篇文章的出发点是研究如何将场景解析为其组成实体，并改进当前视觉检测器在超出训练分布的场景中的泛化能力。近期的测试时自适应方法使用辅助的自监督损失来独立地为每个测试样例调整网络参数，并在图像分类任务中显示出在训练分布之外泛化的有希望的结果。该研究发现，在场景分解任务中，这些损失单独来说对于任务是不足够的，还需要考虑架构的归纳偏差。最近的基于槽中心生成模型尝试通过重建像素来以无监督的方式将场景分解为实体。结合这两个研究方向，作者提出了一种名为 Slot-TTA 的半监督槽中心场景分解模型，该模型在测试时通过梯度下降在重建或交叉视图合成目标上对每个场景进行自适应调整。作者在多个输入模态（图像或 3D 点云）上评估了 Slot-TTA，并展示了其对最先进的监督前馈检测器和替代测试时自适应方法在分布之外性能上的显著改进。

文章的主要贡献如下：

（i）提出了一种算法，通过对测试集中的每个示例进行测试时自适应，显著提高了超出训练分布示例的场景分解准确性。作者描述了不同输入模态（2D 多视图 RGB 图像、2D 单视图 RGB 图像和 3D 点云）的编码和解码骨干结构以及训练方式。

（ii）展示了基于半监督学习的测试时自适应方法在场景分解任务中的有效性，而先前的自监督测试时自适应方法主要在分类任务中展示了结果。

（iii）引入了槽中心生成模型的半监督学习，展示了它可以使这些方法在测试时继续学习。与此相反，之前关于槽中心生成的工作既没有受到监督训练，也没有用于测试时自适应。

（iv）最后，设计了多个基准和消融实验，并在多个基准和分布转移上进行评估，以提供有关测试时自适应和对象中心学习的有价值的见解。

/ ICML 2023 /

论文标题：

Theory on Forgetting and Generalization of Continual Learning

论文链接：

https://arxiv.org/abs/2302.05836

这篇文章的出发点是填补关于连续学习（Continual Learning，CL）的理论研究空白。目前大部分的研究都集中在对 CL 的实验性能进行评估，而对于 CL 的理论研究还比较有限。文章的主要贡献是在过参数化线性模型的基础上提供了第一个明确的连续学习设置下遗忘和泛化误差的期望形式。通过对这一关键结果的进一步分析，文章揭示了过参数化、任务相似性和任务顺序对于遗忘和泛化误差的影响。文章通过在实际数据集上使用深度神经网络进行实验，证明了其中一些洞察甚至可以超越线性模型，并可以应用于实际设置中，解释了一些最近研究中的一些有趣的经验观察，并且为连续学习的更好实际算法设计提供了动力。

文章特殊的发现主要有以下几点：

过参数化、任务相似性和任务顺序对于遗忘和泛化误差的影响：
过参数化的模型可以在一定程度上减轻遗忘和改善泛化误差，特别是在存在大噪声或任务相似性较低的情况下，良性过拟合现象更容易观察到。
任务相似性的增加可以降低泛化误差，但并不总是降低遗忘。在某些情况下，当任务不太相似时，遗忘甚至可以减少。
为了最小化遗忘，最佳的任务顺序应该在早期阶段多样化学习任务，并在旁边学习更不相似的任务。

/ ICML 2023 /

论文标题：

Test-Time Style Shifting: Handling Arbitrary Styles in Domain Generalization

论文链接：

https://arxiv.org/abs/2306.04911

该论文的出发点是解决域泛化（domain generalization，DG）问题，即在模型训练时未知目标域，但训练后的模型在推理过程中应能成功处理任意（可能是未见过的）目标域。文章采用了一种简单而有效的方法来解决这个问题。首先，提出了测试时样式转换（test-time style shifting）的方法，该方法将测试样本的样式（与源域存在较大样式差距）转换为模型已熟悉的最近的源域样式，然后进行预测。这种策略使模型能够处理具有任意样式统计的任何目标域，而无需在测试时进行额外的模型更新。其次，提出了样式平衡（style balancing）方法，通过处理 DG 特定的不平衡问题，为最大化测试时样式转换的优势提供了良好的平台。这些提出的方法易于实现，并能与各种其他 DG 方案结合使用。实验结果表明，这些方法在不同数据集上有效。

该论文的主要贡献有两个方面：

提出了测试时样式转换（test-time style shifting）方法，通过在测试时将测试样本的样式转换为最近的源域样式，解决了源域与目标域之间的大样式差距问题。该方法不需要在测试时进行额外的模型更新，并且与任何任务/模型兼容。
此外，论文还发现在 DG 中存在特定的不平衡问题，传统的类别不平衡处理方法无法有效处理这些问题。因此作者提出了提出了样式平衡（style balancing）方法，通过处理 DG 特定的不平衡问题，为测试时样式转换的有效性提供了支持。该方法通过选择具有相似样式统计的样本，并将其样式转换为其他域，增加了训练过程中每个类别的域多样性，以弥补每个域中缺失的类别。

/ ICML 2023 /

论文标题：

Learning Rate Schedules in the Presence of Distribution Shift

论文链接：

https://arxiv.org/abs/2303.15634

该文章的出发点是设计学习率调度方案，以在数据分布变化的情况下最小化基于随机梯度下降（SGD）的在线学习的遗憾（regret）。具体来说，文章研究了在线线性回归、凸损失函数和非凸损失函数三种情况下的学习率调度问题。

在线线性回归部分，文章通过分析随机微分方程，完全表征了在线性回归问题的最优学习率调度。对于一般的凸损失函数，文章提出了对分布转移具有鲁棒性的新的学习率调度方案，并给出了遗憾的上下界，两者之间仅有常数差异。对于非凸损失函数，文章定义了基于估计模型梯度范数的遗憾概念，并提出了最小化总期望遗憾上界的学习率调度。文章还通过实验证明了在高维回归模型和神经网络中应用这些学习率调度可以减小累积遗憾。

该研究的特殊发现是，当数据分布发生变化时，最优学习率调度通常会增加，即需要更多的探索。这一发现与直觉一致，并为在在线学习中处理数据分布变化提供了理论支持。

/ ICML 2023 /

论文标题：

Nonparametric Density Estimation under Distribution Drift

论文链接：

https://arxiv.org/abs/2302.02460

这篇文章的出发点是研究非参数密度估计在非稳态漂移环境下的问题。在给定一个随时间逐渐变化的分布的独立样本序列的情况下，目标是计算出当前分布的最佳估计。文章证明了离散和连续平滑密度的极小风险界，其中最小值是针对所有可能的估计，最大值是针对满足漂移约束的所有可能分布。该技术适用于广泛的漂移模型，并推广了先前关于漂移下的不可知学习的结果。

主要贡献：

对于离散和连续平滑密度估计问题，给出了漂移下的最小风险界。
在离散密度估计问题中，使用离散密度的总变差距离，得到了关于总变差距离的最小风险界。
在连续平滑密度估计问题中，使用 L2 距离，得到了关于集成平方损失的最小风险界。
对于在线版本的问题，给出了离散密度估计和二元分类器学习问题的最小风险界。

Conclusion

总结以下：

目前存在许多测试时间适应性方法，包括参数微调、和模型修正等。这些方法采用不同的策略来解决模型在测试阶段遇到的领域偏移和数据分布不匹配等问题。
自监督学习（self-supervised learning）被广泛应用于测试时间适应性中，通过从数据中提取自动生成的标签来提高模型的泛化性能。
测试时间适应性的研究主要集中在计算机视觉领域，如图像分类、目标检测和语义分割等任务上。然而，其概念和方法也适用于其他机器学习领域，如自然语言处理和强化学习。

在测试时间适应性的发展趋势方面，可以预见以下几个方向的研究：

方法改进：未来的研究将进一步改进测试时间适应性方法的效果和效率。这包括设计更有效的领域自适应算法、开发更强大的模型修正技术以及优化自监督学习的方法。
跨领域应用：尽管当前的研究主要集中在计算机视觉领域，但测试时间适应性的概念和技术在其他领域的应用潜力仍然很大。未来的研究可以将测试时间适应性方法应用于自然语言处理、医学图像分析、推荐系统等不同领域，以提高模型的泛化性能。
理论探索：测试时间适应性的理论研究相对较少，未来的工作可以探索该领域的理论基础，深入研究测试时间适应性方法的原理和局限性。
实际应用：测试时间适应性的研究还需要更多的实际应用和验证。未来的工作应该注重将测试时间适应性方法应用于真实世界的场景和问题，并在实际应用中评估其效果和可行性。

更多阅读