一文速览ICML 2023域自适应/域泛化相关论文

2023-07-09 16:07

Domain Adaptation（DA: 域自适应），Domain Generalization（DG: 域泛化）一直以来都是各大顶会的热门研究方向。DA 假设我们有有一个带标签的训练集（源域），这时候我们想让模型在另一个数据集上同样表现很好（目标域），利用目标域的无标签数据，提升模型在域间的适应能力是 DA 所强调的。

以此为基础，DG 进一步弱化了假设，我们只有多个源域的数据，根本不知道目标域是什么，这个时候如何提升模型泛化性呢？传统 DG 方法就是在源域 finetune 预训练模型，然后部署时不经过任何调整，核心在于如何利用多个源域带来的丰富信息。本文大致总结了发表于 ICML 2023 中与分布变化，DA，DG，OOD detection 以及与域偏移相关的一系列文章。

/ ICML 2023 Poster /

论文标题：

On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain Adaptation

论文链接：

https://openreview.net/forum?id=jWFRFz7yIc

现有的多源自适应方法通常使用源模型生成的伪标签数据训练目标模型，这些方法主要关注改进伪标签技术或提出新的训练目标。而该研究旨在分析多源自适应的基本限制，并提供平衡这种权衡的洞察力。文章从三个角度（域聚合、选择性伪标签和联合特征对齐）讨论了如何平衡偏差和方差的问题，并提出了新的算法。通过在多个数据集上的实验证实了理论分析，并展示了所提出算法在一些具有挑战性的数据集上的卓越性能。

文章的核心方法是通过理论分析提出了多源自适应问题的信息论上界，揭示了固有的偏差-方差权衡。作者提出了从三个角度平衡偏差和方差的洞察力，并设计了新的算法。其中，域聚合可以减少标签不匹配的偏差，选择性伪标签可以进一步平衡标签不匹配的偏差和方差，而联合特征对齐策略可以显式地解决源域和目标域之间的域漂移问题，从而减少特征不匹配的偏差。

1. learning domain aggregation weights without target domain labs: 初始化一个权重参数，然后通过以下 loss 进行优化：即最小化单个预测的熵同时使得整体预测标签的边际分布接近于一个均匀分布。

2. surrogate section rule for the sective Oracle：不给所有数据打伪标签而是选择其中一部分，这个选择了机遇 prototype 的伪标签去噪技术，使得伪标签的质量尽可能的高。

3. a joint adversarial feature alignment approach：使用 adversarial training，对每个模型生成的特征进行对齐。

/ ICML 2023 Poster /

论文标题：

Sequential Counterfactual Risk Minimization

论文链接：

https://openreview.net/forum?id=E3Ny4RnbiT

这篇文章介绍了一个称为“连续反事实风险最小化（SCRM）”的框架，用于改善离线数据分析中“反事实风险最小化（CRM）”的性能。CRM 的目标是使用记录的 bandit feedback 数据来增强日志策略。SCRM 将 CRM 扩展到顺序设置中，可以多次部署学习策略以收集新数据。

文章的主要目标是在 SCRM 框架中开发一种学习策略，以最小化超额风险和预期遗憾（excess risk and expected regret）。作者提出了一种新颖的反事实估计器，并通过类似于加速优化方法中的重启策略的分析确定了可以改善 CRM 性能的条件。他们还通过在离散和连续行动设置中进行实证评估探讨了 CRM 多次部署的益处。

/ ICML 2023 Poster /

论文标题：

Provably Invariant Learning without Domain Information

论文链接：

https://openreview.net/forum?id=0jSSVPrfcX

背景：典型的机器学习应用通常假设数据遵循独立同分布（IID）的假设。然而，在现实世界中，这种假设经常被违反，导致了分布外（OOD）泛化问题和模型鲁棒性的严重下降。为了缓解这个问题，利用不变性学习技术来区分所有输入特征中的虚假特征和不变特征，并仅基于不变特征对模型进行训练。许多不变性学习策略要求训练数据应包含领域信息，如环境索引或先前知识获取的辅助信息。然而，在实践中通常无法获取这些信息。

本研究提出了一种无环境特定信息训练的环境无关不变性学习方法 TIVA。在因果图中，给定适当的条件，本文发现并证明可以基于与目标无关的属性来训练一个环境划分策略，然后进行不变风险最小化。该论文提出了一种名为 TIVA 的方法，用于在不知道领域信息的情况下进行不变性学习。通过在因果图中发现与目标无关的属性，可以训练一个环境划分策略，并进行不变风险最小化。该方法在多个基准测试中展示了优越的性能和出色的 OOD 鲁棒性。

/ ICML 2023 Poster /

论文标题：

Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection

论文链接：

https://openreview.net/forum?id=tpCynHFviX

深度学习模型在关键应用领域（如医疗保健、自动驾驶或国防）中的部署需求，其中重要的安全要求之一是能够区分正常分布和异常分布的样本。当前大多数方法采用后处理的策略，利用预训练模型的特征空间来估计正常样本的密度以进行异常检测。现有的密度估计方法包括高斯混合模型（GMM）、最近邻分布和基于能量的方法（如能量对数 EL）等。然而，这些方法往往针对不同类型的异常数据表现出不同的检测能力，具体而言 EL 一般对 near-OOD data 效果更好，而 GMM 相反。作者引入了一种名为 HEAT 的方法，该方法使用基于能量的混合模型在预训练骨干网络的特征空间中估计内部分布样本的密度。HEAT 通过对先前的内部分布密度估计器（如高斯混合模型）进行能量修正，提供准确而稳健的密度估计。

文章的主要贡献为

1. 提出了 HEAT 方法，它利用基于能量的模型在特征空间中估计内部分布样本的密度。通过对先前的内部分布密度估计器进行能量修正，HEAT 能够提供准确而稳健的密度估计。

2. 提出了混合密度估计方法，通过组合多个先前的内部分布密度估计器，HEAT构建了一个更好的密度估计器，进一步改善了外部分布检测性能。

3. 实验验证部分展示了 HEAT 方法的重要性，并在 CIFAR-10/CIFAR-100 和 Imagenet 数据集上取得了最新的外部分布检测结果。

/ ICML 2023 Poster /

论文标题：

Taxonomy-Structured Domain Adaptation

论文链接：

https://openreview.net/forum?id=ybl9lzdZw7

文章的出发点是针对传统域自适应方法在处理具有层次结构的领域时存在的局限性，提出了一种适用于具有层次结构领域的方法。传统的域自适应方法主要针对分类领域，忽略了现实世界中复杂的领域关系。该方法的主要贡献是引入了一个新颖的 taxonomist，该 taxonomist 与对抗鉴别器竞争，以保留领域的层次结构信息。该方法通过平衡领域相似性和领域不变性，实现了对层次结构领域的自适应。

具体方法描述如下：

1. 问题设置和表示：文章考虑了无监督的域自适应设置，假设给定 N 个领域的层次结构表示。文章定义了输入，领域标识和标签的表示。文章还定义了一个给定层次结构的距离矩阵，用于建模领域之间的相似性关系。

2. 编码器：文章引入了一个编码器，它接收数据，领域标识和距离矩阵作为输入，并生成表示。编码器通过将领域标识 u 和 A 进行组合来构建中间领域嵌入，然后使用函数将数据和映射到表示。

3. 鉴别器：文章引入了一个鉴别器，它的目标是从表示中识别领域。鉴别器通过最小化领域分类损失来实现领域的识别。

4. Taxonomist：文章还引入了一个 taxonomist ，它的目标是从表示中恢复层次结构信息。taxonomist 的任务是通过对表示进行重构来实现，以最小化重构损失。

通过这个四方博弈的框架，文章提出的方法可以平衡表示学习中的领域相似性和领域不变性。当领域层次结构非常简单或不提供任何信息时，方法可以恢复传统的域自适应方法的解决方案。在其他领域层次结构情况下，该方法在合成数据集和真实世界数据集上实现了最先进的性能。

/ ICML 2023 Poster /

论文标题：

Concept-based Explanations for Out-of-Distribution Detectors

论文链接：

https://openreview.net/forum?id=a33IYBCFey

该文章的出发点是为解释 Out-of-Distribution（OOD）检测器的决策，提供了基于 concept 的解释，这里的 concept 如下图所示，就是一些类似于皮肤颜色，背景状态等高级信息而不是 feature 的特征。虽然许多方法都致力于改善 OOD 检测器的性能，但在解释其决策方面存在重要差距。为了弥补这一差距，作者提出了两个新的度量标准：检测完整性和概念可分离性，用于评估用于解释 OOD 检测器决策的概念集的有效性。基于这些度量标准，作者提出了一种无监督的框架，用于学习满足高检测完整性和概念可分离性要求的概念集，并展示了该框架在为各种现成的 OOD 检测器提供基于概念的解释方面的有效性。文章还展示了如何识别对检测结果有重要贡献的突出概念，并进一步解释了它们的决策。

文章的主要贡献包括：

1. 提出了用于评估基于概念解释 OOD 检测器的新度量标准：检测完整性和概念可分离性。

2. 提出了一个概念学习目标，并通过适当的正则化项，在给定 DNN 分类器的 OOD 检测器的情况下学习一组具有高检测完整性和概念可分离性的概念。

3. 将 OOD 检测器视为黑盒，并展示了该方法可以应用于解释各种现有的 OOD 检测方法。同时，实验证明了针对分类器学习的概念不能直接用于解释 OOD 检测器，而通过该方法学习的概念对于解释分类器和 OOD 检测器都是有效的。

4. 通过基于检测完整性的修改的 Shapley 值重要性评分，识别对 OOD 检测器决策有重要贡献的突出概念，并展示了如何使用这些发现的概念来解释 OOD 检测器。

/ ICML 2023 Poster /

论文标题：

Generalization Analysis for Contrastive Representation Learning

论文链接：

https://openreview.net/forum?id=c5K7gcd2Rw

该文章的出发点是对比表示学习（Contrastive Representation Learning，CRL）的泛化性能进行分析。CRL 是一种无监督学习方法，通过将相似样本聚集在一起并将不相似样本分开，学习一个表示函数，以捕捉数据的潜在结构，并在下游任务中获得良好的泛化性能。

文章的主要贡献是建立了对比表示学习的新型泛化界，该界不依赖于负样本的数量（k 值）。作者利用经验覆盖数和 Rademacher 复杂度的结构结果，利用损失函数的 Lipschitz 连续性进行分析。对于 self-bounding 的 Lipschitz 损失函数，作者通过开发 optimistic bound 进一步改进了结果，在低噪声条件下可以得到快速的收敛速率。作者将这些结果应用于线性表示和非线性表示（通过深度神经网络），为两种情况都推导出了 Rademacher 复杂度界限，从而改进了泛化界限。

文章的方法描述主要包括三个部分：1）对三种类型的损失函数（ℓ2-Lipschitz 损失、ℓ∞-Lipschitz 损失和 self-bounding 的 Lipschitz 损失）进行泛化误差界限的开发；2）将这些泛化界限应用于学习线性特征和非线性特征的无监督表示学习问题；3）将结果应用于下游分类问题的泛化分析。

/ ICML 2023 Poster /

论文标题：

Discover and Cure: Concept-aware Mitigation of Spurious Correlation

论文链接：

https://openreview.net/forum?id=QDxtrlPmfB

该文章的出发点是解决深度神经网络在预测过程中依赖于 spurious correlation 而导致泛化能力受限的问题。作者指出，例如将猫与床背景关联的模型在其他没有床的环境中无法正确预测猫的存在。为了解决这个问题，作者提出了一种可解释的框架，名为 Discover and Cure（DISC），用于发现和减轻错误关联。

DISC 框架通过使用可解释的概念，迭代地进行以下两个步骤：1）发现在不同环境中不稳定的概念作为错误属性；2）使用发现的概念对训练数据进行干预，以减少错误关联。通过系统实验证明，DISC 框架相比现有方法在泛化能力和可解释性方面表现更好。在对象识别任务和皮肤病变分类任务上，DISC 方法的性能分别比现有方法提高了 7.5% 和 9.6%。此外，作者还提供了理论分析和保证，以了解通过 DISC 训练的模型的优势。

文章的方法包括以下几个步骤：

1. 构建概念库（Concept Bank）：作者建立了一个包含多个潜在错误概念候选的概念库，用于描述错误关联。概念库中的每个概念都由概念图像和概念分布组成。

2. 错误概念的发现：作者利用与人类理解相一致的概念，通过发现不同数据环境中的不稳定概念来识别错误关联。作者提出了一个概念敏感度度量，用于量化概念在不同数据环境中的不稳定性。

3. 错误关联的减轻：作者提出了概念感知干预的方法来减轻模型对错误概念的依赖。该方法通过在选定的类别中使用错误概念的概念图像来干预，以保持错误概念的平衡分布。这样可以防止模型利用错误，具体来说，作者是观察到有（cat，dot）这种 spurious correlation 存在，就去 bank 里寻找一些有 bed 的其他动物图像或者有 cat 的其他背景图像来丰富训练数据。

/ ICML 2023 Poster /

论文标题：

Moderately Distributional Exploration for Domain Generalization

论文链接：

https://openreview.net/forum?id=fX5I7lGLuG

文章的出发点是针对领域泛化（Domain Generalization）问题，即解决训练领域和未知目标领域之间的分布偏移。为了在未知目标领域上实现良好的泛化能力，先前的工作引入了一种领域生成策略，通过生成新的领域来增强深度神经网络的性能。这种方法的基本思想是通过学习多个生成的领域，使得深度神经网络对领域变化具有鲁棒性。然而，如何构造新的领域以实现在目标领域上的可证明的泛化性能仍然具有挑战性。直接使用分布鲁棒优化方法（Distributionally Robust Optimization，DRO）来解决分布偏移问题在实践中表现有限。

为了充分发挥 DRO 在领域泛化中的潜力，文章提出了一种新的方法称为 Moderately Distributional Exploration（MODE），旨在通过在一个与训练领域具有相同语义因素的不确定子集中进行分布探索，解决领域泛化中的低置信度问题。文章通过理论框架给出了该方法在未知目标领域上的泛化估计和风险估计。实验结果表明，MODE 相比最先进的基线方法具有竞争性的性能。

/ ICML 2023 Poster /

论文标题：

In or Out? Fixing ImageNet Out-of-Distribution Detection Evaluation

论文链接：

https://openreview.net/forum?id=ChniRIfpRR

该文章的出发点是针对图像分类中的 out-of-distribution（OOD）检测问题进行研究。文章指出目前对于以 ImageNet-1K 为 ID 的 OOD 检测性能的评估通常是在一小组测试 OOD 数据集上进行的。然而，作者发现目前使用的大多数测试 OOD 数据集都存在严重问题，其中包括来自开放集识别（OSR）文献的数据集。这些数据集中的一些样本超过 50% 属于 ID 类别的对象，这严重扭曲了 OOD 检测器的评估结果。如下图所示，如果将这些有 overlap 的类别去掉的话，OOD detector 的表现会进一步下降。

为了解决这个问题，作者介绍了一个名为 NINCO 的新的测试 OOD 数据集，其中每个样本都经过检查以确保不包含 ID 对象，并且具有细粒度的 OOD 类别范围，可以详细分析 OOD 检测器的强项和失效模式，特别是与一些合成的 OOD 单元测试相结合。文章通过对 NINCO 数据集和单元测试上的大量架构和 OOD 检测方法进行详细评估，揭示了关于模型弱点和预训练对 OOD 检测性能的影响的新见解。

/ ICML 2023 Poster /

论文标题：

The Value of Out-of-Distribution Data

论文链接：

https://openreview.net/forum?id=8D3SsQlRbY

该文章的出发点是研究在机器学习中添加不同分布的数据（out-of-distribution data，OOD 数据）对泛化误差的影响。研究者注意到，当 OOD 数据与目标数据相似时，很多实证证据表明 OOD 数据可以改善泛化误差，但当 OOD 数据与目标数据差异较大时，更多数据可能会损害泛化误差。因此，研究者探索了添加不同数量的 OOD 数据对泛化误差的影响，并发现了一个反直觉的现象：对于某些任务，泛化误差在添加少量 OOD 数据时会减小，但随着 OOD 数据数量的增加，泛化误差反而变大。换句话说，少量 OOD 数据的训练是有价值的。该研究通过在合成数据集上使用 Fisher's Linear Discriminant 和在计算机视觉基准数据集（如 MNIST、CIFAR-10、CINIC-10、PACS 和 DomainNet）上使用深度网络进行实证验证。

文章的主要贡献是揭示了泛化误差在 OOD 数据数量上的非单调关系，并提出了在理想情况下利用 OOD 数据的权重目标来优化泛化误差的方法。然而，由于在实际情况下很难确定哪些样本是 OOD，文章还指出了当前常用的一些策略（如数据增强、超参数优化和预训练）无法确保目标泛化误差不会随 OOD 样本数量的增加而恶化。

/ ICML 2023 Poster /

论文标题：

Distribution Free Domain Generalization

论文链接：

https://openreview.net/forum?id=CERS3hZIrH

如题目所示，这篇文章的出发点是解决领域泛化（Domain Generalization，DG）问题，即训练数据来自源领域，而目标领域的数据在训练过程中是不可用的。作者提出了一种称为“分布无关领域泛化”（Distribution Free Domain Generalization，DFDG）的方法来处理这个问题。

主要贡献：

1. 提出了 DFDG 过程，通过标准化的方式避免训练过程中某些领域的支配性。DFDG 方法通过重新定义领域/类别之间的差异，使用成对的两个样本检验统计量来平衡它们的重要性或协方差结构，避免某个领域/类别在支配了整个训练过程。DFDG 方法中的标准化过程通过均值和方差调整来减少领域之间的异质性。通过对成对 MMD 统计量的渐近分析，文章提出了两种分布无关的标准化度量，一种通过空值分布的均值重新调整权重矩阵，另一种通过对平均 Gram 矩阵进行去相关操作。

3. 建立了多类分类问题的理论泛化界限，为 DFDG 方法提供了理论保证。

4. 在实证研究中表明，DFDG 方法在性能上优于现有的 DG 方法，而且使用更少的超参数，意味着实现更快、更容易。

/ ICML 2023 Poster /

论文标题：

Explore and Exploit the Diverse Knowledge in Model Zoo for Domain Generalization

论文链接：

https://openreview.net/forum?id=IgpMs357b5

本文的背景依然是 domain generalization，但是聚焦于如何使用 pretrain models，之前的工作显示，通过选择目前最优的预训练模型（PTM）给特定的 DG 任务，不需要任何 DG 算法就能达到非常好的泛化性能。但是到目前为止，还没有工作去研究各种 PTM 有什么样的 inductive bias，以及这些 bias 如何影响他们的泛化能力。大家在做的事情一般都是选几个效果最好的，而不是最正交或者可以互相补全的，因此在很多场景下，多个模型 ensembling 的效果还不如单个模型。

本文首先将各种 PTM 在分布外数据上的泛化性刻画为两类他们的产生特征的方差，一类称作为 feature diversity shift，即特征分布，另一类则是 feature correlation shift，即条件分布，作者设计了相应的方法评估了各个 PTM 在这两个方面的一些特性，主要结论有

1. 对于单个 DG 数据集，不同 PTM 的 shift pattern 表现得非常不同。

2. PTM 结构的不同是造成他们不同 shift pattern 的主要因素，而且各个 PTM 在不同数据集上的 pattern 是相对一致的。

3. PTM 的框架对 pattern 的影响也值得一提，自监督损失训练出来的模型一般会有更大的 feature diversity shift

4. 模型越大，feature correlation shift 越小。

因为不同的 PTM 在两种类型的 shift 上偏好是不一样的，我们最优的 ensembling 选择显然不是无脑的选择 performance 最好的，而是根据 model bias 来选择

1. Diversity Ensemble Method：这里作者提出去选择两个 diversity shift 最大的模型，然后在训练 prediction head 的时候，强迫他对 feature diversity 不敏感，一次消除 diversity shift 的影响。

2. Correlation Ensemble Method：为了消除条件分布差异的影响，同样的，挑选两个相关 diversity 最大的模型，然后对 training 的样本进行重加权，公式如下，是一个 normalize 的操作，模型输出的第 y 个 channel 的值。这是一种常用的 de_bias 的加权方式。

/ ICML 2023 Poster /

论文标题：

In Search for a Generalizable Method for Source Free Domain Adaptation

论文链接：

https://openreview.net/forum?id=Yh9sFZQk7Y

文章的出发点是研究源自由领域自适应（Source-free domain adaptation，SFDA）。SFDA 是一种非常有吸引力的方法，因为它允许使用无标签数据将现成的模型适应到新的领域。文章的主要贡献是在生物声学领域应用现有的 SFDA 技术，并发现现有方法在这个领域的性能与视觉领域的基准表现不同，并且有时甚至比没有适应算法的情况下表现更差。为了解决这个问题，作者提出了一个新的简单方法，在新的领域中超过了现有的方法。作者的研究结果表明，现有的 SFDA 方法并不像之前认为的那样具有通用性，而考虑到不同的模态可以是设计更鲁棒模型的有用途径。

/ ICML 2023 Poster /

论文标题：

How much does Initialization Affect Generalization?

论文链接：

https://openreview.net/forum?id=FLhE8qzOmo

这篇文章的出发点是研究神经网络的初始化对其泛化能力的影响。文章认为之前的研究主要集中在优化算法对泛化的影响，忽视了初始化的重要性。作者通过理论分析和实验证明，如果初始化不好，即使使用梯度下降算法和深层网络，神经网络的泛化性能也会变差。

文章的主要贡献是：

1. 通过实验观察到，不同类型的激活函数和不同深度的网络在初始化时具有不同的高频率分量，这会对泛化性能产生影响。证明了任何可微参数化模型在梯度下降训练过程中都服从弱谱偏差定律，即高频率的部分训练得非常缓慢。这意味着在初始化时存在的高频率分量在训练后仍然存在，并且会阻碍泛化能力的提升。

2. 实验证明了开发的理论洞见在实际的深度网络中的有效性。

3. 对比了该研究框架与以往关于平坦极小点猜想的框架，指出傅里叶分析提供了更可靠的理论框架来理解神经网络的泛化性能。

/ ICML 2023 Poster /

论文标题：

Out-of-Domain Robustness via Targeted Augmentations

论文链接：

https://openreview.net/forum?id=4SHQv4cp3I

作者将特征分成了四组，分组的根据分别为（1）是否特征与预测结果相关以及（2）是否特征是域可变的。当数据集不是无限大的时候，总是存在的，因此模型才会学到一个标签和特征之间的虚假相关性。

传统的 data augmentation 实际上对只对 noise 特征进行了调整

Domain-invariant augmentations 尝试着去随机化所有和域相关的特征，但是这里的话就会影响与域相关的特征中对 label 也有因果影响的部分

在这种 decomposition 下，很直观的我们最优的策略应该是只去扰乱

Targeted augmentations for real-world datasets：以下是几个数据集上的 targeted augmentation 的示例，可以看到，我们首先需要人工对数据集的各类特征进行分解找到什么是，然后使用相应技巧来进行数据增强。

文章在 linear regression 的设置下理论的说明了本文这种 target augmentation 方法相比于传统数据增强方法的优势，在多个实际数据集上都取得了很好的效果，提升从 3.2% 到 15.2% 不等。

/ ICML 2023 Poster /

论文标题：

Towards Explaining Distribution Shifts

论文链接：

https://openreview.net/forum?id=Tig5ELxc0M

该文章的出发点是解释分布转移（distribution shift）现象。分布转移指的是在不同的数据分布之间存在差异，它可能会导致操作环境的变化或明显降低下游模型的准确性。理解分布转移对于检查和减轻这种转变的影响至关重要。过去的研究主要关注于检测是否发生了分布转变，并假设任何检测到的转变可以由人工操作员适当地理解和处理。

该研究旨在通过使用可解释的运输（ transportation）映射来解释分布转变，从而帮助人工操作员进行手动的缓解任务。作者从最优运输的松弛形式中导出可解释的映射，并将候选映射限制在一组可解释的映射中。他们在真实世界的表格数据、文本数据和图像数据集中的多个典型分布转变用例验证了提出的方法，展示了他们的解释映射在详细性和可解释性方面比基线解释更好，并通过视觉检查和“PercentExplained”指标进行了验证。

除此之外，他们的方法不仅能够显示特征如何改变，还能显示分布中的群体如何发生转变。通过使用他们的解释映射，操作员可以更有效地理解环境发生的变化，并采取相应的措施。

/ ICML 2023 Poster /

论文标题：

RLSbench: Domain Adaptation Under Relaxed Label Shift

论文链接：

https://openreview.net/forum?id=b0xhqwNhez

该文章主要介绍了一个名为 RLSbench 的大规模基准测试集，用于评估领域适应问题中的标签偏移问题。文章指出现有的领域适应方法对于类条件分布的变化非常敏感，但对于标签分布的变化却缺乏深入的探索。同时，目前流行的领域适应启发式方法在面对标签比例的变化时往往表现不稳定。

为了解决这个问题，文章介绍了 RLSbench，它是一个大规模的基准测试集，包含约 500 个跨视觉、表格和语言模态的分布转移对，并且标签比例各不相同。与现有的基准测试集主要关注类条件分布转移不同，RLSbench 还专注于标签边际分布的转移。文章首先评估了 13 种常见的领域适应方法，在标签比例转移的情况下，展示了比以前已知的更广泛的失败情况。

接下来，文章提出了一个有效的两步元算法，与大多数领域适应启发式方法兼容：（i）在每个时期伪平衡数据；（ii）使用目标标签分布估计调整最终分类器。这个元算法提高了现有的领域适应启发式方法在大的标签比例转移下的性能，通常提高了 2-10% 的准确率，而在标签比例没有变化时几乎没有影响（不到 0.5%）。文章的特殊发现是，现有的针对放松标签偏移的方法往往无法改善源分类器的性能，并且与使用元算法的现有领域适应方法相比表现明显不佳。

更多阅读