CVPR 2022 | 元学习在图像回归任务的表现

2022-06-11 10:06

©PaperWeekly 原创 · 作者 | 高宁

单位 | ALR (KIT) & BCAI, Germany

研究方向 | 小样本学习，元学习，机器人视觉

引言

元学习因其能够快速适应训练中未曾见过的任务而被广泛用于小样本分类和函数回归。然而，在图像等高维输入的回归任务上并没有得到很好的探索。本文做出了两个主要贡献，有助于理解这个几乎没有探索过的领域。首先，我们设计了两种过去元学习领域中未有过的复杂度的跨类别级视觉回归任务，即物体识别锁定和位姿估计。

为此，本文 (i) 详尽地评估了常见元学习技术在这些任务上的表现，并 (ii) 定量分析了最近元学习算法中常用的各种深度学习技术的效果以增强泛化能力，包括数据增强，域随机化，任务增强和元正则化。另外，本文 (iii) 为在视觉回归任务上训练元学习算法提供了一些见解和实用建议。其次，我们建议在条件神经过程 (CNPs) 中的任务表达学习空间上添加功能对比学习 (FCL)，并以端到端的方式进行训练。

实验结果表明，由于损失函数选择不当以及元训练集太小，先前工作的结果具有误导性。具体来说，我们发现在没有微调的情况下，CNPs 在大多数任务上都优于 MAML。此外，我们观察到没有针对设计的任务增强会导致严重的欠拟合。

论文标题：

What Matters for Meta-Learning Vision Regression Tasks?

论文链接：

https://arxiv.org/abs/2203.04905

代码链接：

https://github.com/boschresearch/what-matters-for-meta-learning

前提

我们现在以统一的方式简要描述 MAML 和 CNPs。我们假设所有任务都是从同一个分布中采样的，每个任务都包含一个上下文集

和目标集

，其中和是每组中的样本数，每个任务数量都可能不同。整个训练数据集表示为其中 N 是为训练抽样的任务。

在推理过程中，模型在一个新任务上进行测试，给定一个小的上下文集，它必须从中推断出一个新函数。在元学习中，有两种类型的学习参数，第一种是元参数，它是在元训练阶段使用学习的。第二个是特定于任务的参数，它基于来自新任务的样本更新和其学习到的元参数。预测可以构造为，其中是由和参数化后得到的的元模型。

众所周知，元学习算法存在两种臭名昭著的元过拟合（Meta-Overfitting：i)记忆过拟合 (Memorization overfitting) 发生在模型仅以输入为条件来预测输出而不是依赖于上下文集; ii) 学习者过拟合 (Learner overfitting) 发生在预测模型和元学习模型仅对训练任务过拟合但不能泛化到新任务时，即使预测可以以上下文集为条件。

最近，已经提出了不同的方法来缓解这些过度拟合问题，例如，在权重上添加一个正则化项来限制记忆。然而，在欠拟合和过拟合之间调整正则化项是具有挑战性的。应用任务增强和数据增强也可以缓解元过拟合。但是，对于如何单独或组合使用这些方法仍缺少一个广泛比较。在这项工作中，我们将这些技术分为数据增强 (DA)、任务增强 (TA)、元正则化 (MR) 和域随机化 (DR)，并在上述两个应用中以不同组合对它们进行定量比较，以得出在更好的理解和一致的比较。

任务设计

对于物体识别锁定，我们创建了一个名为“Distractor”的回归任务，其中每张图片包含两个放置在随机位置的对象：查询对象和一个干扰对象。这个任务的目标是识别查询对象并预测其在图像平面中的位置。与之前的图像补全等任务不同，因为其每个像素都被视为独立的输入，我们的任务需要模型从整个图像中学习对物体的高级表示。另外，与旨在从输入图像中指定所有对象实例的现有对象检测任务相比，我们的任务旨在 i) 将查询的对象与其他干扰物区分开来，并 ii) 预测其图像平面中的二维位置。

因此，有必要学习一个独特的嵌入，通过给定它们相关的上下文图像和对应的位置，它可以表示各种查询对象并忽略其他干扰因素。干扰对象是从所有类别中随机抽取的，在许多情况下，它们的外观与查询对象非常相似。因此，聚合多个上下文信息有助于提取表达信息以消除任务的歧义，从而提高性能。

第二个应用程序（即位姿估计）受到先前工作在 Pascal1D 数据集上的启发。由于该数据集包含的物体数量和变化有限并且仅围绕方位轴进行 1D 旋转，因此我们生成了两个具有更高多样性的新数据集，例如通过引入随机背景、跨类别对象的测试集和 2D 旋转。由于背景是从真实世界选取的图像而不像之前工作仅用空白背景，因此我们的数据集显着增加了任务的难度，并使我们能够对所考虑的元学习方法的性能进行彻底的分析。

其中 ShapeNet1D 包含与 Pascal1D 一样的一维旋转，但具有更大的物体多样性，ShapeNet2D 则具有二维旋转和随机背景。在这个任务中，每个对象都有一个随机的规范姿势，因此它必须从上下文集中学习，其中是上下文图像的真实旋转。

对于这两个应用程序，我们分别在 intra-category (IC) 和 cross-category (CC) 级别评估在未见过物体上泛化的性能。Distractor 上的结果表明，我们提出的算法改进（FCL）显着提高了性能，表明我们的方法可以增强任务表达能力。位姿估计的实验结果表明，元学习可以成功地应用于预测未知物体的姿态，这在机器人抓取和虚拟/增强现实（VR/AR）方面具有巨大的潜力。

功能对比学习（FCL）

CNPs 学习的表示在给定的上下文集中具有置换不变性，也就是说改变上下文集的顺序不会改变任务的表示。然而，任务表示的另一个理想属性是同一任务的跨上下文集的稳定性。例如，属于同一任务的不同上下文集的表示在嵌入空间中应该彼此接近，而不同任务的表示应该相距较远。为了实现这一点，我们在任务表达空间中添加了一个额外的对比损失，并以端到端的方式训练模型。对比交叉熵损失定义如下：

其中表示每个batch的任务数。表示分别从上下文和目标集获得的给定任务的一对潜在表示。更具体地说，这些对是通过最大聚合

和

获得，其中表示每个任务的上下文对数，表示每个任务的目标对数。

max 返回编码器网络在每个上下文对输出的潜在变量中的元素最大值。是一个温度参数，我们认为作为一个超参数对于学习良好的表示至关重要。是余弦相似，对的所有正负对的相似度求和：

其中表示当且仅当从不同的任务或不同的集合中采样，对数值可以解释为正对的加权重要性。因此，这种损失函数鼓励模型获得正对的大相似性和负对的小相似性。

实验结果

Distractor任务在 2D 图像平面中欧几里得距离的预测误差（像素）。结果分别采用了不同的聚合和增强方法。第一行显示类别内 (IC) 评估的结果，第二行显示跨类别 (CC) 的结果。

ShapeNet1D 姿态估计误差。结果是用 5 个随机种子计算的平均误差（MAML除外。第一行显示 IC 的结果，第二行显示 CC 的结果。

ShapeNet2D 上应用不同增强技术的比较。使用 CNP (CA) 作为baseline，结果为使用 3 个随机种子计算得到。

(a) 使用 Max 聚合和 Max + FCL 在 Distractor 任务中 CNP 预测误差（像素）与上下文对数的关系。包括类别内 (IC) 和跨类别 (CC) 级别的新对象的评估结果。(b) 使用 DA + TA 的 ShapeNet2D 任务中 CNP (CA) 预测误差与上下文对数的关系。(c) 我们比较了经典的目标检测方法和 CNP (Max）在新任务上使用不同数量的数据在 Distractor 上进行训练。经典模型在每个新任务上都会进一步微调训练。(d) 微调模型与 CNP (CA) 在 ShapeNet1D 上的预测误差。

1. 相比于 MAML，CNPs具有显着的数据/训练效率，尤其在任务多样性和复杂性增加的情况下。

2. DA 缓解了这两种类型的过拟合，而 TA 缓解了记忆过拟合，但需要针对每个任务单独设计，需保证增加的搜索空间是对原任务有效的。

3. CNPs 超过了微调的经典模型，尤其是在小样本的情况下。

4. 建议对非位置编码任务使用最大聚合，对具有位置信息的以对象为中心的任务使用交叉注意力 (CA)，而平均聚合则始终表现不佳。

5. FCL 可以缓解过度拟合并提高性能，但需要微调超参项。在我们设计的任务中，我们发现使用较小的温度值，FCL 在上下文和目标集之间使用，通常可以获得更好的性能。

总结

本文研究了几个图像级回归任务中的 MAML 和 CNPs 的表现，并分析了不同选择在缓解元过拟合方面的重要性。此外，我们针对各种任务设置为 CNP 提供不同算法选择的见解和实用建议。我们将 CNPs 与任务空间中的功能对比学习相结合，并以端到端的方式进行训练，这显着提高了 CNPs 的任务表达能力。我们相信我们的工作可以为未来在基于图像的回归任务中设计和实现元学习算法的工作奠定基础。

更多阅读