Redian新闻
>
CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

科技


©PaperWeekly 原创 · 作者 | 高宁

单位 | ALR (KIT) & BCAI, Germany

研究方向 | 小样本学习,元学习,机器人视觉




引言

元学习因其能够快速适应训练中未曾见过的任务而被广泛用于小样本分类和函数回归。然而,在图像等高维输入的回归任务上并没有得到很好的探索。本文做出了两个主要贡献,有助于理解这个几乎没有探索过的领域。首先,我们设计了两种过去元学习领域中未有过的复杂度的跨类别级视觉回归任务,即物体识别锁定和位姿估计。

为此,本文 (i) 详尽地评估了常见元学习技术在这些任务上的表现,并 (ii) 定量分析了最近元学习算法中常用的各种深度学习技术的效果以增强泛化能力,包括数据增强,域随机化,任务增强和元正则化。另外,本文 (iii) 为在视觉回归任务上训练元学习算法提供了一些见解和实用建议。其次,我们建议在条件神经过程 (CNPs) 中的任务表达学习空间上添加功能对比学习 (FCL),并以端到端的方式进行训练。

实验结果表明,由于损失函数选择不当以及元训练集太小,先前工作的结果具有误导性。具体来说,我们发现在没有微调的情况下,CNPs 在大多数任务上都优于 MAML。此外,我们观察到没有针对设计的任务增强会导致严重的欠拟合。



论文标题:

What Matters for Meta-Learning Vision Regression Tasks?

论文链接:

https://arxiv.org/abs/2203.04905

代码链接:

https://github.com/boschresearch/what-matters-for-meta-learning




前提

我们现在以统一的方式简要描述 MAML 和 CNPs。我们假设所有任务都是从同一个分布 中采样的,每个任务 都包含一个上下文集 和目标集 ,其中 是每组中的样本数,每个任务数量都可能不同。整个训练数据集表示为 其中 N 是为训练抽样的任务。
在推理过程中,模型在一个新任务 上进行测试,给定一个小的上下文集,它必须从中推断出一个新函数 。在元学习中,有两种类型的学习参数,第一种是元参数 ,它是在元训练阶段使用 学习的。第二个是特定于任务的参数 ,它基于来自新任务 的样本更新和其学习到的元参数 。预测可以构造为 ,其中 是由 参数化后得到的的元模型。
众所周知,元学习算法存在两种臭名昭著的元过拟合(Meta-Overfitting:i)记忆过拟合 (Memorization overfitting) 发生在模型仅以输入为条件来预测输出而不是依赖于上下文集; ii) 学习者过拟合 (Learner overfitting) 发生在预测模型和元学习模型仅对训练任务过拟合但不能泛化到新任务时,即使预测可以以上下文集为条件。
最近,已经提出了不同的方法来缓解这些过度拟合问题,例如,在权重上添加一个正则化项来限制记忆。然而,在欠拟合和过拟合之间调整正则化项是具有挑战性的。应用任务增强和数据增强也可以缓解元过拟合。但是,对于如何单独或组合使用这些方法仍缺少一个广泛比较。在这项工作中,我们将这些技术分为数据增强 (DA)、任务增强 (TA)、元正则化 (MR) 和域随机化 (DR),并在上述两个应用中以不同组合对它们进行定量比较,以得出在更好的理解和一致的比较。



任务设计



对于物体识别锁定,我们创建了一个名为“Distractor”的回归任务,其中每张图片包含两个放置在随机位置的对象:查询对象和一个干扰对象。这个任务的目标是识别查询对象并预测其在图像平面中的位置。与之前的图像补全等任务不同,因为其每个像素都被视为独立的输入,我们的任务需要模型从整个图像中学习对物体的高级表示。另外,与旨在从输入图像中指定所有对象实例的现有对象检测任务相比,我们的任务旨在 i) 将查询的对象与其他干扰物区分开来,并 ii) 预测其图像平面中的二维位置。
因此,有必要学习一个独特的嵌入 ,通过给定它们相关的上下文图像 和对应的位置 ,它可以表示各种查询对象并忽略其他干扰因素。干扰对象是从所有类别中随机抽取的,在许多情况下,它们的外观与查询对象非常相似。因此,聚合多个上下文信息有助于提取表达信息以消除任务的歧义,从而提高性能。
第二个应用程序(即位姿估计)受到先前工作在 Pascal1D 数据集上的启发。由于该数据集包含的物体数量和变化有限并且仅围绕方位轴进行 1D 旋转,因此我们生成了两个具有更高多样性的新数据集,例如通过引入随机背景、跨类别对象的测试集和 2D 旋转。由于背景是从真实世界选取的图像而不像之前工作仅用空白背景,因此我们的数据集显着增加了任务的难度,并使我们能够对所考虑的元学习方法的性能进行彻底的分析。
其中 ShapeNet1D 包含与 Pascal1D 一样的一维旋转,但具有更大的物体多样性,ShapeNet2D 则具有二维旋转和随机背景。在这个任务中,每个对象都有一个随机的规范姿势,因此它必须从上下文集 中学习,其中 是上下文图像 的真实旋转。
对于这两个应用程序,我们分别在 intra-category (IC) 和 cross-category (CC) 级别评估在未见过物体上泛化的性能。Distractor 上的结果表明,我们提出的算法改进 (FCL)显着提高了性能,表明我们的方法可以增强任务表达能力。位姿估计的实验结果表明,元学习可以成功地应用于预测未知物体的姿态,这在机器人抓取和虚拟/增强现实(VR/AR)方面具有巨大的潜力。



功能对比学习(FCL)
CNPs 学习的表示在给定的上下文集中具有置换不变性,也就是说改变上下文集的顺序不会改变任务的表示。然而,任务表示的另一个理想属性是同一任务的跨上下文集的稳定性。例如,属于同一任务的不同上下文集的表示在嵌入空间中应该彼此接近,而不同任务的表示应该相距较远。为了实现这一点,我们在任务表达空间中添加了一个额外的对比损失,并以端到端的方式训练模型。对比交叉熵损失定义如下:

其中 表示每个batch的任务数。 表示分别从上下文和目标集获得的给定任务的一对潜在表示。更具体地说,这些对是通过最大聚合  获得,其中 表示每个任务的上下文对数, 表示每个任务的目标对数。
max 返回编码器网络 在每个上下文对 输出的潜在变量中的元素最大值。 是一个温度参数,我们认为 作为一个超参数对于学习良好的表示至关重要。 是余弦相似, 的所有正负对的相似度求和:

其中 表示当且仅当从不同的任务或不同的集合中采样,对数值可以解释为正对的加权重要性。因此,这种损失函数鼓励模型获得正对的大相似性和负对的小相似性。
实验结果


Distractor任务在 2D 图像平面中欧几里得距离的预测误差(像素)。结果分别采用了不同的聚合和增强方法。第一行显示类别内 (IC) 评估的结果,第二行显示跨类别 (CC) 的结果。

ShapeNet1D 姿态估计误差。结果是用 5 个随机种子计算的平均误差(MAML除外。第一行显示 IC 的结果,第二行显示 CC 的结果。

ShapeNet2D 上应用不同增强技术的比较。使用 CNP (CA) 作为baseline,结果为使用 3 个随机种子计算得到。


(a) 使用 Max 聚合和 Max + FCL 在 Distractor 任务中 CNP 预测误差(像素)与上下文对数的关系。包括类别内 (IC) 和跨类别 (CC) 级别的新对象的评估结果。(b) 使用 DA + TA 的 ShapeNet2D 任务中 CNP (CA) 预测误差与上下文对数的关系。(c) 我们比较了经典的目标检测方法和 CNP (Max) 在新任务上使用不同数量的数据在 Distractor 上进行训练。经典模型在每个新任务上都会进一步微调训练。(d) 微调模型与 CNP (CA) 在 ShapeNet1D 上的预测误差。

1. 相比于 MAML,CNPs具有显着的数据/训练效率,尤其在任务多样性和复杂性增加的情况下。

2. DA 缓解了这两种类型的过拟合,而 TA 缓解了记忆过拟合,但需要针对每个任务单独设计,需保证增加的搜索空间是对原任务有效的。

3. CNPs 超过了微调的经典模型,尤其是在小样本的情况下。

4. 建议对非位置编码任务使用最大聚合,对具有位置信息的以对象为中心的任务使用交叉注意力 (CA),而平均聚合则始终表现不佳。

5. FCL 可以缓解过度拟合并提高性能,但需要微调超参项。在我们设计的任务中,我们发现使用较小的温度值,FCL 在上下文和目标集之间使用,通常可以获得更好的性能。



总结


本文研究了几个图像级回归任务中的 MAML 和 CNPs 的表现,并分析了不同选择在缓解元过拟合方面的重要性。此外,我们针对各种任务设置为 CNP 提供不同算法选择的见解和实用建议。我们将 CNPs 与任务空间中的功能对比学习相结合,并以端到端的方式进行训练,这显着提高了 CNPs 的任务表达能力。我们相信我们的工作可以为未来在基于图像的回归任务中设计和实现元学习算法的工作奠定基础。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【九零后老妈随笔】6/8/2022 北岸音乐厅的表演秀Npj Comput. Mater.: 解析原子分辨图像数据—贝叶斯深度学习SIGIR 2022 | 港大等提出超图对比学习在推荐系统中的应用接着讲坟地的故事。。ECCV 2022丨力压苹果MobileViT,这个轻量级视觉模型新架构火了变老的表现,从吃饭开始​CVPR 2022 | 从自注意力中学习语义Affinity,用于端到端弱监督语义分割受全球金融市场打击,澳洲养老金出现动荡!创下金融危机以来最糟糕的表现!​CVPR 2022 | 子空间对抗训练南京,短命王朝的都城:再略扯中国大历史​ACL 2022 | MetaDistil:基于元学习的模型蒸馏CVPR 2022 | 只需要一组预训练参数,所有恶劣天气一次解决!男学霸在图书馆给女孩下「春药」,他们说这只是一个「恶作剧」在美国71. 千万不要大肚子对话 | AI、机器学习在材料科学研究中能发挥哪些作用?WSDM 2022最佳论文候选:港大提出多行为对比元学习的推荐系统英伟达这篇CVPR 2022 Oral火了!2D图像秒变逼真3D物体!虚拟爵士乐队来了!CVPR 2022 | 一键解锁微软亚洲研究院计算机视觉领域前沿进展!维州刚刚荣膺全澳“经济表现最强劲”称号!失业率达到50年低点,新州表现不堪仅为倒数第二!商汤的数字人研究,在CVPR上成了爆款从Web3「调头」Web2,FTX到底在图什么?在CVPR上,OPPO的一系列「业界首次」盘点中央主流媒体在报道唐山烧烤店打人事件中的表现,谁家更强?复旦提出ObjectFormer,收录CVPR 2022!图像篡改检测新工作!你是什么样的“依恋类型”,就决定了你在恋爱中有什么样的表现人类在这个重要领域的表现比人工智能还好妈妈的故事(7):两个舅舅孩子这6个小举动,是「高智商」的表现!快看你家娃有几个?在武汉,我花4000元学习呼吸、行走、吃饭NAACL 2022 | TAMT:通过下游任务无关掩码训练搜索可迁移的BERT子网络难道就我一个人认为:退休了,不要住大房子吗?CVPR惊现「缝合怪」!韩国团队连剽10多篇顶会论文,竟评上了OralECCV 2022 | PEBAL:用于城市自动驾驶系统的异常分割模型【投票】2022 OABL Season | 常规赛收官,常规赛MVP投票继续,总决赛赛程出炉CVPR 2022 | 图像修复!中科大&微软提出PUT:减少Transformer在图像修复应用中的信息损失
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。