CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法
背景
在论文中,我们考虑在开放词汇场景下同时检测目标并分类属性的任务,即模型仅在一组可见的目标类别和属性上进行训练,但在测试时需要推广到未见过的目标类别和属性,如下图所示。完成这些任务我们观察到三个主要挑战:
(1)首先,在现有的视觉语言模型中,例如 CLIP 和 ALIGN,从图文对中学习得到的表示往往偏向于目标类别,而不是属性,这导致在直接用于属性识别任务时存在特征不对齐的问题;
(2)其次,没有理想的训练数据集同时包含三种类型(目标框、类别和属性)的标注。据我们所知,只有 COCO Attributes 数据集提供这样程度的标注,但它的词汇量相对有限 ( 196 个属性,29 个类别);
(3)第三,在统一框架下训练这三项任务仍未被探索,具有一定到挑战性,即在开放词汇场景下同时定位(“在哪里”)和描述目标的语义类别和属性(“是什么”)。
为了解决上述问题,我们从一个简单的架构开始,称为 CLIP-Attr。该架构首先通过离线 RPN 从图像中提取目标候选框,然后通过比较属性词嵌入和候选目标的视觉嵌入之间的相似度来实现开放式词汇目标属性识别。为了更好地对齐属性词和候选目标之间的特征,我们在文本编码器端引入可学习的 prompt 向量,并在大量的图文对数据上微调原始 CLIP 模型。
为了进一步提高模型效率,我们提出了 OvarNet,这是一个统一的框架,可以在一次前向传播中进行检测和属性识别。OvarNet 是通过在目标检测和属性预测两个数据集上训练,并通过蒸馏 CLIP-Attr 模型的知识来提高在 novel/unseen 属性的性能。我们提出的 OvarNet 是第一个可扩展的管道,在开放词汇场景下可以同时定位目标,并同时推断视觉属性和目标类别。
实验结果表明,尽管只使用弱监督的图文对数据对 OvarNet 进行蒸馏,但它在 VAW、MSCOCO、LSA 和 OVAD 数据集上的表现优于先前的最新技术,展现了对新属性和类别的强大泛化能力。
我们的方法主要分为 3 步:首先,利用目标检测数据和属性预测数据在开放词汇场景下训练一个简单的两阶段的方法;然后,通过利用大量的图文对数据进一步微调这个两阶段模型以提高在 novel/unseen 类别和属性上的性能;最后,为了保证泛化性和前传速度,我们基于知识蒸馏的范式设计了一个一阶段的算法。
2.1 两阶段算法
作为社交图谱数据,数据的一致性至关重要。我们需要严格保证数据的最终一致性以及一定场景下的强一致性。为此,我们采取了以下措施:
作为社交图谱数据,数据的一致性至关重要。我们需要严格保证数据的最终一致性以及一定场景下的强一致性。为此,我们采取了以下措施:
2.2 图文对数据微调
首先,我们对图文对数据进行预处理,从句子中解析出类别词、属性词、和名词短语;随后,我们使用预训练的 CLIP-Attr 对数据进行伪标签标注;最后为了避免噪声标签的影响,我们通过多实例 NCE 损失进行监督训练。
下图给出了利用海量图文对数据微调 CLIP-Attr 的网络结构图。
2.3 单阶段蒸馏算法
尽管通过预先计算的提议框和上述的 CLIP-Attr 模型可以实现开放词汇目标属性预测,但其推理过程非常耗时,因为每一个裁剪后的区域都会输入到视觉编码器中。在这一部分,我们的目标是解决缓慢的推理速度,端到端地训练一个用于目标检测和属性预测的 Faster-RCNN 类型的模型,称为 OvarNet。图像会被依次经过视觉编码器、类别无关的区域提议网络和开放词汇属性分类网络。
下图是其整体网络框架。为了提高模型处理未知类别和属性的能力,我们进一步加入了 CLIP-Attr 模型的额外知识进行蒸馏。
我们考虑的开放词汇目标属性识别包括两个子任务:开放词汇目标检测和对所有检测到的目标进行属性分类。所采用的数据集有 MS-COCO、VAW、LSA 和 OVAD。为了评估模型的性能,在指标评价上我们同时考虑 box-given 和 box-free 的设定,使用 mAP 进行评价。
3.1 COCO和VAW上的结果
3.2 OVAD和LSA上的结果
3.3 一些可视化结果
本文探讨了开放词汇目标检测和属性识别问题,即同时定位目标并推断它们的语义类别和视觉属性。我们从一个简单的两阶段框架( CLIP-Attr )开始,使用预训练的 CLIP 对目标提议进行分类。为了更好地对齐以目标为中心的视觉特征与属性概念,我们在文本编码器侧使用可学习提示向量。在训练方面,我们采用联合训练策略来利用目标检测和属性预测数据集,并探索一种弱监督训练方案,利用外部图像-文本对增加识别新属性的鲁棒性。
最后,为了提高计算效率,我们将 CLIP-Attr 的知识蒸馏到一种 Faster-RCNN 类型的模型中(称为 OvarNet)。在 VAW、MS-COCO、LSA 和 OVAD 等四个不同的基准评估中,我们表明联合训练目标检测和属性预测有助于视觉场景理解,并大大优于现有方法独立处理两个任务的方法,展示了强大的泛化能力,可以处理新的属性和类别。
对内容的充分理解,是实现内容推荐和检索的有效工具。在小红书双列布局场景下,对笔记封面图篇的理解就显得格外重要。采用本文所示的开集目标属性识别能力,我们可以在更细粒度上对封面图进行结构化理解。比如除了可以检测到人物之外,还可以进一步标记人物衣着、姿态等属性,从而在进行推荐和检索时,实现更加智能和个性化的内容推荐。此外,在构建小红书的内容质量体系时,通过对图片的充分解析,我们能够更精确地描述一篇笔记的质量分级,进而实现内容基于质量的差异化分发。
论文地址:
https://arxiv.org/abs/2301.09506
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者