AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP
视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。
为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型(vision-language models,简称 VLP)与开放词汇目标检测模型(open-vocabulary object detector,简称 OVD),以零样本推理的形式实现在通用领域的上的视觉定位。
该方案名为 GroundVLP,精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框,无需训练、泛化性能佳,在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能,接近甚至超过在标注数据上训练的有监督模型的效果。
论文题目:
https://arxiv.org/abs/2312.15043
动机:视觉定位标注难?以有余补不足
视觉定位(visual grounding)是重要的视频-语言理解任务,要求根据自然语言输入定位图片中相关的物体与区域,包括两类子任务:
指代表达理解(refering expressin comprehension,简称 REC):根据文本指代描述在图片中定位相应的单个物体;
短语定位(phrase grounding):在图片中定位输入句子中的每个实体。
已有的视觉定位研究大多在特定任务的有监督数据集上进行模型训练和评估,但由于视觉定位需要精确地理解物体的相互关系和属性,标注起来费时费力,现有的可用数据加起来只有约 22 万条,和动辄数千万甚至数十亿的图文对数据和目标检测数据相比十分贫瘠。原文列出了视觉定位数据与图文对、目标检测可用数据的数量对比:
▲ 三类数据的常见数据集和总量级对比
这种数据丰富程度的天壤之别也自然映射到了模型能力上,过去的研究中,在有限的视觉定位数据上训练的 visual grounding 模型对未见过的分布泛化能力差、应用领域受限。
而在海量数据上预训练的 CLIP [1]、ALBEF [2]、BLIP [3] 等视觉-语言预训练模型(vision-language models,简称 VLP)具备强大的零样本图文匹配能力,不需要微调即可很好地应用到新的领域上,同样在海量数据上训练的 Dectic [4] 等开放词汇目标检测器(open-vocabulary object detector,简称 OVD)也具备出色的零样本泛化能力。
直观地来看,VLP 擅长匹配整张图片和整个描述图片的句子,OVD 则从图片中提取局部对应的实体(检测框)并给出单词级别的描述,而 visual grounding 要做的是根据短语级别的描述,从整张图片中框出对应的实体,该任务与图文匹配、OVD 高度相关。
本研究即采取迁移学习中“以有余补不足”的思路,希望将 VLP 和 OVD 预训练模型从海量数据上学习到的泛化能力,以无需训练的方式迁移到 visual grounding 这一数据贫瘠的相关任务上来。
方案:GradCAM分数与目标检测框的精巧融合
2.1 利用VLP模型输出的GradCAM分数
2.2 利用OVD模型得到候选物体框与置信度分数
这时候我们就要用到Dectic [6] 这样的 open-vocaburalry object detector(OVD)来生产候选的 object prposals。由于 OVD 会生成大量各种类别的 proposals,我们需要将候选空间限定到 query 对应的类别中,本文采取了两种方式抽取类别信息:
使用数据集中标签对应的类别(方便评测,但离现实设定较远); 将语法解析工具抽取出的名词短语作为类别信息(有噪声,但更符合现实需求)。
▲ Phrase grounding子任务上的评测结果
参考文献
[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.
[2] Li, Junnan, et al. "Align before fuse: Vision and language representation learning with momentum distillation." Advances in neural information processing systems 34 (2021): 9694-9705.
[3] Li, Junnan, et al. "Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation." International Conference on Machine Learning. PMLR, 2022.
[4] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
[5] Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.
[6] Zhang, Pengchuan, et al. "Vinvl: Revisiting visual representations in vision-language models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[7] Peng, Zhiliang, et al. "Kosmos-2: Grounding Multimodal Large Language Models to the World." arXiv preprint arXiv:2306.14824 (2023).
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者