Redian新闻
>
​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP

​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP

科学

视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。

为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型(vision-language models,简称 VLP)开放词汇目标检测模型(open-vocabulary object detector,简称 OVD),以零样本推理的形式实现在通用领域的上的视觉定位。

该方案名为 GroundVLP,精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框,无需训练、泛化性能佳,在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能,接近甚至超过在标注数据上训练的有监督模型的效果。

日前,该论文被人工智能国际顶会 AAAI 2024 录用。本文将详细解读这一优秀研究工作的动机、技术方案与应用效果。

论文题目:

GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection
论文链接:

https://arxiv.org/abs/2312.15043

收录会议:
AAAI 2024


动机:视觉定位标注难?以有余补不足

视觉定位(visual grounding)是重要的视频-语言理解任务,要求根据自然语言输入定位图片中相关的物体与区域,包括两类子任务:

  • 指代表达理解(refering expressin comprehension,简称 REC):根据文本指代描述在图片中定位相应的单个物体;

  • 短语定位(phrase grounding):在图片中定位输入句子中的每个实体。

已有的视觉定位研究大多在特定任务的有监督数据集上进行模型训练和评估,但由于视觉定位需要精确地理解物体的相互关系和属性,标注起来费时费力,现有的可用数据加起来只有约 22 万条,和动辄数千万甚至数十亿的图文对数据和目标检测数据相比十分贫瘠。原文列出了视觉定位数据与图文对、目标检测可用数据的数量对比:

▲ 三类数据的常见数据集和总量级对比

这种数据丰富程度的天壤之别也自然映射到了模型能力上,过去的研究中,在有限的视觉定位数据上训练的 visual grounding 模型对未见过的分布泛化能力差、应用领域受限。

而在海量数据上预训练的 CLIP [1]、ALBEF [2]、BLIP [3] 等视觉-语言预训练模型(vision-language models,简称 VLP)具备强大的零样本图文匹配能力,不需要微调即可很好地应用到新的领域上,同样在海量数据上训练的 Dectic [4] 等开放词汇目标检测器(open-vocabulary object detector,简称 OVD)也具备出色的零样本泛化能力。

直观地来看,VLP 擅长匹配整张图片和整个描述图片的句子,OVD 则从图片中提取局部对应的实体(检测框)并给出单词级别的描述,而 visual grounding 要做的是根据短语级别的描述,从整张图片中框出对应的实体,该任务与图文匹配、OVD 高度相关。

本研究即采取迁移学习中“以有余补不足”的思路,希望将 VLP 和 OVD 预训练模型从海量数据上学习到的泛化能力,以无需训练的方式迁移到 visual grounding 这一数据贫瘠的相关任务上来。

如果把标注数据比作水资源,visual grounding 的研究正在贫瘠的沙漠中挣扎,而图文对数据和目标检测数据丰沛如大洋之水,滋养了强大的 VLP 和 OVD 预训练模型。



方案:GradCAM分数与目标检测框的精巧融合

2.1 利用VLP模型输出的GradCAM分数

首先介绍本研究利用预训练图文匹配模型时使用的基本工具 GradCAM(Gradient-Based Class Activation Mapping)[5]。它是衡量输入数据或某个中间特征对最终任务损失影响程度的工具,设某个输入或中间特征里的元素为 ,最终任务损失为 ,则 的梯度 的 GradCAM 分数为 为点乘),直观地看,就是 改变一个极小量时 的变化量( 本身乘以 的梯度)。
Visual grounding 问题中,我们要用的是图文匹配模型(本文用的是 ALBEF [2] 或 VinVL [6])里某段输入文本对图文匹配损失 的影响程度。
设某个文本 token 对某个视觉 token 在某个中间层的注意力分数(softmax 归一化后)为 ,则该文本 token 和该视觉 token 的关联程度可以认为是 的 GradCAM 分 正号表示只截取正值(作者选择将负值置零,表示只考虑正面影响)。由于实际上模型一般使用多头注意力,标准写法 其中 表示沿注意力头的数目这个维度取平均。
那么要衡量一个句子或短语对图像中一个区域的匹配程度,将上述的 值在文本维度做 pooling(文本侧选取部分关键 token 对应值取平均),即可得到整句话与每个视觉 token 对应的匹配度分数,因为每个视觉 token 都可以对应到输入图像的一个区域,因此经过该次处理,我们就可以量化出一个句子或短语与图像中某个区域的匹配程度高低。
值得注意的是,由于文本部分可能存在 a/the/and 这样不对应具体图像区域的虚词,作者提出用词性标注工具解析出文本部分每个词的词性标签,只有名词、形容词、动词、专有名词和数词容易被可视化的词性才会被考虑到 值的计算中(文中称为 Visual-Word Attention Aggregation)。
比如 “black and white cat” 这个输入中,“black”、“white”、“cat” 被保留下来,而 “and” 被过滤掉。此外,在 REC 子任务中,[CLS] token 的对应值也被纳入 值的计算中。

2.2 利用OVD模型得到候选物体框与置信度分数

Visual grounding 要求根据输入的文本定位对应的图像区域,我们已经有了上述的 GradCAM 工具衡量文本和图像区域的匹配程度,那么只要有一些候选的图像区域,根据 GradCAM 分数排序就可以得到定位结果。

这时候我们就要用到Dectic [6] 这样的 open-vocaburalry object detector(OVD)来生产候选的 object prposals。由于 OVD 会生成大量各种类别的 proposals,我们需要将候选空间限定到 query 对应的类别中,本文采取了两种方式抽取类别信息:

  1. 使用数据集中标签对应的类别(方便评测,但离现实设定较远);
  2. 将语法解析工具抽取出的名词短语作为类别信息(有噪声,但更符合现实需求)。
这样一来,如下图所示,我们通过 OVD 生成候选的 boudning box 和对应的置信度分数 (图的下部分),每个 bounding box 可以和输入文本计算 GradCAM 分数 ,接下来要考虑的是如何融合二者对 bounding boxs 进行排序,得到最终的定位结果。

▲ GroundVLP的总体流程
2.3 融合预测得到定位结果
最后,对每个 candidate bounding box,将 OVD 的置信度分数 和 VLP 得出的 GradCAM 分数 相乘,再除以一个 bounding box 大小的正则项 得到最后用于排序的分数

其中 为 bouding box 的大小, 为超参数。对每个自然语言 query 对应的 candidate bounding box,取 值最大的作为定位结果。


效果:零样本新王者,接近或超过有监督模型上限
作者分别在 REC 子任务的 RefCOCO、RefCOCO+、RefCocog 数据集和 phrase grounding 子任务上的 Flickr30k 数据集上做了实验,REC 的评测指标为 top1 accuracy,phrase grounding 的指标为 Recall@1 与 Recall@5。
主实验中,VLP 模型为 ALBEF-14M(14M 图文对预训练数据,约 210M 参数量)或 VinVL-Large(约 8.85M text-tag-image 三元组预训练数据,约 350M 参数量)。
从下表可以看出,在 REC 的三个测试集上,使用自动预测的实体类别信息的 GroundVLP 就刷新了零样本设定下的 SOTA,当 VinVL 作为提取 GradCAM 分数的基础模型时,RefCOCO 和 RefCOCO+ 的 test A 上都增长了约 20 个百分点,接近没有视觉-语言预训练的有监督模型,在 RefCOCOg 的测试集上甚至超过了非预训练的有监督模型,显示出 GroundVLP 强大的零样本泛化能力。
虽然离监督数据上微调的视觉-语言预训练模型 UNITEXT 还有一定差距,GroudnVLP 作为零样本的通用模型已经足够惊艳,他成功地将 VLP 和 OVD 预训练学习到的知识迁移到了数据稀疏的视觉定位任务上来,大大提升了视觉定位模型在通用领域的零样本泛化能力。

▲ REC子任务上的评测结果
在 phrase grounding 子任务上,GroundVLP 同样表现不俗,取得了最佳的零样本推理效果。

▲ Phrase grounding子任务上的评测结果



结语与思考
GroundVLP 设计了精巧的推理机制,成功地将在大规模图文对与目标检测数据上预训练的 VLP 和 OVD 模型组合在一起用于视觉定位,未进行任何参数训练就破解了视觉定位领域稀疏的困局,为实现领域通用的视觉定位基础模型迈出了坚实一步。
笔者在这里想进行一点补充,针对视觉定位标注数据稀疏其实还有一条由微软半年前发布的 Kosmo2 [7] 指出的模式——使用 OVD 模型自动生成弱监督的grounding 数据(Kosmo2 做了一个叫 GRIT,数量级大约为 100M 的 groudning 弱监督预训练数据集),将 bounding box 坐标转化为自然语言 token,在其上训练大语言模型用于视觉定位。
和 GroundVLP 相比,Kosmo2 的这条路需要的资源消耗更大(大规模弱监督预训练数据的生成和大模型的训练都需要大量的计算资源,Kosmo2 的总参数量也远大于 GroundVLP),但让人惊喜的是 GroundVLP 在 REC 子任务上的性能甚至优于 Kosmo2:同样为零样本推理,RefCOCO 的 testA 上为 69.21 对 57.42,RefCOCO+ 的 testA 上为 70.56 对 50.73,RefCOCOg 的 test 上为 68.98 对 61.65(Kosmos2 的结果来自其技术报告 [7])。
这启示我们,ALBEF、VinVL 这样的视觉-语言基础模型虽然没有显式在涉及局部对齐的目标上训练,但其中间表示蕴含着丰富的局部对齐信息以完成视觉定位这样的细粒度任务,GroundVLP 已经指出了计算 GradCAM 分数这一巧妙的零样本利用方式,期待未来涌现更多这样的妙思。

参考文献

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.

[2] Li, Junnan, et al. "Align before fuse: Vision and language representation learning with momentum distillation." Advances in neural information processing systems 34 (2021): 9694-9705.

[3] Li, Junnan, et al. "Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation." International Conference on Machine Learning. PMLR, 2022.

[4] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

[5] Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.

[6] Zhang, Pengchuan, et al. "Vinvl: Revisiting visual representations in vision-language models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[7] Peng, Zhiliang, et al. "Kosmos-2: Grounding Multimodal Large Language Models to the World." arXiv preprint arXiv:2306.14824 (2023).



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
6041 血壮山河 卢沟桥之变 10NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTALeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果希拉里机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色苏东坡诗文里的酒与酒鬼视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'241吨甘蔗糖蜜可生产136公斤糖苷和60公斤阿洛酮糖,北化工团队提出合成双酶系统,可高效环保生产高值产品小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值0.3%参数推理,实现78倍加速!ETH团队提出UltraFastBERT,构筑语言模型巨人AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点2024 rav4 油车 le四驱视觉全新主干!中科院&华为提出VMamba:视觉状态空间模型NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略11人狂训2个月,马斯克精准狙击OpenAI!xAI首个大模型Grok炸场,330亿参数每月16刀改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架重新拿起笔来New Year's fireworks 2024 LIVE: NYC's Times Square ball drop告文学城网友书几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型谷歌最强AI大模型Gemini 1.0发布;Touch ID发明人宣布退休;麦当劳中国APP启动鸿蒙原生应用开发|AIoT情报丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU朝鲜战争志愿军为什么没有全军覆没斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了英伟达将为中国开发改款合规芯片;马斯克AI模型Grok下周定向开放;拼多多成立大模型团队丨AIGC大事日报Cell | 深圳先进院脑科学研究团队提出帕金森病新型神经调控疗法扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug【美坛综艺秀假日篇】Best wishes for 2024!ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能Strong start 2024清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力北大具身智能团队提出需求驱动导航,对齐人类需求,让机器人更高效Nature子刊 |浙江大学药学院团队提出活体细胞表面蛋白修饰新策略
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。