Redian新闻
>
顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究

顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

在CVer微信公众号后台回复:VG,可以下载本论文pdf、代码,学起来!

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding
论文题目:CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding
发表期刊:IEEE Transactions on Multimedia 一区顶刊
工作内容:基于自步课程学习实现多模态大模型CLIP在多模态视觉语言理解与定位任务上的无监督迁移研究

论文发表链接:
https://ieeexplore.ieee.org/abstract/document/10269126
Arxiv:https://arxiv.org/abs/2305.08685
代码:https://github.com/linhuixiao/CLIP-VG
第一作者:肖麟慧(中科院自动化所博士)
通讯作者:常胜
作者单位:中国科学院自动化所-多模态人工智能系统全国重点实验室;鹏城实验室;中国科学院大学人工智能学院


图1。我们提出的CLIP-VG的主要思想,它在自步课程自适应的范式中使用伪语言标签来自适应CLIP,从而实现在视觉定位的任务上得迁移学习。

论文摘要:

视觉定位(VG)是视觉和语言领域的一个重要课题,它涉及到在图像中定位由表达句子所描述的特定区域。为了减少对人工标记数据的依赖,无监督的方法使用伪标签进行学习区域定位。然而,现有的无监督方法的性能高度依赖于伪标签的质量,并且这些方法总是遇到多样性有限的问题。为了利用视觉和语言预训练模型来解决定位问题,并合理利用伪标签,我们提出了一种新颖的方法CLIP-VG,它可以使用伪语言标签对CLIP进行自步式地课程自适应。我们提出了一个简单而高效的端到端网络架构来实现CLIP到视觉定位的迁移。在以CLIP为基础的架构的基础上,我们进一步提出了单源和多源课程自适应算法,这些算法可以逐步找到更可靠的伪语言标签来学习最优模型,从而实现伪语言标签的可靠性和多样性之间的平衡。我们的方法在单源和多源场景下的RefCOCO/+/g数据集上都明显优于当前最先进的无监督方法,提升幅度分别为从6.78%至10.67%和11.39%至14.87%。此外,我们的方法甚至优于现有的弱监督方法。代码和模型可在https://github.com/linhuixiao/CLIP-VG上获得。

论文引言:

视觉定位(Visual Grounding,VG),又称指代表达理解(Referring Expression Comprehension,REC),或短语定位(Phrase Grounding, PG),是指在特定图像中定位文本表达句子所描述的边界框(bounding box,即bbox)区域,这一技术已成为视觉问答[6]、视觉语言导航[7]等视觉语言(Vision-Language, V-L)领域的关键技术之一。     

由于其跨模态的特性,定位需要同时理解语言表达和图像的语义,这一直是一项具有挑战性的任务。考虑到其任务复杂性,现有的方法大多侧重于全监督设置(即,使用手工三元组数据作为监督信号)。然而,有监督的定位要求需要高质量的手工标注信息。具体来说,表达句子需要与bbox配对,同时在指代上是唯一的,并且需要具有丰富的语义信息。为了减少对手工劳动密集的标记数据的依赖,弱监督(即,仅给定图像和查询对,没有配对的bbox)和无监督定位(即,不使用任何与任务相关的标注信息去学习定位图像区域)最近受到越来越多的关注。现有的无监督定位方法主要是利用预训练的检测器和额外的大规模语料库实现对未配对数据的指代定位。最先进的(SOTA)无监督方法提出使用人工设计的模板和空间关系先验知识来匹配目标和属性检测器获得的结果,以及相应的目标bbox。这将生成表达式和bbox伪对,它们被用作为伪标签,进而以监督的方式学习定位模型。然而,这些现有方法中的伪标注信息的有效性严重依赖于总是在特定数据集上预训练的目标或属性检测器。这可能会限制语言分类和匹配模式的多样性,以及上下文语义的丰富度,最终损害模型泛化能力。

在过去的几年里,视觉语言预训练(Vision-Language Pre-trained, VLP)基础模型(如CLIP)通过使用少量任务相关数据来进行迁移或提示的范式,在许多下游任务上取得了令人振奋的结果。这些基础模型的主要优点是,它们可以通过自监督约束从现成的web数据和各种下游任务数据(例如,BeiT3)中学习一般通用的知识。这启发我们考虑转移VLP模型(即,本工作中使用CLIP),以无监督的方式解决下游定位任务。然而由于缺乏与任务相关的标记数据,因此,这是一项具有挑战性的任务。一个直接的解决方案是利用以前的无监督定位方法中生成的伪标签来微调预训练的模型。然而,这将影响预训练模型的泛化能力,因为特定的伪标签和真实特定任务的标签之间存在差距。

在本文中,我们提出了CLIP-VG,如图1所示,这是一种新颖的方法,可以通过利用伪语言标签来解决视觉定位问题,对CLIP进行自步地课程自适应。首先,我们提出了一个简单而高效的端到端纯Transformer的仅编码器的网络架构。我们为了实现CLIP向视觉定位的任务迁移,只需要调整少量的参数,花费最少的训练资源。其次,为了通过寻找可靠的伪标签来实现对基于CLIP的网络架构的更稳定的自适应迁移,我们提出了一种评估实例级标签质量的方案和一种基于自步课程学习(SPL)的渐进自适应算法,即可靠性评估(III-C部分)和单源自步自适应(SSA)算法(III-D部分)。实例级可靠性被定义为通过特定标签源学习的评估器模型正确预测的可能性。具体而言,我们学习了一个初步的定位模型作为可靠性评估器,以CLIP为伪标签的主干,然后对样本的可靠性进行评分,构建可靠性直方图(RH)。接下来,根据构建的RH,以自步的方式执行SSA算法,逐步采样更可靠的伪标签,以提高定位的性能。为了有效地选择伪配对的数据子集,我们设计了一种基于改进的二叉搜索的贪心样本选择策略,以实现可靠性和多样性之间的最优平衡。

我们所提出的CLIP-VG的一个主要优点是其渐进式自适应框架不依赖于伪标签的特定形式或质量。因此,CLIP-VG可以灵活扩展,访问多个伪标签源。在多源场景中,我们首先独立学习每个伪标签源的特定源的定位模型。然后,我们提出了源级复杂度的评估标准。具体而言,在SPL的不同步骤中,我们根据每个表达式中实体的平均数量,从简单到复杂逐步选择伪标签源。在SSA的基础上,我们进一步提出了特定源可靠性(SR)和跨源可靠性(CR),以及多源自适应(MSA)算法(第3 - e节)。特定源的可靠性定义为使用当前标签源学习的定位模型正确预测当前伪标签的可能性近似。相应的,交叉源可靠性的定义是通过与其他标签源学习的定位模型正确预测当前源伪标签的可能性近似。因此,整个方法可以渐进式地利用伪标签来学习易难课程范式中的定位模型,最大限度地利用不同源的伪标签,保证基础模型的泛化能力。

在RefCOCO/+/g、RefitGame和Flickr30K Entities这五个主流测试基准中,我们的模型在单源和多源场景下的性能都明显优于SOTA无监督定位方法Pseudo-Q,分别达到6.78% ~ 10.67% 和11.39% ~ 14.87%。所提出的SSA算法和MSA算法的性能增益为3%以上。此外,我们的方法甚至优于现有的弱监督方法。与全监督SOTA模型QRNet相比,我们仅使用其更新参数的7.7% 就获得了相当的结果,同时在训练和推理方面都获得了显著的加速,分别高达26.84倍和7.41倍。与最新报道的结果相比,我们的模型在速度和能效方面也达到了SOTA。综上所述,本文的贡献有四个方面:

  • 我们所知,我们是第一个使CLIP实现无监督视觉定位的。我们的方法可以将CLIP的跨模态学习能力转移到视觉定位上,而且训练成本很小。

  • 我们是第一个在无监督视觉定位中引入自步课程学习的方法。我们提出的可靠性评估和单源自步自适应的方法可以通过在由易到难的学习范式中使用伪标签逐步增强基于CLIP的视觉定位模型。

  • 我们首先提出了多源自步自适应算法来扩展了我们的方法,同时可以获取多个伪标签源的信息,可以灵活地提高语言分类的多样性。

  • 我们进行了大量的实验来评估我们方法的有效性。结果表明,我们的方法在无监督环境下取得了显著的改进,同样,我们的模型在全监督环境下也具有一定的竞争力。

图2. 我们的CLIP-VG模型架构(III-B部分)作为视觉语言定位模型来实现CLIP的自步度课程自适应。

图3。利用伪语言标签和自步课程学习实现无监督视觉定位。(a)伪语言标签的例子(不同伪语言标签的来源在第IV-A节中进行了描述)。(b)单源自步自适应(Single-source self-paced Adapting, SSA)利用视觉语言定位模型(VLGM)对伪模板标签进行可靠性评估和贪婪样本选择,通过寻找可靠的伪标签实现对CLIP更稳定的自适应迁移。(c)多源自适应(Multi-source Self-paced Adapting, MSA)在SSA的基础上进一步提出了特定源可靠性(SR)和跨源可靠性(CR)。它依次进行伪标签源选择、可靠性评估器选择和贪婪样本选择,从而达到可靠性和多样性的最佳平衡。

表1. 在RefCOCO/+/g三个数据集上基于top-1精度的SOTA方法对比结果

表1. 在Rferit Game和Flickr两个数据集上基于top-1精度的SOTA方法对比结果

表3. 模型的能效、推理训练速度优势对比

在CVer微信公众号后台回复:VG,可以下载本论文pdf、代码,学起来!

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如计算机视觉或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中山大学开源VeryFL:基于区块链的联邦学习实验框架顶刊TIP 2023!重新思考跨域行人检测:无实例单阶段检测器的背景聚焦分布对齐框架NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法中国水墨江南9天7晚纯玩团:上海接送机+苏州+镇江+扬州+南京+杭州 五星酒店 零自费 含门票小费包餐 中英文导游PVGPVG9把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%顶刊TPAMI 2023!西电提出TIB:通过双流信息瓶颈检测未知物体【2023 坛庆】神曲万妖版【红唇】最后一发ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成直接压缩一切!OpenAI首席科学家Ilya Sutskever这么看无监督学习压缩一切!OpenAI首席科学家Ilya Sutskever这么看无监督学习听吴采乐的《罗刹海市》医学顶刊Nature Medicine!达摩院提出:CT首次实现大规模胰腺癌筛查NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入遥感顶刊TGRS 2023!MUS-CDB:遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样Resolution in 20232023 US Open 美国网球公开赛故乡轶事(七)八八小传红色日记 4.9-20语言理解首超人类,谷歌最新大模型Gemini,碾压GPT-4【小巧玲珑短诗系列】【Short Funny Poems】【2023】坛庆基于知识迁移的跨语言机器阅读理解算法ICCV 2023 Oral | CLIP-LIT将CLIP用于无监督背光图像增强顶刊TPAMI 2023!生成式AI与图像合成综述发布!NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法大词表语言模型在续写任务上的一个问题及对策火山茶顶刊TPAMI 2023!北大&华为提出:人体动作生成综述把ChatGPT塞进副驾驶!清华、中科院、MIT联合提出Co-Pilot人机交互框架:完美把控乘客意图通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入顶刊TPAMI 2023!中科院提出:基于几何分析的神经辐射场编辑方法公共数据和企业数据估值与定价模式研究:基于数据产品交易价格计算器的贵州实践探索NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。