Redian新闻
>
顶刊IJCV 2024!通过提问学习基于知识的新物体识别

顶刊IJCV 2024!通过提问学习基于知识的新物体识别

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!


作者:凤凰AI

https://zhuanlan.zhihu.com/p/677841513

在现实世界的物体识别中,有大量的物体类别需要识别。传统的基于监督学习的图像识别方法只能识别训练数据中存在的目标类别,在现实世界中的适用性有限。另一方面,人类可以通过提问和获取关于它们的知识来识别新物体。受此启发,本文研究了一种通过问题生成获取外部知识的框架,可帮助模型立即识别新对象。该流程由两部分组成:目标分类器和问题生成器,前者用于进行基于知识的目标识别,后者用于生成知识感知的问题以获取新知识。本文还提出了一种基于目标分类器知识感知预测置信度的问题生成策略。为了训练问题生成器,构建了一个数据集,其中包含关于图像中物体的知识感知问题。实验表明,与几个基线相比,所提出的管道有效地获取了关于新对象的知识。

目标类别识别一直是计算机视觉研究的核心问题。传统上,目标识别是通过使用图像标签对的大型数据集进行监督学习来解决的。然而,使用有监督的方法,该模型只能识别一组固定的对象类别,不适用于存在大量对象类别的现实世界的对象识别。最近,出现了利用图像-文本对数据集基于对比学习的图像识别方法。通过对数亿个图像-文本对进行训练,这些模型已经获得了卓越的零样本识别能力用于各种各样的物体。然而,这些模型可以识别预训练数据集中常见的物体,但对于稀有物体却不那么有效。考虑到数据收集和计算的成本,收集新数据并重新训练整个模型以使这些模型识别新对象是不切实际的。因此,开发一种方法至关重要,该方法使模型能够识别新对象,同时保持低数据收集成本,并尽可能避免模型重新训练。

当人类获得关于世界的知识时,提出问题和明确地获取知识是涉及的重要技能。受此启发,探索了通过提问来动态增加图像识别知识的方法。与传统的监督学习方法相比,该方法有以下几个优点:(1)由于系统只获取它需要的知识,因此获取知识只需要少量的数据;(2)由于系统本身寻找所需的数据,因此数据收集成本较低。

本文提出了一个由基于知识的目标分类器(OC)和问题生成器(QG)组成的管道,用于知识获取。根据之前对结构化知识的研究,将知识表示为知识三元组,即由三个单词或短语组成的列表:头、关系和尾,如<dog、IsA、mammali>。训练OC从知识源中检索知识,输出知识源中相应的头作为预测的目标类(例如,< IsA,哺乳动物> !狗)。然后,QG模型生成问题,将新知识添加到知识源,以实现新物体识别。在QG模型中,我们在问题生成中使用了两种模式:确认和探索,如图1所示。首先,当未知对象与a比较接近时,使用“确认”已知对象类别。例如,如果模型知道"狗",那么一个新类别"吉娃娃"被认为是与"狗"接近的概念。在这种情况下,模型可以推断出合理的知识(例如,"吉娃娃"和"狗"都是一种哺乳动物),并提出问题来确认,例如"图像左侧的哺乳动物是什么? "相比之下,“探索”模式用于未知物体距离现有物体类别很远(例如,“泰迪熊”可能不像任何已知的物体类别)。在这种情况下,模型无法估计适当的知识,并试图通过提问(“坐在狗旁边的物体是什么做的?”)来获得所有必要的知识。

图1

本文的贡献和发现可以总结如下:提出了一种新的管道,通过提问来获取关于新对象的知识。

我们设计了基于CLIP的OC模型和作为Transformer的QG模型的文本生成模型。

我们构建了一个新的数据集来训练QG模型,即Professional K-VQG。该数据集包含各种注释,如对象标签、边界框、知识和知识感知问题。

将所提出的管道与几个基线进行了比较,表明通过问题生成获得的知识对新目标识别是有效的。

该系统由一个对象分类器(OC)和一个问题生成器(QG)组成。首先,我们描述系统的整体管道(图2)。然后,我们在以下部分中描述每个模块的细节。

图2

QG模型负责生成关于图像中物体的问题,并获取对新物体有用的知识识别。为此,我们用部分知识来约束QG,这掩盖了部分知识。

一旦得到生成问题的答案,将获得的知识 K' 添加到模型的原始知识源K中,OC的知识源更新为 K+ = K+ K' 。然后,在下一个推理阶段,OC根据更新后的知识源K+对知识和标签进行预测。

图3

图4

图5,图6

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步2024 初春 二月繁花~玉树临盆梅西现象,给了港人一巴掌!医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集Mamba将在MICCAI 2024、ACM MM 2024和ECCV 2024上爆发?!CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同春节随笔顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型2024 turbotax 最全最强攻略顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架Meta被曝开发配备摄像头的AI耳机,可识别物体和翻译一次报名,终身学习~还可免费学习 7、8 版本课程!通吃企业生产环境的版本!CVPR 2024 | 知识感知注意力!用于组织病理学全幻灯片图像分析神,人,AI的关系【Poem Reading Tuesday】all the time I pray to Buddha by Kobayashi顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法深入研讨语言模型中知识的生命周期,ACL 2024 Workshop征稿启动※※※※※※ 2024【新春对对碰】活动大合辑※※※※※※CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型标注受限也能识别多标签图像!中山大学等发布异构语义转移HST框架 | IJCV 2024CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别顶刊IJCV 2024!基于概率表征的半监督对比学习框架ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探一季度214家CVC出手,联想创投活跃度居首;吉利控股、比亚迪各收获两个IPO|2024Q1中国企业创投CVC发展报告​CVPR 2024 | 迁移预训练生成模型中的知识到边缘小模型港中文李教授1v1科研:基于深度学习的无人机目标识别算法研究|收获一作论文与导师推荐信!CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向JCMEA认证 2024M1期医疗翻译/C1期医美翻译认定培训课程开始招生CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法斯洛文尼亚首都卢布尔雅那(Ljubljana),边走边看IJCAI 2024 | 多智能体强化学习新范式:个性化训练与蒸馏执行两幅楹联知识的重要性!美国两兄弟12秒骗价值2500万美元虚拟货币。顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。