Redian新闻
>
NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络

NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【CV技术和求职】交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

论文地址:https://arxiv.org/pdf/2310.02960

Github:    https://github.com/yangcaoai/CoDA_NeurIPS2023

研究背景:

计算机视觉中的3D目标检测 (3D Object Detection)是一项重要而具有挑战性的任务,在自动驾驶、工业制造和机器人等领域有着广泛的应用。然而,传统的3D目标检测方法通常依赖于预定义的已知类别(Base Categories)集合,无法有效处理新类别物体的检测,但在实际应用场景中通常会出现新物体类别(Novel Categories),导致传统3D目标检测出错。为了解决这一关键问题,开放词汇3D目标检测(Open-Vocabulary 3D Object Detection)开始得到关注。开放词汇3D目标检测模型可以在应用(测试)场景中,灵活地调整要检测的类别列表和检测新类别,更加贴近实际场景。如Fig. 1所示,开放词汇3D目标检测模型CoDA只由绿色框label训练,但可以检测到蓝色框标注的物体。目前开放词汇3D目标检测这个研究方向刚刚发展,研究空间大。   

该NuerIPS2023论文专注于开放词汇3D目标检测,提出了一种名为CoDA的协同式新物体发掘与跨模态对齐方法(Collaborative Novel Box Discovery and Cross-modal Alignment),以在训练中同时学习对新类别物体的定位和分类。首次在不引入2D物体检测模型的前提下实现了开放词汇3D目标检测,检测效果在SUN-RGBD上超过其他方法80%以上。该研究工作的代码和模型已全部开源在https://github.com/yangcaoai/CoDA_NeurIPS2023

主要贡献:

本论文的主要贡献如下:

提出了端到端的开放词汇3D检测框架CoDA,该框架通过设计协同式3D新物体发掘(3D Novel Object Discovery)与发掘驱动的跨模态对齐方法(Discovery-driven Cross-modal Alignment)解决了开放词汇3D目标检测中对新类别物体进行定位和分类问题。

设计了3D Novel Object Discovery (3D-NOD)模块,通过利用3D几何先验和2D开放语义先验,实现了对新类别对象的定位。    

设计了Discovery-Driven Cross-Modal Alignment (DCMA)模块:基于3D-NOD发现的新物体,对3D点云、2D图像、文本之间进行跨模态对齐,实现了对新类别对象的分类。

在两个具有挑战性的数据集SUN-RGBD和ScanNet上进行了广泛的实验评估,验证了CoDA框架的效果优势。

框架:

CoDA框架由以下关键组件组成:3D Novel Object Discovery (3D-NOD)模块、Discovery-Driven Cross-Modal Alignment (DCMA)模块。一方面,3D-NOD模块利用3D几何先验和2D开放语义先验生成新对象的伪标签,以实现对新类别物体的定位。另一方面,DCMA基于3D-NOD发现的新物体,对3D点云、2D图像和文本进行跨模态对齐,实现了对新类别物体的分类。    

技术细节:

3D Novel Object Discovery (3D-NOD):

在3D-NOD模块中,利用3D几何先验和2D开放词汇语义先验生成新类别的伪标签。具体而言,3D检测器的定位头(Localization head)预测3D box,然后基于相机参数将3D box映射到2D图像上的2D box,取出对应的2D物体区域,再通过CLIP的image encoder得到2D image features,继而和CLIP的text encoder输出Open Categories的text features计算相似矩阵,以得到2D开放词汇语义先验。同时,3D检测器的分类头(Classification head)会输出3D几何先验(分类头预测的objectness得分)。当2D开放词汇语义先验和3D几何先验

都超过阈值,并且和已知物体标签的IoU小于0.25,则认定该物体为新类别物体,并更新到novel label pool里。随着训练,novel label pool和模型都得到了迭代式的更新。

Discovery-Driven Cross-Modal Alignment (DCMA):    

DCMA模块基于novel label pool,通过类别匿名的特征蒸馏(Class-Agnostic Distillation)和类别特定的特征对齐(Class-Specific Contrastive Alignment),在更广的语义上进行跨模态对齐。详细而言,每个object query会预测得到(3D box,3D objectness, 3D object features)。在Class-Agnostic Distillation Module,每个3D box会映射到2D图像上的2D box,再取出对应的2D物体区域,继而输入到CLIP Image Encoder中得到2D object features,然后对该2D object features和与之对应的3D object features计算蒸馏loss(L1 loss),到此实现了3D和2D features的对齐。在Class-Specific Contrastive Alignment Module中,会把预测的3D box与novel label pool里的伪label和人工标注的已知类别label进行二分图匹配(Bipartite Matching),以此为该3D box匹配到类别text标签,再对3D features和text features进行contrastive loss,到此实现了3D和text features对齐。综上所述,DCMA实现了3D、2D和text features之间的对齐。    

消融实验:

围绕着CoDA的两个核心创新点3D-NOD和DCMA,该论文做了一系列消融实验,如Tab. 1所示,相对于3DETR+CLIP的朴素的开放词汇检测方法,CoDA取得了显著的提升。当去掉3D-NOD时,效果显著下降,证明了3D-NOD本身带来了显著提升。当把DCMA替换成朴素的跨模态对齐时,3D-NOD+DCMA的效果有显著优势,证明了DCMA相对于其他对齐的优越性。   

在训练过程中,该论文持续监控评测了中间模型的检测效果。可以看到在进入3D-NOD阶段后,Novel类别的AP和AR都得到了显著提升,显示了3D-NOD的有效性。

实验结果:

本研究在两个具有挑战性的3D数据集SUN-RGBD和ScanNet进行了广泛的实验评估。在Tab. 4和Tab. 5可以看到,CoDA框架对Novel类别和已知类别(Base Category)的检测取得了显著的性能优势。从Fig. 4和Fig. F中,CoDA能够准确检测到蓝色框框住的Novel category物体,同时对绿色框框住的Base category物体的检测也更加准确。

结论:

本论文提出的CoDA包含了协同式新物体发掘与跨模态对齐方法(Collaborative Novel Box Discovery and Cross-modal Alignment),解决了开放词汇3D目标检测中的Novel类别物体定位和分类问题。实验证明,CoDA在Novel类别检测上具有显著的性能优势。未来,可以进一步改进CoDA框架,比如采用更强的检测框架、更强的2D开放词汇模型等思路,提高其在更复杂场景和真实应用中的鲁棒性和泛化能力。

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

点击进入—>【CV技术和求职】交流群

3D目标检测交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-3D目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如3D目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023午后的课 (平行宇宙铁道之夜)GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章视觉全新主干!中科院&华为提出VMamba:视觉状态空间模型ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解2023 turbo tax, home & business , 17刀一个人UP & AT ‘EMNeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法3D目标检测方向微信交流群成立!最近发生在的Texas的Law and Order的具体案例,你觉得和你想象的一样吗?你会支持这样的Law&order吗性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight20个小样本目标检测涨点方法!北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!44、45、 长篇民国小说《永泰里》第九章 欢迎“友”军(6)& (7)48、长篇民国小说《永泰里》第十章 同根异枝(3)NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断龙行龘(dá)龘(dá)!这些三叠字怎么念?NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA老烟记事(386) 错车NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR开启自免&过敏检测新纪元,邦器生物推出全自动流式荧光发光免疫分析仪目标检测方向微信交流群成立!让3D编辑像PS一样简单!GaussianEditor:在几分钟内完成3D场景增删改!【唱坛好声音】《情人咒》微雨 & 雾里抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge龙行龘(dá)龘(dá)!2024央视春晚宣布→华为&中科大提出TinySAM:手机就能实时跑的分割一切模型龙行龘(dá)龘(dá)!NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法分割一切"3D高斯"来了!上交&华为提出SAGA:几毫秒完成3D分割一切!ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!100+目标检测必备论文,建议收藏!阁楼时光47、长篇民国小说《永泰里》第十章 同根异枝(2)NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTAAAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力NeurIPS 2023 & MICCAI 2023:可兼容软标签的语义分割损失函数
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。