Redian新闻
>
刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解

刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【3D视觉和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

针对3D open-vocabulary场景理解问题,腾讯优图实验室提出了一个新的统一模态的架构UniM-OV3D,将3D场景的四个模态数据point、image、text和depth map统一到了一个模型中。通过深入挖掘点云本身的特征,对各个模态做细粒度特征的表示,并进行四个模态的对齐,所提出的方法在包含室内、室外场景的四个数据集ScanNet, ScanNet200, S3IDS and nuScenes上均达到了SOTA的效果。

题目:UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation

论文:https://arxiv.org/abs/2401.11395    

代码:https://github.com/hithqd/UniM-OV3D   

背景  

现有的方法在3D open-vocabulary场景理解问题上要么从2D图像中进行知识蒸馏,再映射到3D空间,要么只使用点云数据进行特征学习和表示。这种缺乏对其他更多模态的表示和对齐阻碍了他们有效处理细粒度点云对象实例的能力,如下图所示。考虑到3D场景的属性,深度信息是深度不变特征聚合的关键模态,但常常被忽视。尽管有一些方法进行了深度信息的探索,但是他们采用的是投影或者是渲染,而且仅仅是和一个模态进行对齐,这并不能充分发挥深度模态的作用。而考虑到点云信息本身的探索, 针对点云的caption learning是很多工作的方向所在,但是现有的工作都聚焦于以2D图像作为桥梁来生成3D点云的caption,这种及间接的caption生成方式并不是真正意义的点云caption learning,而且他们对于点云特征的提取也往往采用单一的冻结的3D提取器。   

因此,为了充分利用各种模态的协同优势,本文提出了一个新的多模态对齐方法,将 3D 点云、image、depth map和text共同对齐到统一的特征空间中,以实现更精确的3D open vocabulary 场景理解 。   

方法  

UniM-OV3D的整体架构如上图所示,点云数据由层次化点云特征提取模块处理以融合局部和全局特征。为了实现coarse-to-fine的文本监督信号,point-semantic caption learning被设计为从各种 3D 视角获取点云的文本表示。整体框架以点云、2D图像、文本和深度图作为输入,为3D open-vocabulary场景理解建立统一的多模态对比学习。

Hierarchical Feature Extractor  

以稀疏点云作为输入,本文提出了一种可训练的层次化点云提取器来捕获细粒度的局部和全局特征,而不是仅仅利用冻结的 3D 提取器。输入被引导到transformer网络中,该网络采用基于注意力的层来回归 4×4 变换矩阵。该矩阵包含表示学习的仿射变换值的元素,这些元素用于对齐点云。对齐后,这些点被引入多个堆叠的空间感知层,这些层用于产生这些点的排列不变的特征。在这个结构中,使用PointBERT和PointMAE分别提取局部和全局的特征表示,并使用注意力模块充当两个相邻层之间的连接桥梁进行特征的传递。在通过基于注意力的层处理信息后,所有这些 N 维层的输出被连接起来。最后,可以添加分割头来输出点云的全局信息聚合,提供点云的全面表示。

Point-semantic Caption Learning  

在生成点云的caption方面,本文首次尝试直接从点云生成相应的文本,而不是使用图像作为桥梁。我们构建了分层的点语义caption pairs,包括global、eye、sector三个层次的caption,它们可以提供细粒度的语言监督。   

如上图所示,基于点云的不同层次生成的caption不仅提供了对场景的更精确和整体的描述,而且还更准确地表示了场景内目标的方向信息以及它们之间的相互关系。

统一模态的对齐

对于得到的四个模态细粒度的表示,本文采用点云和其他模态之间的对比学习损失:

最终总的模态对齐损失为:

其中文本模态提供全面且可扩展的文本描述,而图像模态提供关于目标和上下文数据的准确指导。此外,深度和 3D 点云揭示了物体的重要结构细节。通过将这些模态统一在一个公共空间中,本文的方法可以最大限度地发挥它们之间的协同优势,从而获得突出的3D open-vocabulary场景理解性能。   

实验结果  

3D Semantic Segmentation  

对于室内场景,在Scannet和S3DIS数据集上,本文的方法在不同的partition上对于hIoU指标的对比上比现有的sota方法分别高3.2%-5.4%,5.5%-7.8% 。

当面对ScanNet200中的长尾问题时,UniM-OV3D比现有最好的zero-shot方法在hIoU上高出5.1%-6.9% ,在mIoU上高出3.5%-5.2%。对于室外场景,UniM-OV3D在新类上比现有方法高4.8%-6.4% hIoU 和 5%-5.6% mIoU。   

3D Instance Segmentation  

在实例分割任务中,UniM-OV3D 也hAP50、mAP 50指标上超过了现有的方法:5%-10.6% , 5%-5.3%、 3.1%-13.2% 。

总结  

本文针对3D open-vocabulary场景理解问题提出了一个统一模态表示的新架构UniM-OV3D,做到了针对3D场景数据中point、image、text及depth map四个模态的融合。为了充分学习各个模态的细粒度特征表示,本文首先设计了层次化点云特征提取器,而对于点云的caption learning问题,本文首次构建了直接从点云生成相应的文本的caption learning机制。这种统一模态的架构可以充分利用各个模态的优势,这种设计也在室内室外的各个场景中证明了有效性。因此,UniM-OV3D为3D open-vocabulary场景理解提供了一个有效的解决方案。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!

快点击进入—>【CV算法和求职】交流群


计算机视觉技术交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
可转正!腾讯微信部门诚招博士/大咖实习生多模态方向CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑个人感慨之六十二 反腐[资源] 告别哑巴英语!DK《日常场景词汇词典》带你词汇量暴涨多模态LLM多到看不过来?先看这26个SOTA模型吧Sora·创世纪·大统一模型打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!像搭积木一样创作游戏场景!腾讯发布游戏 AI 引擎 GiiNEX个人感慨之六十三 真相个人感慨之六十一 艰难探索五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升个人感慨之六十四 指明方向幻方量化开源国内首个MoE大模型,全新架构、免费商用视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力《十七帖》读议(一)Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展AI早知道|百度将免费开放长文本能力;Suno推出音乐生成模型Suno V3最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA颠覆Transformer!新架构Mamba引爆AI圈!上海内推 | 腾讯优图实验室招聘计算机视觉/多模态方向算法实习生AI早知道|淘天集团自研大模型“淘宝星辰”上线;Gemini Pro1.5向所有人开放;Suno正式发布V3音乐生成模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。