Redian新闻
>
ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络

ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【3D点云和Transformer】交流群

本文介绍我们在ICCV 2023上接收的论文《PointCLIP V2: Adapting CLIP for Powerful 3D Open-world Learning》。

论文:https://arxiv.org/abs/2211.11682
开源代码(已开源):
https://github.com/yangyangyang127/PointCLIP_V2
如下图,与baseline PointCLIP相比,本文方法在3个不同数据集的zero-shot分类准确率上,有了提升显著。

1. 概述

问题:当前,大规模数据预训练极大地提高了2D图像的open-world识别能力。但在3D领域,由于没有足够的可训练数据,各种3D open-world任务进展缓慢且性能较低如PointCLIP,所以提升3D open-world任务的性能是一个重要问题,这些任务包括zero-shot的分类,分割和检测等。

出发点:最近一段时间,大规模图像-文本预训练取得了较大的进步,比如CLIP,BLIP之于各种2D任务;同时大语言模型如GPT-3在文本理解上也有所突破。因此我们提问:是否能够结合图像文本模型和大语言模型来解决3D open-world任务?更具体地,能否实现CLIP + GPT-3 => 3D open-world tasks?

主要方法:为了结合两者,我们将3D点云投影成接近真实的2D图像,并使用GPT-3产生富含3D描述的文本,从而提升两种模态的匹配度。我们的实验证明,结合CLIP和GPT-3的方法,在3D open-world任务上取得了较好的性能,这些任务包括zero-shot和few-shot 3D classification,以及更一般的zero-shot 3D segmentation和3D detection任务。综上所述,论文的整体思路可以表示为下图:

2. 方法

为了将点云适配到图像和文本,我们基于PointCLIP主要做了两点改进,这两点改进对应于CLIP的两个编码器:

 (1) 对于视觉编码器,设计了新的投影模块将点云投影成更加真实的深度图;

 (2) 对于文本编码器,使用GPT-3产生包含丰富形状描述的文本。

以上的两点改进虽然简单但能够用于不同的任务,我们在zero-shot和few-shot 3D classification,zero-shot 3D segmentation, 和3D detection任务上验证。综合以上,论文整体的框架如下图所示,输入部分(左边)是两点改进,输出部分(右边)对应于不同的任务。

2.1 深度图合成

对于一个点云,我们主要通过量化(体素化),稠密化,平滑和维度压缩合成出一个比较贴近真实的深度图。首先一个不规则的点云被体素化,产生一个稀疏的3D网格,然后我们使用池化操作把网格变得稠密,接着我们使用高斯平滑消除噪声,最后在深度这个维度进行压缩,从3D网格得到一张2D图像。整体流程如下图左所示,最后的深度图与散点图相比,更加贴近现实中的深度图(图右)。

2.2 文本描述生成

大部分基于CLIP的工作都使用了形如“a photo of a {CLASS}.”的普通文本模板,这在一定程度上较为低效。考虑到当前大预言模型已经具有较强的文本生成能力,因此我们试图用GPT-3产生具有形状描述的prompt. 我们使用4种形式的命令激励GPT-3。(1)命令型,如:“Describe a depth map of a [window]:”;(2)疑问型,如:“How to describe a depth map of a [table]?”;(3)同义句,如:“Generate a synonym for the sentence: A grayscale depth map of an inclined [CLASS].”;(4)组词成句,如:“Make a sentence using these words: a [table], depth map, obscure.”。

使用GPT-3产生的文字描述能够与图像产生更好的匹配,如下图右的attention map所示。

2.3 Open-world任务

我们将CLIP和GPT-3结合用于多种open-world的3D任务,包括3D zero-shot分类, 3D few-shot分类, 3D zero-shot segmentation和3D detection。

对于分割任务,我们在深度图上完成分割然后反映射到3D点云上,主要包括part segmentation和scene segmentation。对于检测任务,我们使用一个预训练的region proposal network产生3D框,并使用我们的方法作为一个open-world的分类头进行分类。

3. 结果

在ModelNet10, ModelNet40, ScanObjectNN的三个子数据集上的zero-shot分类结果在下表中,我们达到了当前的SOTA结果。

在ModelNet40和ScanObjectNN的三个子数据集上的few-shot分类结果,相比于之前的方法也获得了提升。

在zero-shot分割任务上,我们尝试了part和scene的分割,结果分别如下。因为当前没有类似的设定,因此我们只和PointCLIP做了比较。

在3D detection任务上,在ScanNet V2上的结果如下所示。

感谢您的阅读,更多的实现细节和比较请看我们的文章,我们的代码已开源。感谢您提出宝贵意见。

点击进入—>【3D点云和Transformer】微信交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

3D点云和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-3D点云或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如3D点云或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集wow! Tom Hanks Presidential Harvard Speech Motivational Inspirat战国故事《定风波》卷二(4):家宴阿大提出:视听分割合成新数据集和声音图像分割新网络CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRESGPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收life is sacred.The legend George Carlin 1996 - Back in townCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割CVPR 2023 Workshop | 华为自研IPT-V2斩获NTIRE挑战赛图像去噪Track冠军微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测人为什么会衰老 (2023ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOPICCV 2023 | 动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割我和GPT聊父亲:如何度过老爸离世后的30年Tour de l’ile de Montréal 2023ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS记录小园春秋 杜鹃花CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 OralICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测官宣8月29日!OPPO Find N3 Flip和OPPO Watch 4 Pro同台发布ICCV 2023 | HoP:即插即用,重塑3D检测时序利用新范式ICCV 2023 | K400首次90%准确率!UniFormerV2开源:基于ViT的高效视频识别暑期小班直播!将故事类、科普类、写作类、加州语文类一网打尽三维点云的开放世界理解,分类、检索、字幕和图像生成样样行加拿大留学知识,Co-op和in placement的区别?ICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS西湖塔影 ---- 词、曲:66的山梁告急:GPT Plus和GPT普通号!俄乌战况24为你今天买到TCVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。