简要概述 Salesforce AI 近期联手斯坦福大学(Prof. Silvio Savarese,Prof. Juan Carlos Niebles, Prof. Jiajun Wu)和得克萨斯大学奥斯汀分校(Prof. Roberto Martín-Martín),发布了 ULIP(CVPR 2023)和 ULIP-2 项目,这些项目正在引领 3D 理解的新篇章。他们采用了独特的方法,使用 3D 点云、图像和文本进行模型的预训练,将它们对齐到一个统一的特征空间。 论文标题:ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding收录会议:CVPR 2023
论文链接:
https://arxiv.org/abs/2212.05171
项目主页:
https://tycho-xue.github.io/ULIP/
论文标题:
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
论文链接:https://arxiv.org/abs/2305.08275
代码链接:
https://github.com/salesforce/ULIP 这种方法在 3D 分类任务中取得了最先进的结果,并为跨领域任务(如图像到 3D 检索)开辟了新的可能性。并且 ULIP-2 将这种多模态预训练变得可以不需要任何人工标注,从而可以大规模扩展。代码以及发布的大规模 tri-modal 的数据集(“ULIP - Objaverse Triplets” 和 “ULIP - ShapeNet Triplets”)已经开源。
▲ 对齐(3D,图像,文本)这三种特征的预训练框架示意图。
背景 3D 理解是人工智能领域的重要组成部分,它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。然而,由于 3D 数据的处理和解释复杂性,以及收集和注释 3D 数据的成本,3D 理解一直面临着巨大的挑战。 方法 ULIP
▲ Tri-modal 预训练框架以及其下游任务。
ULIP(已经被 CVPR 2023 接收)采用了一种独特的方法,使用 3D 点云、图像和文本进行模型的预训练,将它们对齐到一个统一的表示空间。这种方法在 3D 分类任务中取得了最先进的结果,并为跨领域任务(如图像到 3D 检索)开辟了新的可能性。 ULIP 的成功关键在于使用预先对齐的图像和文本编码器,如 CLIP,它在大量的图像-文本对上进行预训练。这些编码器将三种模态的特征对齐到一个统一的表示空间,使模型能够更有效地理解和分类 3D 对象。这种改进的 3D 表示学习不仅增强了模型对 3D 数据的理解,而且还使得跨模态应用如 zero-shot 3D 分类和图像到 3D 检索成为可能,因为 3D 编码器获得了多模态上下文。 ULIP 的预训练损失函数如下:在 ULIP 的默认设置中, 被设置为 0, 和 被设置为 1。每两个模态之间的对比学习损失函数的定义如下:▲ 这里 M1 和 M2 指三个模态中的任意两个模态。 ULIP 还做了由图像到 3D 的 retrieval 的实验,效果如下:
实验结果可以看出 ULIP 预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。令人惊讶的是,相较于其他的检索到的三维模型,第一名检索到的三维模型与查询图像的外观最为接近。例如,当我们使用来自不同飞机类型(战斗机和客机)的图片进行检索(第二行和第三行),检索到的最接近的 3D 点云仍然保留了查询图像的微妙差异。 ULIP-2
▲ 这里是一个 3D 物体生成多角度文字描述的示例。首先,我们从一组视角将 3D 物体渲染成 2D 图像,然后使用大型多模态模型为所有渲染出的图像生成描述
ULIP-2 在 ULIP 的基础上,利用大型多模态模型为 3D 物体生成全方面对应的语言描述,从而收集可扩展的多模态预训练数据,无需任何人工标注,使预训练过程和训练后的模型更加高效并且增强其适应性。 ULIP-2 的方法包括为每个 3D 物体生成多角度不同的语言描述,然后用这些描述来训练模型,使 3D 物体、2D 图像、和语言描述在特征空间对齐一致。这个框架使得无需手动注释就可以创建大量的三模态数据集,从而充分发挥多模态预训练的潜力。ULIP-2 还发布了生成的大规模三模态数据集:“ULIP-Objaverse Triplets”和“ULIP-ShapeNet Triplets”。Table.1 显示了这两个 tri-modal 的 datasets 的一些统计数据。
实验结果
ULIP 系列在多模态下游任务和 3D 表达的微调实验中均取得了惊人的效果,尤其 ULIP-2 中的预训练是完全不需要借助任何人工的标注就可以实现的。ULIP-2 在 ModelNet40 的下游零样本分类任务中取得了显著的提升(74.0% 的 top-1 准确率);在真实世界的 ScanObjectNN 基准测试中,它仅用 1.4M 参数就取得了 91.5% 的总体准确率,这标志着在无需人工 3D 注释的情况下,实现了可扩展的多模态 3D 表示学习的突破。
消融实验 两篇论文均做了详尽的消融实验。 在“ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding” 中,由于 ULIP 的预训练框架有三个模态的参与,所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好,实验结果如下:
从实验结果中可以看到,在不同的 3D backbone 中,对齐三个模态一致的比只对齐两个模态好,这也应证了 ULIP 的预训练框架的合理性。 在“ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding” 中,作者探究了不同的大型多模态模型会对预训练的框架有什么影响,结果如下: