Redian新闻
>
多模态3D理解的新篇章:ULIP (CVPR 2023) 与ULIP-2

多模态3D理解的新篇章:ULIP (CVPR 2023) 与ULIP-2

公众号新闻

©作者 | Tycho


简要概述

Salesforce AI 近期联手斯坦福大学(Prof. Silvio Savarese,Prof. Juan Carlos Niebles, Prof. Jiajun Wu)和得克萨斯大学奥斯汀分校(Prof. Roberto Martín-Martín),发布了 ULIP(CVPR 2023)和 ULIP-2 项目,这些项目正在引领 3D 理解的新篇章。他们采用了独特的方法,使用 3D 点云、图像和文本进行模型的预训练,将它们对齐到一个统一的特征空间。

论文标题:
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding
收录会议:
CVPR 2023

论文链接:

https://arxiv.org/abs/2212.05171

项目主页:

https://tycho-xue.github.io/ULIP/


论文标题:

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

论文链接:
https://arxiv.org/abs/2305.08275

代码链接:

https://github.com/salesforce/ULIP

这种方法在 3D 分类任务中取得了最先进的结果,并为跨领域任务(如图像到 3D 检索)开辟了新的可能性。并且 ULIP-2 将这种多模态预训练变得可以不需要任何人工标注,从而可以大规模扩展。代码以及发布的大规模 tri-modal 的数据集(“ULIP - Objaverse Triplets” 和 “ULIP - ShapeNet Triplets”)已经开源。

▲ 对齐(3D,图像,文本)这三种特征的预训练框架示意图。




背景

3D 理解是人工智能领域的重要组成部分,它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。然而,由于 3D 数据的处理和解释复杂性,以及收集和注释 3D 数据的成本,3D 理解一直面临着巨大的挑战。



方法

ULIP

▲ Tri-modal 预训练框架以及其下游任务。


ULIP(已经被 CVPR 2023 接收)采用了一种独特的方法,使用 3D 点云、图像和文本进行模型的预训练,将它们对齐到一个统一的表示空间。这种方法在 3D 分类任务中取得了最先进的结果,并为跨领域任务(如图像到 3D 检索)开辟了新的可能性。

ULIP 的成功关键在于使用预先对齐的图像和文本编码器,如 CLIP,它在大量的图像-文本对上进行预训练。这些编码器将三种模态的特征对齐到一个统一的表示空间,使模型能够更有效地理解和分类 3D 对象。这种改进的 3D 表示学习不仅增强了模型对 3D 数据的理解,而且还使得跨模态应用如 zero-shot 3D 分类和图像到 3D 检索成为可能,因为 3D 编码器获得了多模态上下文。

ULIP 的预训练损失函数如下:

在 ULIP 的默认设置中, 被设置为 0, 被设置为 1。每两个模态之间的对比学习损失函数的定义如下:

▲ 这里 M1 和 M2 指三个模态中的任意两个模态。

ULIP 还做了由图像到 3D 的 retrieval 的实验,效果如下:


实验结果可以看出 ULIP 预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。令人惊讶的是,相较于其他的检索到的三维模型,第一名检索到的三维模型与查询图像的外观最为接近。例如,当我们使用来自不同飞机类型(战斗机和客机)的图片进行检索(第二行和第三行),检索到的最接近的 3D 点云仍然保留了查询图像的微妙差异。

ULIP-2

▲ 这里是一个 3D 物体生成多角度文字描述的示例。首先,我们从一组视角将 3D 物体渲染成 2D 图像,然后使用大型多模态模型为所有渲染出的图像生成描述


ULIP-2 在 ULIP 的基础上,利用大型多模态模型为 3D 物体生成全方面对应的语言描述,从而收集可扩展的多模态预训练数据,无需任何人工标注,使预训练过程和训练后的模型更加高效并且增强其适应性。

ULIP-2 的方法包括为每个 3D 物体生成多角度不同的语言描述,然后用这些描述来训练模型,使 3D 物体、2D 图像、和语言描述在特征空间对齐一致。这个框架使得无需手动注释就可以创建大量的三模态数据集,从而充分发挥多模态预训练的潜力。ULIP-2 还发布了生成的大规模三模态数据集:“ULIP-Objaverse Triplets”“ULIP-ShapeNet Triplets”。Table.1 显示了这两个 tri-modal 的 datasets 的一些统计数据。




实验结果


ULIP 系列在多模态下游任务和 3D 表达的微调实验中均取得了惊人的效果,尤其 ULIP-2 中的预训练是完全不需要借助任何人工的标注就可以实现的。ULIP-2 在 ModelNet40 的下游零样本分类任务中取得了显著的提升(74.0% 的 top-1 准确率);在真实世界的 ScanObjectNN 基准测试中,它仅用 1.4M 参数就取得了 91.5% 的总体准确率,这标志着在无需人工 3D 注释的情况下,实现了可扩展的多模态 3D 表示学习的突破。




消融实验

两篇论文均做了详尽的消融实验。

在“ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding” 中,由于 ULIP 的预训练框架有三个模态的参与,所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好,实验结果如下:



从实验结果中可以看到,在不同的 3D backbone 中,对齐三个模态一致的比只对齐两个模态好,这也应证了 ULIP 的预训练框架的合理性。

在“ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding” 中,作者探究了不同的大型多模态模型会对预训练的框架有什么影响,结果如下:


实验结果可以看出,ULIP-2 框架预训练的效果可以随着使用的大型多模态模型的升级而提升,具有一定的成长性。

在 ULIP-2 中,作者还探索了在生成 tri-modal 的数据集是采用不同数量的视角会如何影响整体预训练的表现,实验结果如下:



实验结果显示,随着使用的视角数量的增加,预训练的模型的 zero-shot classification 的效果也会随之增加。这也应证了 ULIP-2 中的观点,更全方位多样性的语言描述会对多模态预训练有正向的作用。

除此之外,ULIP-2 还探究了取 CLIP 排序过的不同 topk 的语言描述会对多模态预训练有什么影响,实验结果如下:


实验结果表明:ULIP-2 的框架对不同的 topk 有一定的鲁棒性,论文中采用了 top 5 作为默认设置。



结论

由 Salesforce AI,斯坦福大学,得克萨斯大学奥斯汀分校联手发布的 ULIP 项目(CVPR 2023)和 ULIP-2 正在改变 3D 理解领域。ULIP 将不同的模态对齐到一个统一的空间,增强了 3D 特征的学习并启用了跨模态应用。ULIP-2 进一步发展,为 3D 对象生成整体语言描述,创建并开源了大量的三模态数据集,并且这个过程无需人工标注。这些项目在 3D 理解方面设定了新的基准,为机器真正理解我们三维世界的未来铺平了道路。


About Us

关于作者

1

Salesforce AI

Le Xue(薛乐),Mingfei Gao(高明菲),Chen Xing(星辰),Ning Yu(于宁),Shu Zhang(张澍),Junnan Li(李俊男),Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles,Silvio savarese 


2

斯坦福大学

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吴佳俊) 


3

UT Austin

Prof. Roberto Martín-Martín


欢迎在 Twitter 上关注我们:@SFResearch @Salesforce。如果您有任何问题或想要进一步了解,可以通过电子邮件联系 Le Xue,邮箱地址为 [email protected]


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纯随机数学无限生成逼真3D世界火了!普林斯顿华人一作|CVPR 20232023 春季欧洲游 2. 9天环游瑞士CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3D零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作|CVPR‘23六十七 “楚辞”【附PDF】整理了114篇医疗论文,含cvpr2023医疗论文+经典论文+医疗论文综述等NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!2023 春季欧洲游 3. 法国的卢瓦尔河谷和诺曼底对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023数据库行业的新篇章:国产化发展潜力几何?从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统【加勒比蓝/热带雨林/古堡/溶洞/荧光海】2023 波多黎各Puerto Rico环岛之旅【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」俄乌战况22第二章 文明的产生和发展 (3)ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA5095 血壮山河之武汉会战 浴血田家镇 3六十八 退休CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了大咖齐聚,中外专家共话不典型哮喘诊治新篇章 | ERS 2023上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生CVPR 2023 | 掩码图像建模MIM的理解、局限与扩展用语言建模世界:UC伯克利多模态世界模型利用语言预测未来一只鼠头引起的一场娱乐CTS和GINA再度线下重聚,共翻哮喘管理新篇章 | ERS 2023CVPR 2023上AIGC大爆发!46篇论文、代码和数据集汇总智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型CVPR 2023|All in UniSim:统一的自动驾驶仿真平台CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别CVPR上的新顶流:BEV自动驾驶感知新范式多模态大语言模型综述来啦!一文带你理清多模态关键技术首个感知决策一体化自动驾驶通用大模型!商汤联合团队获CVPR 2023最佳论文腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023ESC 2023热点指南解读 | 葛均波院士:非奈利酮开启心肾共治新篇章!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。