Redian新闻
>
统一所有模态的3D范式来了!Any2Point:仅需训练1%的参数量,超越SOTA!

统一所有模态的3D范式来了!Any2Point:仅需训练1%的参数量,超越SOTA!

科技

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和3D视觉】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

论文标题: Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding

作者单位:上海人工智能实验室,北京大学,西北工业大学,中国电信

代码:https://github.com/Ivan-Tang-3D/Any2Point

论文:https://arxiv.org/pdf/2404.07989

现有的框架主要针对2D预训练模型迁移到3D领域而设计,缺乏通用的任意模态迁移到3D的统一范式。本文介绍了一种参数高效的Any2Point框架,解决了目前空间几何损失和高计算成本的限制,可使任何模态的大模型(视觉、语言、音频)进行3D理解, 仅需训练1%的参数量就可以在下游任务上实现超越目前SOTA的性能结果!

一.背景和动机

              

由于缺乏大规模的3D数据,3D基础模型的研究相对于语言和2D视觉明显滞后。获取和标注高质量3D数据需要昂贵的资源和人力,而合成3D数据则分布多样性不足。因此,一些工作将预训练模型从其他模态(主要是2D视觉)转移到3D模态。现有的2D模态迁移到3D的工作可以分为两类。1. 数据模态转换。这种方法涉及将 3D 点云投影到 2D 图像,随后将其输入到 2D 预训练模型中,模态转换过程不可避免地会导致 3D 数据中空间信息的丢失。2. 跨模态知识蒸馏。这些方法涉及从 2D 或视觉语言模型到3D模型的预训练知识转移。它们不仅需要在训练过程中前向传播 2D 和 3D 模型,而且高度依赖大规模配对的 2D-3D 数据。因此,我们提出一个问题:能否开发一种通用的任意模态到 3D 范式,使任意模态大型模型能够实现高效的点云理解?

为了解决这一问题,我们提出了Any2Point,一个统一的任意模态到3D框架,采用参数高效微调(PEFT)将任何1D(语言)或2D(图像/音频)大模型迁移到3D领域。与之前的方法不同,我们的Any2Point避免了点云投影,从而减少了3D信息的损失,并直接对源模态的预训练模型进行微调。广泛的实验表明,我们的Any2Point框架在各种任务中的性能超越了当前的3D预训练模型,同时只使用了1.0%的可训练参数。通过利用预训练的CLIP文本编码器,Any2Point仅微调了0.9M参数,就在ScanObjectNN上达到了91.9%,并在ModelNet40上达到了94.3%。我们的贡献如下:

1. 提出了一个名为Any2Point的统一跨模态PEFT框架,将预训练的大型模型从任何模态(如2D视觉、语言和音频)转移到3D点云任务。

2. 引入了两种技术,即3D到任意模态的虚拟投影和任意模态到3D引导的适配器,有效克服了当前方法中的3D几何信息损失和资源消耗过大等问题。

3. Any2Point在多种任务中的表现优于以往的SOTA 3D预训练模型。

二.方法

      

总体流程:给定来自任何模态(如视觉、语言和音频)的预训练Transformer,我们寻求一种参数高效的解决方案以避免全参数量微调,因为庞大的参数量可能会导致高计算成本和在有限的3D数据集上过度拟合的问题。

为了编码输入的点云,我们放弃了原始Transformer中的嵌入模块,采用一个3D小型网络进行点云标记化。在此基础上,编码的3D Token首先被输入到一个3D到任意模态的虚拟投影模块进行位置编码,然后输入到带有任意模态到3D引导适配器的冻结的Transformer Block中。前者机制旨在为每个3D Token分配源模态(1D/2D)内的位置信息,后者设计用于适应性1D/2D引导的3D表征学习。值得注意的是,只有最初的标记化网络和插入的适配器是可学习的。

   

3D到任意模态的虚拟投影模块: 因为预训练模型是与其原始的1D/2D空间中的位置编码一起预训练的,这导致了冻结的1D/2D权重与新学习的3D 位置编码之间的语义差异。为了解决这个问题,我们将3D Token虚拟投影到源模态,并获得相应的1D/2D 位置编码以更好地与模型对齐。对于2D视觉和音频模态中的Transformer,我们将每个3D Token虚拟投影到M个视图,得到相应的2D坐标。M个不同的视角能够提供2D空间内的多样位置关系。我们不真正生成投影的多视图图像,而只是旨在获得虚拟的2D位置。然后,我们为每个3D Token分配M个不同的2D位置编码,表示为。类似地,对于语言模态中的1D Transformer,我们将3D坐标虚拟投影到不同的1D线上。为简单起见,我们假设点云中心为原点,M条线的单位方向向量为,并将3D点坐标向量化。然后,3D点在1D线上坐标由方向向量和点坐标向量点积给出。通过这种方式,每个3D Token分配M个不同的1D位置编码,表示为。获得相应的1D/2D 位置编码后,我们将它们平均为一个整体位置指示器,并将其与3D Token相加结合。

任意模态到3D引导适配器: Transformer的自注意力机制通常专注于全局上下文中的长距离标记交互,然而精细的空间几何也对3D形状的细粒度理解至关重要。为了弥补这一差距,我们利用所提出的适配器层专门捕获局部邻域内的3D语义。此外,由于预训练模型由1D/2D位置编码驱动,原始的FPS和K-NN用于3D局部分组可能会导致位置不一致。因此,我们进一步设计了一个1D/2D引导的聚合策略和一个适应性任意模态到3D集成方法以实现健壮的3D细粒度编码。1D/2D引导的聚合策略: 在适配器内,首先根据1D/2D位置先验将3D Token分组到不同的局部邻域中,以更好地对齐采用的1D/2D位置编码。对于M个不同的视图/线条,我们进行M个并行的局部聚合过程以充分利用不同的投影视角。具体来说,对于2D Transformer,我们将每个虚拟投影的图像划分为均匀的局部2D块,并根据它们的2D位置将同一块内的3D Token聚集到一个邻域中。对于1D Transformer,我们类似地将每条虚拟投影的线划分为均匀的局部1D段,并根据它们的1D位置将不同段内的3D Token聚集到不同的邻域中。在此基础上,我们采用池化和传播操作将局部聚集的特征传播到同一邻域内的每个点。适应性任意模态到3D集成方法: 在并行的局部聚合之后,我们获得了M组3D Token,每组代表一个2D视图或1D线条,我们要将每个Token的M个特征聚合起来。为了适当地指示每个视图/线条的相对重要性,我们另外采用一个独立的3D特征转换分支。这个非参数分支只包含3D空间的局部分组、组内的特征平均池化和传播操作,将输出作为特征基线和M组3D Token通过余弦相似度计算不同视图/线条的相对权重,并最终聚合它们的特征,获得最终输出。   

三.实验

结果如表所示:

1. 在3D真实世界物体数据集ScanObjectNN上,Any2Point框架基于语言(CLIP-Text)、2D视觉(DINO V2-B)和音频(ImageBind-Audio)模态分别达到91.9%、87.7%和87.0%的准确率。与先前的最佳方法(ReCon)相比,使用1D语言预训练的Any2Point在仅有0.9M可学习参数的情况下提高了1.3%。对于2D(视觉/音频)模态,Any2Point显著优于仅在3D数据集上预训练的最佳方法Point-M2AE,分别提高了0.6%和1.3%。

2. 在3D合成物体数据集ModelNet40上,通过语言、2D视觉和音频模态,我们的Any2Point框架分别达到94.3%、93.2%和92.7%。我们的框架仅使用1D语言模态中的一个预训练模型,比之前的最佳方法(ReCon)提高了0.2%,并减少了42.7M可学习参数。

3. 令人惊讶的是,无论是在ScanObjectNN还是ModelNet40数据集上,Any2Point框架都保持了1D模态(语言)表现优于2D模态(图像和音频)的性能趋势。为了进一步验证我们的发现,我们在ScanObjectNN数据集的“PB-T50-RS”上选择RoBERTa(1D)、DeiT(2D Vision)和SSAST(音频)作为预训练模型,微调设置与我们之前的实验一致。这些模型的性能分别为 89.7%、87.3% 和 87.1%。观察到跨模态的性能趋势:1D语言 > 2D视觉 > 2D音频。我们怀疑,由于预训练数据的原因,大型语言模型与其他模态相比拥有更强的语义信息,这有利于深入理解不同的3D对象。   

如表所示,与提示调整(Prompt Tuning)相比,Any2Point实现了2.8%和1.3%的提升;与适配器调整(Adapter Tuning)相比,实现了2.3%和1.8%的提升;与低秩适应(LoRA)相比,它分别实现了5.6%和2.6%的提升。与其他方法不同,我们的框架利用1D/2D空间引导来聚集3D Token的局部语义,捕获3D对象的局部细粒度信息。

四.结论

Any2Point支持任意模态的预训练大模型(例如 2D 视觉、语言和音频)实现高效的 3D 理解。在Any2Point框架中,我们引入了两种技术,即3D到任意模态虚拟投影和任意模态到3D引导适配器,以提取 3D 结构知识,同时有效地微调预训练模型。这使我们能够克服当前方法中的问题,例如 3D 几何损失和资源成本过高。与之前的SOTA 3D预训练模型相比,Any2Point具有卓越的性能和效率, 仅用一小部分可训练参数即可取得显著的结果。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和医学影像交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和医学影像微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者医学影像+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
灌水理论:5. 其实我是被高富美凡尔赛文启发或刺激CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同图灵奖得主Bengio:突破大模型当前局限,需要超越Scaling Law的新方法静冈温泉旅馆:仅需3.5亿,错过不再!手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少科学家培育出牛肉-水稻的“杂交”大米超越Sora极限,120秒超长AI视频模型诞生!3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!一个决定宇宙命运的参数华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建ICML 2024 | 即插即用!无需训练!基于球面高斯约束引导的条件扩散模型奥斯卡影片《美国小说》:与这个肤浅的世界慢慢和解CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | CLIP当成RNN!无需训练即可分割无数概念|牛津&谷歌新作CaR无需3D数据也能训练,港科&港中文联手华为推出3D自动驾驶场景生成模型Int J Pharm | 开发出新型装载药物的3D打印薄膜助力精准打击肝癌,重塑癌症治疗未来Reasoning3D:用大语言模型开启3D世界理解与交互的新篇章长篇小说《太门西》连载68:第23章:血战君山(2)“所想即所得”变革3D分割!浙大等团队联合推出基于LLM的3D物品分割道理给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了今日arXiv最热大模型论文:Agent也疯狂!FoA方法对智能体做树结构搜索,超越ToT面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。