Redian新闻
>
武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!

武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割和Transformer】交流群

作者:大瓶子(源:知乎,已授权)| 编辑:CVer

https://zhuanlan.zhihu.com/p/660264998

在CVer微信公众号后台回复:FreeReg,可以下载本论文pdf、代码,学起来!

介绍一下我们最新开源的工作:FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators. 给定部分重叠的图像和点云,FreeReg能够估计可靠的像素-三维点同名关系并解算图像-点云相对位姿关系。值得注意的是,FreeReg不需要任何训练/微调!

基于FreeReg估计的准确的同名关系,我们可以把图像patch投影到点云的对应位置:

主页:https://whu-usi3dv.github.io/FreeReg/

代码:github.com/WHU-USI3DV/FreeReg

论文:https://arxiv.org/abs/2310.03420

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用发论文强推!

太长不看(TL,DR):

区别于现有方法利用Metric Learning直接学习跨模态(图像和点云)一直特征,FreeReg提出首先进行基于预训练大模型的模态对齐,随后进行同模态同名估计:

  • Diffusion大模型实现点云到图像模态的统一并构建跨模态数据的粗粒度鲁棒语义特征,

  • 单目深度估计大模型实现图像到点云模态的统一并刻画跨模态数据的细粒度显著几何特征,

  • FreeReg通过融合两种特征,无需任何针对图像-点云配准任务的训练,实现室内外图像-点云配准SoTA表现。

任务概述:图像-点云(Image-to-point cloud, I2P)配准

  • 输入:部分重叠的图像和点云

  • 输出:图像相机相对于点云的位置姿态

  • 典型框架:

    • Step I (关键) : 构建图像-点云跨模态一致特征

    • Step II: 基于特征一致性的 pixel(from 图像)-point(from 点云) 同名估计

    • Step III: 基于所构建同名匹配的相对姿态估计 (PnP+RANSAC)

FreeReg和现有方法的比较?
  • 现有方法往往是:用一个2D特征提取网络提取图像特征;用一个3D特征提取网络提取点云特征;然后根据pixel-to-point对应关系真值通过Metric Learning (Triplet/Batch hard/Circle loss/InfoCE...)的方式训练网络去提取跨模态一致的特征,这存在几个问题:

  • 图像和点云存在故有的模态差异:图像-纹理、点云-几何,这给网络可靠收敛带来了困难,而影响特征的鲁棒性(Wang et al, 2021);

  • 需要长时间的训练 (Pham,2020);

  • 场景间泛化能力弱 (Li,2023)。

  • FreeReg:

  • 通过预训练大模型实现模态对齐,消除模态差异,显著提升特征鲁棒性;

  • 不需要任何针对I2P配准任务的训练/微调;

  • 能够处理室内外等多类型场景。

FreeReg pipeline:

Section I: FreeReg-D

在这一部分,我们首先利用Diffusion大模型将点云对齐到图像模态,然后基于图像模态下的特征进行同名估计。Naive Solution:利用现在图像生成大杀器的ControlNet (Zhang et al, 2023; depth-to-image diffusion model)实现从点云(深度图)中渲染出一个图像,然后和query图像做match不就行了?不行!如下图,一个depth map可能对应各种各样的RGB图像,ControlNet基于点云渲染出来的图像合理,但是和query input image差异忒大,match不起来。

但是,我们注意到,ControlNet虽然生成的纹理和query差异很大,但是语义很正确而且和query RGB是对应的,那么我们怎么提取这种跨模态一致的语义特征呢?受到相关研究的启发(Mingi et al, 2022)一种基于Diffusion大模型的多模特Diffusion Feature

Diffusion Feature提取
  • RGB image diffusion feature:预训练图像生成大模型Stable Diffusion (SD,Dhariwal et al,2022)能够通过迭代T步去噪的方式从纯噪声生成一张符合某种text-prompt(包含一些代表语义的名词)的图像,证明它能认识、区分和表征这些语义。而我们就把图像加上一些噪声让SD去处理,然后看看哪些SD深层特征具有语义性。

  • Depth diffusion feature:我们用预训练的ControlNet处理来自点云投影的深度图,并基于其引导SD的图像生成(迭代去噪)过程使生成的图像符合深度图,当去噪到某种程度时候我们把SD的中间层特征拿出来,看看哪些特征保证了生成图像不仅符合深度图而且语义性也是对的。

  • 如上图的c,我们发现,SD的0-6层输出特征具有可靠的语义性和跨模态一致性!后面的特征才关注纹理。所以我们之用0-6层的特征(我们最终选择concate0,4,6层的特征)作为我们的语义特征就好了,叫做Diffusion Feature!

Section II: FreeReg-G

在这一部分,我们利预训练的单目深度估计网络Zoe-Depth (Bhat et al, 2023)去恢复input RGB的深度,并将其恢复到3D点云分布,然后对RGB恢复的点云和input点云分别提取几何特征(Geometric feature, Choy et al, 2019)用于match。此外,由于match得到的同名关系存在于点云空间,我们的变换估计可以采用Kabsch算法而非PnP方法,Kabsch利用Zoe-depth预测深度的约束可以仅使用3对同名关系就实现变换解算,更高效、更可靠,但是受到Zoe的影响不太精准(具体可以间我们的原文)。

Section III: FreeReg = FreeReg-D + FreeReg-G

在这一部分,我们融合前面在不同模态空间中提取的Diffusion Feature和Geometric Feature,作为我们最终的跨模特特征。如下图所示:

  • Diffusion Feature具有很强的语义相关性和跨模特一致的可靠性,但是因为语义信息关联自图像的比较大的区域,这种大感受野使得基于特征相似性和双向最近邻筛选得到的pixel-to-point同名对准确但是稀疏。

  • Geometric Feature能够关注几何细节构建更加dense的pixel-to-point correspondences,但是很容易受到zoe-depth预测误差和噪声的影响,导致得到的pixel-to-point同名对存在大量的outliers。

  • 通过Fuse两种特征(L2 normalization + weighted concatenate, Zhang et al, 2023),FreeReg特征兼具语义可靠性和几何显著性,得到了更加可靠且dense的pixel-to-point correspondences!

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用发论文强推!

实验结果:

定性评价:得益于大模型模态对齐,FreeReg-D/G在没有任何训练和微调的情况下,就在室内外三个数据集上取得了SoTA表现,而FreeReg进一步提升算法表现,取得了平均20%的内点比例提升和48.6%的配准成功率提升!

定量评价:

更多的结果:实现细节、消融实验、精度评价、同模态配准表现(也是SoTA!)、和同期工作的比较(FreeReg更优)、尚存问题请见我们的论文!

代码也已经开源,如果您觉得还可以,帮我们点一个star吧!谢谢!!!

参考文献:

  • Wang B, Chen C, Cui Z, et al. P2-net: Joint description and detection of local features for pixel and point matching[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 16004-16013.

  • Pham Q H, Uy M A, Hua B S, et al. Lcd: Learned cross-domain descriptors for 2d-3d matching[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11856-11864.

  • Li M, Qin Z, Gao Z, et al. 2D3D-MATR: 2D-3D Matching Transformer for Detection-free Registration between Images and Point Clouds[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 14128-14138.

  • Zhang L, Rao A, Agrawala M. Adding conditional control to text-to-image diffusion models[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 3836-3847.

  • Dhariwal P, Nichol A. Diffusion models beat gans on image synthesis[J]. Advances in neural information processing systems, 2021, 34: 8780-8794.

  • Mingi Kwon, Jaeseok Jeong, and Youngjung Uh. Diffusion models already have a semantic latent space. In ICLR, 2022.

  • Bhat S F, Birkl R, Wofk D, et al. Zoedepth: Zero-shot transfer by combining relative and metric depth[J]. arXiv preprint arXiv:2302.12288, 2023.

  • Choy C, Park J, Koltun V. Fully convolutional geometric features[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 8958-8966.

  • Zhang J, Herrmann C, Hur J, et al. A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence[J]. arXiv preprint arXiv:2305.15347, 2023.

在CVer微信公众号后台回复:FreeReg,可以下载本论文pdf、代码,学起来!

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens萧萧千禧梦 第五章 成长之苦 (12)NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了尤利西斯的《忧伤三角》(7)一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!看电影孤注一掷 & 吃火锅让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider《忘记他》 &《The Joker and the Queen》by 蜀风雅韵画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解《情人的眼泪》& 介绍一位呱呱叫的音乐老师NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!无悔还是反思?——情感漫谈之四媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA狙击扩散模型!谷歌&伯克利提出IGN:单步生成逼真图像!NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!部分旧版Chase Freedom用户被强制“暖心升级”成Chase Freedom Unlimited"回家的路上",见梧桐相吻 (并致谢Richie & 心雨烟尘 )萧萧千禧梦 第五章 成长之苦 (11)Young Chinese Street Vendors Toil for Friendship, Freedom美丽的圣彼得堡冬宫ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻9/11,后撞的南塔为何早46分倒?及本世纪最英勇华裔 &《WB翅膀》北京内推 | 百度文心(ERNIE)团队招聘大模型预训练方向实习生ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。