NUS团队提出X-Ray：一种看透物体的3D表示和生成模型!

2024-05-06 05:05

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/扩散/多模态】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

如今的生成式AI在人工智能领域迅猛发展，在计算机视觉中，图像和视频生成技术已日渐成熟，如Midjourney、Stable Video Diffusion [1]等模型广泛应用。然而，三维视觉领域的生成模型仍面临挑战。目前的3D模型生成技术通常基于多角度视频生成和重建，如SV3D模型[2]，通过生成多角度视频并结合神经辐射场(NeRF)或者3D高斯渲染模型（3D Gaussian Splatting技术逐步构建3D物体。这种方法主要限制在只能生成简单的、无自遮挡的三维物体，且无法呈现物体内部结构，使得整个生成过程复杂而且不完美，显示出该技术的复杂性和局限性。究其原因，在于目前缺乏灵活高效且容易泛化的3D Representation (3D表示)。

图1. X-Ray序列化3D表示

我们知道X射线能够穿透并记录关键物体内外表面信息，受到这个启发，NUS研究团队胡涛博士等人近期发布了一种全新的3D表示—X-Ray，它能够序列化地表示从相机摄像角度看过去的物体的逐层次的物体表面形状和纹理，可以充分利用视频生成模型的优势来生成3D物体，可以同时生成物体的内外3D结构。本文将详细展示X-Ray技术的原理、优势及其广泛的应用前景。

图1. 与基于渲染的3D模型生成方法比较。

项目主页：
https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html
论文地址：
https://arxiv.org/abs/2404.14329
代码地址：
https://github.com/tau-yihouxiang/X-Ray
数据集：
https://huggingface.co/datasets/yihouxiang/X-Ray

技术革新：物体内外表面的3D表示方法

X-Ray表示：从相机中心开始朝向物体方向的个矩阵点发射射线。在每条射线方向上，逐个记录与物体的表面相交点的个包含深度、法向量和颜色等的三维属性数据，然后将这些数据组织成的形式，实现任意3D模型的张量表示，这就是我们提出的X-Ray表示方法，值得注意的是，该表示形式与视频格式一样，因此我们可以用视频生成模型做3D生成模型。具体过程如下。

图2. 不同层数的X-Ray示例样本。

1. 编码过程: 3D模型转X-Ray

给定一个3D模型，通常是三维网格，我们首先设置一个相机观测该模型，然后通过光线投影算法(Ray Casting Algorithm)来记录每个相机射线与物体相交的所有表面的属性，包括该表面的深度，法向量，颜色等，为了指示方便，我们用表示该位置是否存在表面。

然后，我们获取所有相机射线等相交表面点，即可得到一个完整的X-Ray 3D表达，如下表达式和图2所示。

通过编码过程，我们讲一个任意的3D模型转化为X-Ray，它和视频格式是一样的，并且具有不同的帧数，通常情况下，帧数足够表示一个3D物体。

2.解码过程：X-Ray转3D模型

给定一个X-Ray，我们也可以通过解码过程转化回3D模型，这样我们只需要通过生成X-Ray即可生成3D模型。具体过程包括点云生成过程和点云重建表面两个过程。

X-Ray到点云：X-Ray很容易转化为点云，该点云中的每个点除了有3D点的位置坐标，还具有颜色和法向量信息。

其中分别是相机射线的起点和归一化方向，通过对每个相机射线的处理，我们就可以获得一个完整的点云。

点云到三维网格：接下来就是将点云转化为三维网格的过程，这是一个被研究了很多年的技术，因为我们的点云具有法向量，所以采用Screened Poisson 算法直接将点云转化为三维网格模型，即最终的3D模型。

基于X-Ray表示的3D模型生成

为了生成高分辨率的多样3D X-Ray模型，我们的团队使用了与视频格式相似的视频扩散模型架构。这个架构可以处理连续的3D信息，并通过上采样模块来提高X-Ray的质量，生成高精度的3D输出。扩散模型负责从噪声数据逐步生成细节丰富的3D图像，上采样模块则增强图像分辨率和细节，以达到高质量标准。结构具体如图3所示。

1. X-Ray 扩散生成模型

扩散模型在X-Ray生成中使用潜在空间，通常需要自定义开发向量量化-变分自编码器（VQ-VAE）[3] 进行数据压缩，这一缺少现成模型的过程增加了训练负担。为有效训练高分辨率生成器，我们采用了级联合成策略，通过技术如Imagen和Stable Cascaded，从低到高分辨率逐步训练，以适应有限的计算资源并提高X-Ray图像质量。

具体而言，我们使用Stable Video Diffusion中的3D U-Net架构作为扩散模型，生成低分辨率X-Ray，并通过时空注意机制从2D帧和1D时间序列中提取特征，增强处理和解释X-Ray能力，这对高质量结果至关重要。

2. X-Ray 上采样模型

前一阶段的扩散模型仅能从文本或其他图像生成低分辨率的X-Ray图像。在随后的阶段，我们着重提升这些低分辨率X-Ray至更高分辨率。我们探索了两种主要方法：点云上采样和视频上采样。由于我们已经获得了形状和外观的粗糙表示，将这些数据编码成带有颜色和法线的点云是一个很直接的过程。然而，点云表示结构过于松散，不适合进行密集预测，传统的点云上采样技术通常只是简单增加点的数量，这对于提升诸如纹理和颜色等属性可能不够有效。为了简化我们的流程并确保整个管道的一致性，我们选择使用视频上采样模型。这个模型改编自Stable Video Diffusion（SVD）的时空VAE解码器，专门从头开始训练，以4倍的因子上采样合成的X-Ray帧，同时保持原始的层数。解码器能够在帧级和层级上独立进行注意力操作。这种双层注意力机制不仅提高了分辨率，还显著改善了图像的整体质量。这些功能使得视频上采样模型成为我们在高分辨率X-Ray生成中更加协调和有效的解决方案。

图3. 基于X-Ray表示的3D模型生成框架，包括X-Ray扩散模型与X-Ray上采样模型。

实验

1. 数据集：我们的实验使用了Objaverse数据集的一个筛选子集，从中移除了缺少纹理和不充分提示的条目。这个子集包含超过60,000个3D对象。对于每个对象，我们随机选择4个摄像机视角，覆盖从-180到180度的方位角和从-45到45度的仰角，摄像机到对象中心的距离固定为1.5。然后使用Blender软件进行渲染，并通过trimesh库提供的光线投射算法生成相应的X-Ray。通过这些过程，我们可以创建超过240,000对图像和X-Ray数据集来训练生成模型。

2. 实现细节：我们的X-Ray扩散模型基于Stable Video Diffusion (SVD) 中使用的时空UNet架构，进行了轻微调整：我们的模型配置为合成8个通道：1个命中通道，1个深度通道和6个法线通道，与原始网络的4个通道相比。鉴于X-Ray成像与传统视频之间的显著差异，我们从头开始训练我们的模型，以弥补X-Ray与视频领域之间的大差距。训练在8个NVIDIA A100 GPU服务器上进行了一周。在此期间，学习率保持在0.0001，使用AdamW优化器。由于不同的X-Ray具有不同数量的层，我们将它们填充或裁剪到相同的8层，以便更好地批处理和训练，每层的帧尺寸为64×64。对于上采样模型，第L层的输出仍然是8，但每个帧的分辨率提高到256×256，增强了放大X-Ray的细节和清晰度，结果如图4和图5所示。

图4. 图像到X-Ray并到3D模型生成

图5. 文本到X-Ray并到3D模型生成

未来展望：新表示带来无限可能

随着机器学习和图像处理技术的不断进步，X-Ray的应用前景无限广阔。未来，这种技术可能会与增强现实（AR）和虚拟现实（VR）技术结合，为用户创造出完全沉浸式的3D体验。教育和训练领域也可以从中受益，例如通过3D重建提供更为直观的学习材料和模拟实验。此外，X-Ray技术在医疗影像和生物技术领域的应用，可能改变我们对复杂生物结构的理解和研究方法。我们期待它如何改变我们与三维世界的互动方式。

参考文献

[1] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. Stable video diffusion: Scaling latent video diffusion models to large datasets. CoRR, 2023.

[2] Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, Varun Jampani. SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion. arXiv preprint arXiv:2403.12008, 2024.

[3] Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu. Neural Discrete Representation Learning. NeurIPS-2017.

[4] Tao Hu, Wenhang Ge, Yuyang Zhao, Gim Hee Lee. X-Ray: A Sequential 3D Representation for Generation. arXiv preprint arXiv: 2404.14329v1, 2024.

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer5555，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

​NUS团队提出X-Ray：一种看透物体的3D表示和生成模型!

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/扩散/多模态】交流群

何恺明在MIT授课的课件PPT下载

CVPR 2024 论文和代码下载

NUS团队提出X-Ray：一种看透物体的3D表示和生成模型!

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/扩散/多模态】交流群