NeurIPS 2023 | 单张图片3D数字人重建新SOTA！浙大&悉尼科技大学发布GTA

2024-01-06 16:01

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【三维重建】微信交流群

扫码加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文搞科研，强烈推荐！

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

图1 输入一张图片，论文模型GTA能够重建出图片中人物的3D几何模型与纹理，并且能够用于驱动、虚拟试穿等多种应用。

本文介绍发表在NeurIPS 2023上的单张图片3D数字人重建工作。研究团队来自浙江大学 ReLER 实验室和悉尼科技大学，他们提出了一种名为 GTA（Global-correlated 3D-decoupling Transformer）的新型Transformer，专门用于从单张图片中重建穿着衣服的3D数字人。GTA 采用先进的3D特征解耦技术，结合全局关联特征，以提高重建的准确性和细节丰富度。这项工作不仅为3D数字人重建设定了新的标准，也为虚拟现实和数字娱乐领域带来了新的应用前景。

论文标题：Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction

作者单位：浙江大学ReLER实验室，悉尼科技大学

录用信息：NeurIPS 2023

代码：https://github.com/River-Zhang/GTA

论文：https://arxiv.org/abs/2309.13524

一、针对问题

尽管当前技术在使用单张图片进行三维穿衣人体模型重建方面已经取得了显著的进展，但在实践中，我们仍然面临着两个主要的挑战：

首先是对2D图像特征的过度依赖。目前的方法大多仅仅依赖于基于CNN的2D特征提取，这种做法由于缺乏全局相关性，往往会降低三维重建的准确性。虽然大多数方法尝试融合了源自人体先验的3D特征，但在处理宽松衣物和具有挑战性的姿势时，它们的表现参差不齐，这暴露出整合程度上的不足。

其次是查询方法的不一致性。目前的查询特征策略不仅各有所长，也各有不足。像素对齐方法（pixel-align）虽然能直接将查询点投影到特征图上，但这种方法缺乏对人体先验的考虑。而先验引导策略虽然在人体模型先验上整合了特征，却可能导致原始图像中细节信息的丢失，进而影响三维模型重建的精确度。

图注：论文模型（GTA）与当前SOTA模型重建效果对比

二、核心思想

在考虑到之前讨论的限制之后，研究者指出，单纯依赖2D特征图对于三维重建任务来说是远远不够的。相比之下，一种全局相关的3D特征表示法能提供一个更加有效的解决方案。

传统的三维表示方法通常需要大量存储空间且处理效率低下。鉴于这种情况，采用更高效的表示方式，如三平面模型，显得尤为重要。然而，从单一图像中提取出全局相关的三维表示依然是一项挑战，特别是在获取不同正交平面的特征图时。为此，本论文采用了一种创新的方法：通过可学习的嵌入表征和交叉注意力机制来有效地模拟复杂的跨平面关系。这种方法使得三维特征的提取更加稳定和精确。

此外，开发出一种既简单又高效的策略，用以融合不同的查询方法，对于优化整个系统来说也是极其关键的。研究者结合了现有的三维特征策略，并巧妙地利用了局部空间特征和人体结构的先验知识，实现了一个平衡的特征提取过程。这不仅增强了模型的重建性能，也为三维重建技术的未来发展提供了新的视角。

三、模型结构

图注：模型结构

研究团队提出了一个创新的模型，它主要由两个核心模块构成。首先，为了有效地提取三维特征，研究团队设计了一个独特的“全局关联性3D解耦Transformer”。这个模块利用全局Encoder来捕捉图像的二维特征，并采用可学习的嵌入表示作为交叉注意力机制的查询输入。这种设计使得Decoder能够从原始图像特征中解耦出三维空间的不同平面特征，具体包括xz平面和yz平面。至于与输入图像位于同一xy平面的特征，则通过一个基于自注意力机制的Decoder来提取。

其次，为了应对查询方法的不一致性问题，研究者们提出了一种创新的“先验混合查询策略”。当模型获取到三维空间中的各个平面特征后，它会将这些特征在通道维度上均等分成两部分。对于其中的一个部分，模型采用像素对齐方法来捕捉特征，即将空间中的查询点投影到每个平面上以获取相应的特征。而对于另一部分，则采用先验引导的方法，即首先将三维平面特征通过像素对齐的方式映射到一个先验的人体模型（如SMPL）上，然后通过质心坐标插值的方法将这些特征转移到查询点上。最终，这两种查询方法得到的特征被结合起来，并输入到一个多层感知器（MLP）中，用于预测隐式场。

图注：先验混合查询策略

四、实验结果

在本研究中，研究者们在THuman2.0数据集上对模型进行了训练，并通过一系列精确的定量测试。结果显示，在复杂的几何和纹理重建任务上，该模型显著超越了当前的最先进（SOTA）技术。特别是在CAPE-FP测试数据集上，模型在降低Chamfer Distance方面取得了显著的突破，首次将其减少到0.8厘米以下。此外，模型在侧视角法向的重建性能上也展现出了卓越的表现，这不仅证实了该方法在重建高精度3D穿衣人体化身方面的有效性，也标志着在这一领域的一大进步。

图注：几何重建定量测量指标

图注：纹理重建定量测评指标

图注：侧视角法向重建评估

此外，研究者也将模型应用于从互联网获取的公开图片上，获得了非常不错的重建结果。

图注：定性实验结果，采用互联网获取图片作为输入

研究者也通过充分的消融实验来论证其设计模型结构的有效性：

图注：消融实验

除此之外，模型也可用于驱动、虚拟试穿等，具有广阔的应用前景。

五、总结

论文介绍了GTA模型，专为从单张照片中重建3D穿衣人体模型而设计。该模型巧妙地运用全局关联性3D解耦Transformer，从图像中高效提取三维特征。模型结合了先验混合查询策略，能够精准地获取查询点的特征。GTA模型在处理复杂的几何形状和纹理重建任务时，超越了当前的最先进技术，为该领域的未来研究和发展提供了新的视角和思路。

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

CVPR / ICCV 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集
后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集
3D重建交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-3D重建 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如3D重建+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

NeurIPS 2023 | 单张图片3D数字人重建新SOTA！浙大&悉尼科技大学发布GTA

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【三维重建】微信交流群

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

一、针对问题

二、核心思想

三、模型结构

四、实验结果

五、总结

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

AI/CV重磅干货，第一时间送达
点击进入—>【三维重建】微信交流群