Redian新闻
>
NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA

NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【三维重建】微信交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

图1 输入一张图片,论文模型GTA能够重建出图片中人物的3D几何模型与纹理,并且能够用于驱动、虚拟试穿等多种应用。

本文介绍发表在NeurIPS 2023上的单张图片3D数字人重建工作。研究团队来自浙江大学 ReLER 实验室和悉尼科技大学,他们提出了一种名为 GTA(Global-correlated 3D-decoupling Transformer)的新型Transformer,专门用于从单张图片中重建穿着衣服的3D数字人。GTA 采用先进的3D特征解耦技术,结合全局关联特征,以提高重建的准确性和细节丰富度。这项工作不仅为3D数字人重建设定了新的标准,也为虚拟现实和数字娱乐领域带来了新的应用前景。

论文标题:Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction

作者单位:浙江大学ReLER实验室,悉尼科技大学

录用信息:NeurIPS 2023

代码:https://github.com/River-Zhang/GTA

论文:https://arxiv.org/abs/2309.13524

一、针对问题

尽管当前技术在使用单张图片进行三维穿衣人体模型重建方面已经取得了显著的进展,但在实践中,我们仍然面临着两个主要的挑战:

首先是对2D图像特征的过度依赖。目前的方法大多仅仅依赖于基于CNN的2D特征提取,这种做法由于缺乏全局相关性,往往会降低三维重建的准确性。虽然大多数方法尝试融合了源自人体先验的3D特征,但在处理宽松衣物和具有挑战性的姿势时,它们的表现参差不齐,这暴露出整合程度上的不足。    

其次是查询方法的不一致性。目前的查询特征策略不仅各有所长,也各有不足。像素对齐方法(pixel-align)虽然能直接将查询点投影到特征图上,但这种方法缺乏对人体先验的考虑。而先验引导策略虽然在人体模型先验上整合了特征,却可能导致原始图像中细节信息的丢失,进而影响三维模型重建的精确度。

图注:论文模型(GTA)与当前SOTA模型重建效果对比    

二、核心思想

在考虑到之前讨论的限制之后,研究者指出,单纯依赖2D特征图对于三维重建任务来说是远远不够的。相比之下,一种全局相关的3D特征表示法能提供一个更加有效的解决方案。

传统的三维表示方法通常需要大量存储空间且处理效率低下。鉴于这种情况,采用更高效的表示方式,如三平面模型,显得尤为重要。然而,从单一图像中提取出全局相关的三维表示依然是一项挑战,特别是在获取不同正交平面的特征图时。为此,本论文采用了一种创新的方法:通过可学习的嵌入表征和交叉注意力机制来有效地模拟复杂的跨平面关系。这种方法使得三维特征的提取更加稳定和精确。

此外,开发出一种既简单又高效的策略,用以融合不同的查询方法,对于优化整个系统来说也是极其关键的。研究者结合了现有的三维特征策略,并巧妙地利用了局部空间特征和人体结构的先验知识,实现了一个平衡的特征提取过程。这不仅增强了模型的重建性能,也为三维重建技术的未来发展提供了新的视角。

三、模型结构  

图注:模型结构    

研究团队提出了一个创新的模型,它主要由两个核心模块构成。首先,为了有效地提取三维特征,研究团队设计了一个独特的“全局关联性3D解耦Transformer”。这个模块利用全局Encoder来捕捉图像的二维特征,并采用可学习的嵌入表示作为交叉注意力机制的查询输入。这种设计使得Decoder能够从原始图像特征中解耦出三维空间的不同平面特征,具体包括xz平面和yz平面。至于与输入图像位于同一xy平面的特征,则通过一个基于自注意力机制的Decoder来提取。

其次,为了应对查询方法的不一致性问题,研究者们提出了一种创新的“先验混合查询策略”。当模型获取到三维空间中的各个平面特征后,它会将这些特征在通道维度上均等分成两部分。对于其中的一个部分,模型采用像素对齐方法来捕捉特征,即将空间中的查询点投影到每个平面上以获取相应的特征。而对于另一部分,则采用先验引导的方法,即首先将三维平面特征通过像素对齐的方式映射到一个先验的人体模型(如SMPL)上,然后通过质心坐标插值的方法将这些特征转移到查询点上。最终,这两种查询方法得到的特征被结合起来,并输入到一个多层感知器(MLP)中,用于预测隐式场。   

图注:先验混合查询策略

四、实验结果

在本研究中,研究者们在THuman2.0数据集上对模型进行了训练,并通过一系列精确的定量测试。结果显示,在复杂的几何和纹理重建任务上,该模型显著超越了当前的最先进(SOTA)技术。特别是在CAPE-FP测试数据集上,模型在降低Chamfer Distance方面取得了显著的突破,首次将其减少到0.8厘米以下。此外,模型在侧视角法向的重建性能上也展现出了卓越的表现,这不仅证实了该方法在重建高精度3D穿衣人体化身方面的有效性,也标志着在这一领域的一大进步。   

图注:几何重建定量测量指标

图注:纹理重建定量测评指标

图注:侧视角法向重建评估

此外,研究者也将模型应用于从互联网获取的公开图片上,获得了非常不错的重建结果。   

图注:定性实验结果,采用互联网获取图片作为输入

研究者也通过充分的消融实验来论证其设计模型结构的有效性:   

图注:消融实验

除此之外,模型也可用于驱动、虚拟试穿等,具有广阔的应用前景。

五、总结

论文介绍了GTA模型,专为从单张照片中重建3D穿衣人体模型而设计。该模型巧妙地运用全局关联性3D解耦Transformer,从图像中高效提取三维特征。模型结合了先验混合查询策略,能够精准地获取查询点的特征。GTA模型在处理复杂的几何形状和纹理重建任务时,超越了当前的最先进技术,为该领域的未来研究和发展提供了新的视角和思路。

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

3D重建交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-3D重建 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如3D重建+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
红色日记 放秋假 9.1-30电脑更新记背景提升学员|喜报!伦敦大学学院、南洋理工、香港科技大学、香港城市大学、伦敦大学国王学院、纽约大学、昆士兰大学offer来了!※※※ 2023唱坛【谁是大模王】& 【 2023万圣节蒙面快闪】 活动合辑※※※女儿捐赠母乳计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型360度无死角!UC伯克利华人发布3DHM框架:一张图片即可模仿任意视频动作NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较AI早知道|OPPO正式成立AI中心;阿里推文生3D数字人项目;大众汽车宣布将ChatGPT与IDA语音助手结合百年无痕 1.12NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR最近发生在的Texas的Law and Order的具体案例,你觉得和你想象的一样吗?你会支持这样的Law&order吗Q&A 申请医学院NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断提前结束马拉松月子NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成链上数字产业研究院&猎聘大数据:2023中国数字人才发展报告1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 20232023 turbo tax, home & business , 17刀一个人智能周报|Google发布Gemini;OpenAI推迟发布GPT商店;微软明年发布新版Windows,AI功能大幅增强…NeurIPS 2023 & MICCAI 2023:可兼容软标签的语义分割损失函数北京市数字人基地启用仪式暨数字人新业态研讨会举办ABC找小留, Pro & ConNeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法​NeurIPS 2023 | RayDF:实时渲染!基于射线的三维重建新方法深圳杀出三维重建黑马,背靠港大,“一只手”可重建3D古城3D版Midjourney来了?Luma AI发布Genie 1.0,生成手办只需10秒北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。