Redian新闻
>
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型

几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】最近来自浙江大学ReLER实验室的研究人员提出SIFU模型,一种侧视图条件隐函数模型用于单张图片3D人体重建。模型通过引入人体侧视图作为先验条件,并结合扩散模型进行纹理增强,在几何与纹理重建测试中均达到SOTA,并且在真实世界中具有多种应用场景。


在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。

 

传统的方法创建这些模型不仅需要大量时间,还需要能够捕捉多视角照片的专业设备,此外还依赖于技术熟练的专业人员。

 

SIFU重建3D人体模型用于场景搭建

 

与此相反,在日常生活中,我们最常见的是通过手机相机拍摄的或在各种网页上找到的人像照片。

 

因此,一种能从单张图像准确重建3D人体模型的方法可以显著降低成本,并简化独立创作的过程。

 

以往方法(左)与本文方法技术路线比较(右)

 

以往的深度学习模型用于3D人体重建,往往需要经过三个步骤:从图像中提取2D特征,将2D特征转到3D空间,以及3D特征用于人体重建。

 

然而这些方法在2D特征转换到3D空间的阶段,往往忽略了人体先验的引入,导致特征的提取不够充分,最终重建结果上会出现各种缺陷。

 

SIFU与其他SOTA模型重建效果比较

 

此外,在对纹理预测的阶段,以往模型仅仅依靠训练集中学得的知识,缺少真实世界的先验知识,也往往导致不可见区域的纹理预测较差。

 

SIFU在纹理预测阶段引入先验知识,增强不可见区域(背部等)的纹理效果。

 

对此,来自浙江大学ReLER实验室的研究人员提出SIFU模型,依靠侧视图条件隐函数从单张图片重建3D人体模型。

 

论文地址:https://arxiv.org/abs/2312.06704

项目地址:https://github.com/River-Zhang/SIFU

 

该模型通过在2D特征转换到3D空间引入人体侧视图作为先验条件,增强几何重建效果。并在纹理优化阶段引入预训练的扩散模型,来解决不可见区域纹理较差的问题。

 

模型结构


模型pipeline如下:

 

 

该模型运行可分为两个阶段,第一阶段借助侧隐式函数重建人体的几何(mesh)与粗糙的纹理(coarse texture),第二阶段则借助预训练的扩散模型对纹理进行精细化。

 

在第一阶段中,作者设计了一种独特的Side-view Decoupling Transformer,通过global encoder提取2D特征后,在decoder中引入了人体先验模型SMPL-X的侧视图作为query,从而在图像2D特征中解耦出人体不同方向的3D特征(前后左右),最后用于重建。

 

该方法成功的在2D特征转换到3D空间时结合人体先验知识,从而使得模型有更好的重建效果。

 

在第二阶段,作者提出一种3D一致性纹理优化流程(3D Consistent Texture Refinement),首先将人体不可见的区域(侧面、背面)可微渲染成视角连续的图片集,再借助在海量数据中学习到先验知识的扩散模型,对粗糙纹理图片进行一致性编辑,得到更精细的结果。最后通过精细化前后的图片计算损失来优化3D模型的纹理贴图。

 

实验部分


更高的重建精度


在实验部分,作者使用全面多样化的测试集对他们的模型进行测试,包括CAPE-NFP、CAPE-FP和THuman2.0,并与以往发表在各大顶会的单张图片人体重建SOTA模型进行比较。经定量测试,SIFU模型在几何重建与纹理重建中均表现出了最好的效果。

 

定量评估几何重建精度

 

定量评估纹理重建效果

 

使用互联网中公开图片作为输入进行定性效果展示

 

更强的鲁棒性

 

以往的模型应用训练集以外的数据时,由于估计的人体先验模型SMPL/SMPL-X不够准确,往往导致重建结果与输入图片相差甚远,难以投入实际应用。

 

对此,作者专门对模型的鲁棒性进行了测试,通过在ground truth先验模型参数中加入扰动使其位姿发生偏移,模拟真实场景中SMPL-X估计不准确的情况,来评估模型重建的精度。结果表明SIFU模型在该情况下,依然具有最好的重建精度。

 

评估模型面对有误差的人体先验模型时的鲁棒性

 

使用真实世界中的图片,在先验人体模型估计不准确的情况下,SIFU依然有较好的重建效果

 

更广阔的应用场景

 

SIFU模型的高精度高质量重建效果,使得其具有丰富的应用场景,包括3D打印、场景搭建、纹理编辑等。

 

3D打印SIFU重建的人体模型

 

SIFU借助扩散模型进行纹理编辑

 

SIFU用于3D场景搭建

 

更多定性测试结果(测试输入图片均来自互联网)


借助公开动作序列数据,可对SIFU重建的模型进行驱动


总结

本文提出侧视图条件隐式函数和3D一致性纹理编辑方法,弥补了以往工作在2D特征转换到3D空间、纹理预测时对先验知识引入的不足,极大的提高了单张图片人体重建的精度和效果,使模型在真实世界应用中具有显著的优势,也为该领域未来的研究提供了新的思路。


参考资料:
https://arxiv.org/abs/2312.06704


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
44、长篇民国小说《永泰里》第九章 欢迎“友”军(6)分割一切"3D高斯"来了!上交&华为提出SAGA:几毫秒完成3D分割一切!人生旅途和多目标最优化抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge周迅人体模特画曝光,18岁为艺术献身急招200元/张,AI作图即可,极度缺人!在家可做今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略李飞飞团队实现“隔空建模”,透过遮挡物还原完整3D人体模型刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLPGauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架日结 :50-200元/张,AI画图即可,无需经验,在家可做。何立峰:以推动上市公司高质量发展助力信心提振、资本市场稳定和经济高质量发展NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24白面馒头与厚粥给3D资产生成高清纹理,腾讯让AI扩充游戏皮肤ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!《梦里花乡》&《许愿》浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型推动信息通信业高质量发展,为新型工业化夯实数字基础——2024年推动工业和信息化高质量发展系列述评之四2023晚秋中欧行(2) 柏林胜利女神柱和查理腾堡宫提升科技创新能力,推动重点产业链高质量发展——2024年推动工业和信息化高质量发展系列述评之二深圳杀出三维重建黑马,背靠港大,“一只手”可重建3D古城几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。