Redian新闻
>
ICLR 2023 Spotlight | 2D图像脑补3D人体:衣服随便搭,还能改动作

ICLR 2023 Spotlight | 2D图像脑补3D人体:衣服随便搭,还能改动作

公众号新闻


©作者 | 机器之心编辑部

来源 | 机器之心



在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。


论文标题:

EVA3D: Compositional 3D Human Generation from 2D image Collections

论文链接:

https://arxiv.org/abs/2210.04888

项目主页:

https://hongfz16.github.io/projects/EVA3D.html

代码开源:

https://github.com/hongfz16/EVA3D

Colab Demo:

https://colab.research.google.com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb

Hugging Face Demo:

https://huggingface.co/spaces/hongfz16/EVA3D





背景


利用 NeRF 提供的可微渲染算法,三维生成算法,例如 EG3D、StyleSDF,在静态物体类别的生成上已经有了非常好的效果。但是人体相较于人脸或者 CAD 模型等类别,在外观和几何上有更大的复杂度,并且人体是可形变的,因此从二维图片中学习三维人体生成仍然是非常困难的任务。

研究人员在这个任务上已经有了一些尝试,例如 ENARF-GAN、GNARF,但是受限于低效的人体表达,他们无法实现高分辨率的生成,因此生成质量也非常低。

为了解决这个问题,本文提出了高效的组合的三维人体 NeRF 表示,用以实现高分辨率的(512x256)三维人体 GAN 训练与生成。下面将介绍本文提出的人体 NeRF 表示,以及三维人体 GAN 训练框架。



高效的人体NeRF表示

本文提出的人体 NeRF 基于参数化人体模型 SMPL,它提供了方便的人体姿势以及形状的控制。进行 NeRF 建模时,如下图所示,本文将人体分为 16 个部分。每一个部分对应于一个小的 NeRF 网络进行局部的建模。在渲染每一个局部的时候,本文只需要推理局部 NeRF。这种稀疏的渲染方式,在较低的计算资源下,也可以实现原生高分辨率的渲染。

例如,渲染体型动作参数分别为的人体时,首先根据相机参数采样光线;光线上的采样点根据与 SMPL 模型的相对关系进行反向蒙皮操作(inverse linear blend skinning),将 posed 空间中的采样点转化到 canonical 空间中。

接着计算 Canonical 空间的采样点属于某个或者某几个局部 NeRF 的 bounding box 中,再进行 NeRF 模型的推理,得到每个采样点对应的颜色与密度;当某个采样点落到多个局部 NeRF 的重叠区域,则会对每个 NeRF 模型进行推理,将多个结果用 window function 进行插值;最后这些信息被用于光线的积分,得到最终的渲染图。



三维人体GAN框架

基于提出的高效的人体 NeRF 表达,本文实现了三维人体 GAN 训练框架。在每一次训练迭代中,本文首先从数据集中采样一个 SMPL 的参数以及相机参数,并随机生成一个高斯噪声 z。利用本文提出的人体 NeRF,本文可以将采样出的参数渲染成一张二维人体图片,作为假样本。再利用数据集中的真实样本,本文进行 GAN 的对抗训练。


极度不平衡的数据集
二维人体数据集,例如 DeepFashion,通常是为二维视觉任务准备的,因此人体的姿态多样性非常受限。为了量化不平衡的程度,本文统计了 DeepFashion 中模特脸部朝向的频率。如下图所示,橙色的线代表了 DeepFashion 中人脸朝向的分布,可见是极度不平衡的,对于学习三维人体表征造成了困难。
为了缓解这一问题,我们提出了由人体姿态指导的采样方式,将分布曲线拉平,如下图中其他颜色的线所示。这可以让训练过程中的模型见到更多样以及更大角度的人体图片,从而帮助三维人体几何的学习。我们对采样参数进行了实验分析,从下面的表格中可见,加上人体姿态指导的采样方式后,虽然图像质量(FID)会有些微下降,但是学出的三维几何(Depth)显著变好。




高质量的生成结果

下图展示了一些 EVA3D 的生成结果,EVA3D 可以随机采样人体样貌,并可控制渲染相机参数,人体姿势以及体型。

本文在四个大规模人体数据集上进行了实验,分别是 DeepFashion,SHHQ,UBCFashion,AIST。该研究对比了最先进的静态三维物体生成算法 EG3D 与 StyleSDF。同时研究者也比较了专门针对三维人生成的算法 ENARF-GAN。在指标的选择上,本文兼顾渲染质量的评估(FID/KID)、人体控制的准确程度(PCK)以及几何生成的质量(Depth)。如下图所示,本文在所有数据集,所有指标上均大幅超越之前的方案。



应用潜力

最后,本文也展示了 EVA3D 的一些应用潜力。首先,该研究测试了在隐空间中进行差值。如下图所示,本文能够在两个三维人之间进行平滑的变化,且中间结果均保持较高的质量。此外,本文也进行了 GAN inversion 的实验,研究者使用二维 GAN inversion 中常用的算法 Pivotal Tuning Inversion。如下面右图所示,该方法可以较好的还原重建目标的外观,但是几何部分丢失了很多细节。可见,三维 GAN 的 inversion 仍然是一个很有挑战性的任务。



结语

本文提出了首个高清三维人体 NeRF 生成算法 EVA3D,并且仅需使用二维人体图像数据即可训练。EVA3D 在多个大规模人体数据集上性能达到最佳,并且展现出了在下游任务上进行应用的潜力。EVA3D 的训练与测试代码均已经开源,欢迎大家前去试用!


更多阅读



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2023 | PatchTST: 基于Transformer的长时间序列预测无惧大规模GNN,用子图也一样!中科大提出首个可证明收敛的子图采样方法 | ICLR 2023 Spotlight450亿军援,爱国者导弹,泽连斯基访美国际要闻简报,轻松了解天下事(03Chinese Tourist Spot Accused of Copyright InfringementHighlights | 迪奥巴黎花园上演2023秋冬女装系列,刘亦菲灵感演绎Capucines手袋...Eruope 2023Highlights | 迪奥以2023早春成衣系列献礼节日季,香奈儿呈现节日精选香水......自然语言融入NeRF,给点文字就生成3D图的LERF来了准备过圣诞ICLR 2023 Spotlight | 2D图像脑补3D人体,衣服随便搭,还能改动作转:2023 回国探亲(5)ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络Spotlight 1月4日-1月15日打折图册(高清9页)Nature:揭开人体微生物的来源之谜!人体是由人类细胞和微生物共同构成的超级有机体,重整微生物、可能治疗人体疾病CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征中西部强校一瞥​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统Highlights | 迪奥 30 MONTAIGNE经典系列焕新呈现,圣罗兰2023春夏男士系列诠释先锋...Highlights | Fendi首尔首家旗舰店隆重开幕,Gucci 2023春夏大片浸润摩登日常...China Puts Banquet Food Waste in the SpotlightICLR 2023 | DM-NeRF:从2D图像中实现3D场景的几何分解与编辑(已开源)2023 春 祝姐妹们周末快乐!Highlights | Chanel COCO CRUSH系列珠宝讲述遇见的印记,Fendi 2023秋冬女装...Highlights | 易烊千玺演绎Emporio Armani2023新年系列,香奈儿香水展于巴黎大皇宫临时馆呈现...Highlights | BV 2023夏季系列上线,BVLGARI SERPENTI系列问世75周年…Spotlight 1月18日-2月7日打折图册(高清37页)岁末了,写下几句鼓励自己我私藏的开胃下饭秘诀,孩子1秒就爱上!让娃食欲大开,随便搭配都不出错女人春天选包包,凑齐3个“流行色”,裙子风衣随便搭配都好看!ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究Highlights | 迪奥2023春夏高定系列演绎时尚精髓,香奈儿2023春夏高定系列打造独特幻梦...NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别国际要闻简报,轻松了解天下事(03ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构3D打印进展|食品、人体器官、火箭……3D打印正向诸多领域延展首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 | ICLR 2023不谈战争谈音乐——普罗科菲耶夫(2)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。