Redian新闻
>
CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下

CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下

公众号新闻
修宇亮 投稿
量子位 | 公众号 QbitAI

在计算机视觉领域,我们用一张人像直接打造3D数字人最大的挑战是什么?

或许就是兼顾稳定性和自由度

也就是人物无论摆出多么复杂的姿势、所穿衣服有多宽松、飘逸或个性,我们都能将它全部逼真地重建为3D姿态。

像下面的例子,就很尴尬:

姿势是够稳,但衣服都缺块了。

现在,来自CVPR’23的一篇Highlight论文——《ECON: Explicit Clothed humans Optimized via Normal integration》,专门解决了这个问题。

它所用方法既能逼真重建各种复杂pose,也能把衣服从整体版型到细节褶皱都完美复刻出来。

即使是带遮挡的多人重建任务,也可放心地“包在它身上”。

如何做到?

以下为投稿作者第一人称角度自述。

既要姿态鲁棒,又要拓扑灵活

在《CVPR 2022 | ICON: 提高三维数字人重建的姿势水平》中([1]注:作者知乎专栏文章),我在“把我批判一番”段落,讲了一下ICON(注:作者去年中标CVPR的3D数字人重建算法)的问题,其中最突出的,就是”稳定性vs自由度”的左右两难,鱼和熊掌不可得兼。

这里的鱼,就是姿态稳定性(Pose Robustness),这里的熊掌,就是拓扑灵活度 (Topological Flexibility)

翻译成大白话,就是ICON能在难的姿势下较好地重建,但宽松的衣服就不行。

几何先验 (SMPL Body) 的引入固然带来了姿态的稳定性,但却有损拓扑的灵活度。

在同样使用SMPL作为几何先验的其他工作中,比如PaMIR([2]),这个tradeoff也普遍存在。

够稳定就不够灵活,这不光是个问题,还是个非常令人尴尬的问题。

PIFu(HD)的大火,导致整个领域内大家纷纷开始卷Implicit Function (IF),就是因为它能做到自由拓扑。

以前mesh-based方法揪不出来的衣服褶皱、头发纹路、开衫夹克、宽松裙子等,上了IF就都能搞出来了。

而ICON虽然号称比PIFuHD拥有更好的泛化性,但这仅仅体现在姿态上,却以牺牲宽松衣服重建效果为代价,相当于忘记了Clothed Human Reconstruction这个问题的“初心”。

因此,如何在不牺牲姿态稳定性的情况下,尽量保证灵活拓扑,就成为绕不过去的问题。

更具体,就是得想个辙,对SMPL-X取其精华去其糟粕,“润物细无声”地将它融入到整个重建过程中。

在这篇文章中,我们还提到了ICON的另一个问题,那就是“几何不如法向好”

因此,在ICON的开源代码中,我们引入了一个后处理模块 (-loop_cloth),对于ICON直出的mesh,用从图像中估计的normal进行“二次抛光”,这个没写在论文中,但实际效果还不错,抛光后的mesh较ICON直出的结果,拥有了更加自然的褶皱细节面片拓扑也更规整。

当然,也额外多费一点时间。

 图片-normal estimate-ICON直出-ICON抛光

但抛光仅仅就是抛光,它依旧不能解决拓扑的问题。

裙子裂了,再抛光也不过就是“拥有更真实褶皱细节的、裂开的裙子”

可是normal看起来质量是真的好,那么有没有可能,让法向图 (Normal map)来主导整个重建过程,而不仅仅用来做二次抛光呢?

之前的抛光,“主”是粗糙的几何,“辅”是normal。

如果主辅易位,normal作为“主”,而粗糙几何SMPL body作为“辅”,这个问题会不会有更好的解法?

这就是ECON的思维起点。


ICON vs ECON

先做衣服,再把人塞进去

上面这个想法让人很自然联想到Normal Integration这个技术路线,这是个挺古早的技术了,但本身是个ill-posed problem,即如果:

normal map有悬崖,即存在不连续区域(discontinuity),这在关节几何(articulated objects)中很常见:

1、悬崖落差未知,即boundary condition不明确;

2、normal map本身又是有噪声的;

3、那么normal就很难通过优化过程,唯一确定depth,换句话说,此时normal与depth,是一对多的关系。

但我们知道,人体是一个有很强先验信息的articulated object。

比如上面思考者,尽管双腿之间的距离是未知的,但如果被拉的过远,也是不符合人体结构的,所以如果可以将人体先验,即SMPL-X depth,作为一个几何软约束 (soft geometric constrain),加入到整个Normal Integration的优化方程中。那么不光悬崖落差有了一个大致的初始值,normal中的噪声也被约束住了,避免因normal noise干扰整个积分过程,导致表面突刺 (artifacts)

同时,对于在normal map上连续,但SMPL-X depth上不连续的区域,比如两腿中间的裙子(有normal覆盖,没SMPL-X depth覆盖),可以仅在normal上积分的同时,尽量与nearby surface保持连贯性。这就是文章中提到的d-BiNI (depth-aware BiNI([3]))

整个优化过程,有一个更形象的解释——把裸体模特 (SMPL-X body) 慢慢地塞进一套做好的衣服 (Normal map) 中,把衣服撑起来

好了,现在正反两面的衣服已经被人体“撑起来”了,这个时候我们会注意到,正反两面的间隙,尤其是侧面,有缝,这就好比旗袍开叉开到了嘎吱窩。所以接下来我们要做的,就是补全这个裂缝

在ECON中,我们提供了两种补全策略,一种是用类似IF-Nets的思路(如下图),输入SMPL-X body和d-BiNI优化出来的正反面,implicitly做几何补全,称为IF-Nets+,其结果我们标记为 ECONIF。


IF-Nets+

另一种策略则不需要data-driven地去学这种补全策略,而是直接register SMPL-X body into front&back surfaces,其结果我们标记为 ECONEX

换言之,就是将SMPL-X直接进行显式形变 (explicit deformation),直到其与d-BiNI优化出来的正反面完全重合。这种方法扔掉了DL模块,整个pipeline更干净,但缺乏补全未知区域的“想象力”。

正反面完整时,一切正常,但遇到遮挡(下图234),优化出来的正反面本身就会有缺陷,因此形变后的ECONEX结果,遮挡边界处几何不连贯,遮挡处则显得“赤裸裸”。


 Implicit completion vs. Explicit Completion

如果输入图片没有遮挡,我比较推荐explicit的策略 (use_ifnet: False),因为快且稳定,而如果有遮挡,就不得不上IF-Nets+ (use_ifnet: True)

另外,几何补全 (shape completion) 本身就是一个研究课题,这块不是我的专长,ECON仅提供了两种比较直觉的补全思路,大家如果有更优雅的解决,可以在评论区留言或者pull request。


Overview of ECON

以上就是ECON的完整思路了,三步走,一个normal estimation,咳~,一个normal integration,一个shape completion,训练有素,simple yet effective,既没有引入新的网络设计,也没有增加训练数据,连normal estimator都是从ICON继承过来的。

如果说ICON是将feature encoder简化为七维度的手工特征,ECON就是将encoder + implicit regressor合并为一个explicit optimizer,这样问题本身,就从data-driven learning,转化为一个纯优化问题。

从此我们只需要关注用什么方法可以拿到更好的normal map,就可以了。

“Make everything as simple as possible, but not simpler.”—— Albert Einstein.

不同于implicit-based methods, ECONEX 没有任何implicit模块,这也是标题的立意,单目穿衣人重建这个问题,不是非要上implicit才能保住细节,explicit也可以的,一个数字人,显式隐式各自表述。

而且ECON的三明治结构,也适用于通用物体,比如去年3DV Best Paper Honourable Mention,Any-shot GIN([4]),大同小异。

这种三明治设计简化了重建,正反面搞定了,九成的物体几何信息就有了,留给补全模块的工作量就小很多。同时,补全能“填缝”,也能应对大面积遮挡,所以ECON天然地可以处理多人遮挡场景。

同时,由于优化还是基于SMPL-X几何先验,所以ECON的结果,已经内嵌了一个严丝和缝的SMPL-X参数化模型,所以接下来,无论是要做皮肤裸露部位(手,脸)的替换,还是做驱动动画,都很容易。

对裸露部分,比如脸和手,可以直接用SMPL-X替换

这里我和李杰锋同学一起合作搞了一个demo,先用HybrIK-X([5])从视频中做视觉动捕,得到的动作序列,直接驱动ECON的重建。

不够完美,有些jitter,还有global trans不准确导致的地板穿模问题,同时,纹理只有正面,因为看起来很别扭,我就把纹理全扔掉了,但这个问题肯定是要解决的,先开个坑,之后搞定了会过来填。

不完美之处

ECON也有一些问题,比如:

A. SMPL-X对于直立站姿的预测结果往往会屈腿,这会“带坏”ECON的重建

B. SMPL-X的手腕旋转如果预测错误,直接替换就会出现图示的stitching artifacts

D. 极端宽松的衣服下,目前normal预估的质量无法保证,伴随着ECON的重建也会有破洞

至于C,人体和衣服之间往往是有距离的,而ECON的优化过程,目前没有考虑衣服的紧合度tightness(具体实现中,我们手工设定了thickness=2cm),导致在一些极端的情况下,人会看起来扁扁的,这个问题,或许可以通过额外预测tightness,并将其引入到d-BiNI优化过程中来解决。

Failure cases

尽管有以上各种问题,(但个人认为)ECON依旧是目前为止,泛化性最好的,单图穿衣人重建算法,我们在AMT上花了六百欧做了上千组perception study,最后的结论是——除了在fashion images上和PIFuHD打了个平手,其他所有的hard cases,challenging poses or loose clothing,ECON的重建质量一骑绝尘。

而fashion images上打平手的主要原因,主要还是因为这个屈腿的问题,所以,只要SMPL-X estimate可以解决掉屈腿的问题(比如像BEDLAM([6])那样造synthetic data,然后用perfect SMPL-X gt而不是pseudo SMPL-X gt做训练),那么ECON就是六边形战士,单目穿衣人重建界的马龙(只要限定词足够多,就没人可以打败我)

ECON paves the path towards large-scale human digitization from internet data

最后,多亏了开源社区小伙伴的帮助,ECON提供了全家桶。

Windows Ubuntu都支持,Google Colab, HuggingFace Demo,Docker Image一应俱全,除此之外,我们还支持了Blender插件。

所以,无论你是reseacher,engineer,artist/animator,还是只想尝鲜不想配环境的吃瓜群众,只要你想用,总有一款适合你。

后续有兴趣讨论的,可以Github上提issue,或者加入我们的Discord讨论组 (Avatarizer)

祝大家使用愉快。

One More Thing

附作者携ECON参加China3DV会议时做的一个宣传视频,魔改了《让子弹飞》中的片段,也是相当有趣~

论文地址:
https://arxiv.org/abs/2212.07422

项目主页:
https://xiuyuliang.cn/econ/

参考链接:

[1] ICON: https://zhuanlan.zhihu.com/p/477379718
[2] PaMIR: Parametric Model-conditioned Implicit Representation for image-based human reconstruction (T-PAMIR’21) https://github.com/ZhengZerong/PaMIR
[3] Bilateral Normal Integration (ECCV’22) https://github.com/xucao-42/bilateral_normal_integration
[4] Any-Shot GIN: Generalizing Implicit Networks for Reconstructing Novel Classes (3DV’22) https://virtualhumans.mpi-inf.mpg.de/gin/
[5] HybrIK-X: Hybrid Analytical-Neural Inverse Kinematics for Whole-body Mesh Recovery (arXiv’23) https://jeffli.site/HybrIK-X/
[6] BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion (CVPR’23, Highlight) https://bedlam.is.tue.mpg.de/

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023空巢日记摘要2005《国画牡丹》&《问风》九剑一魂 - 第24回 汉胡同源 九剑一魂(二)CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达卷疯了!研0就要发论文?!得亏我偶遇发文法宝,10分+也不在话下……上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023都快想退休了,才发现/觉得我入错行了!CVPR 2023|All in UniSim:统一的自动驾驶仿真平台CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernelCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准「目前最好的文生视频AI」来了!做广告、电影都不在话下,网友:很丝滑做了抖音最新受害者日本豪言:我们能追上台积电,1.4nm也不在话下!3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准CVPR 2023 | RCF:完全无监督的视频物体分割大动作!安省宣布新建30年来首座大型核电厂!地点公布!华人炸锅:完蛋了...CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型太值了!19.9买了个切菜小能手,粗丝、细丝、切花、切片,做蒜蓉,统统不在话下!一秒拥有绝&刀工!还不伤手!最后3天 | 烙烤神器!完美复刻街边小吃,聚会有它超欢乐今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建西工大新技术亮相了,千米海底能潜伏60天!伏击航母不在话下UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023窥探他人眼中的世界:用眼睛反光重建3D场景,《黑镜》走进现实CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3DCVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。