Redian新闻
>
高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

公众号新闻

机器之心专栏

机器之心编辑部


3D 人脸重建是一项广泛应用于游戏影视制作、数字人、AR/VR、人脸识别和编辑等领域的关键技术,其目标是从单张或多张图像中获取高质量的 3D 人脸模型。借助摄影棚中的复杂拍摄系统,当前业界成熟方案已可得到媲美真人的毛孔级精度的重建效果 [2],但其制作成本高、周期长,一般仅用于 S 级影视或游戏项目。


近年,基于低成本人脸重建技术的交互玩法(如游戏角色捏脸玩法、AR/VR 虚拟形象生成等)受到市场欢迎。用户只需输入日常可获取的图片,如手机拍摄的单张或多张图片,即可快速得到 3D 模型。但现有方法成像质量不可控,重建结果精度较低,无法表达人脸细节 [3-4]。如何在低成本条件下得到高保真 3D 人脸,仍是一个未解的难题。


人脸重建的第一步是定义人脸表达方式,但现有主流的人脸参数化模型表达能力有限,即使有更多约束信息,如多视角图片,重建精度也难以提升。因此,腾讯 AI Lab 提出了一种改进的自适应骨骼 - 蒙皮模型(Adaptive Skinning Model,以下简称 ASM)作为参数化人脸模型使用,利用人脸先验,以高斯混合模型来表达人脸蒙皮权重,极大降低参数量使其可自动求解。


测试表明,ASM 方法在不需要训练的前提下仅使用少量的参数,即显著提升了人脸的表达能力及多视角人脸重建精度,创新了 SOTA 水平。相关论文已被 ICCV-2023 接收,以下为论文详细解读。


论文题目:ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling



论文链接:https://arxiv.org/pdf/2304.09423.pdf


研究挑战:低成本、高精度的 3D 人脸重建难题


从 2D 图像得到信息量更大的 3D 模型,属于欠定问题存在无穷多解。为了使其可解,研究者将人脸先验引入重建,降低求解难度的同时能以更少的参数来表达人脸 3D 形状,即参数化人脸模型。当前大部分参数化人脸模型都是基于 3D Morphable Model (3DMM) 及其改进版,3DMM 是 Blanz 和 Vetter 在 1999 年首次提出的参数化人脸模型 [5]。文章假设一张人脸可以通过多个不同的人脸线性或非线性组合得到,通过收集数百个真实人脸的高精度 3D 模型构建人脸基底库,进而组合参数化人脸来表达新的人脸模型。后续研究通过收集更多样的真实人脸模型 [6, 7],以及改进降维方法来优化 3DMM [8, 9]。


然而,3DMM 类人脸模型的鲁棒性高但表达能力不足。尽管他能够在输入图像模糊或有遮挡的情况下稳定地生成精度一般的人脸模型,但当使用多张高质量图像作为输入时,3DMM 表达能力有限,不能利用上更多的输入信息,因此限制了重建精度。这种限制源于两方面,一是方法本身的局限性,二是该方法依赖于人脸模型数据的收集,不仅数据获取成本高,且因人脸数据的敏感性,在实际应用中也难以广泛复用。


ASM 方法:重新设计骨骼 - 蒙皮模型


为了解决现有 3DMM 人脸模型表达能力不足的问题,本文引入了游戏业界常用的 “骨骼 - 蒙皮模型” 作为基准人脸表达方式。骨骼 - 蒙皮模型是游戏与动画制作过程中表达游戏人物角色脸型与表情的一种常见的人脸建模方式。它通过虚拟的骨骼点与人脸上的 Mesh 顶点相连,由蒙皮权重决定骨骼对 Mesh 顶点的影响权重,使用时只需要控制骨骼的运动即可间接控制 Mesh 顶点的运动。


通常情况下,骨骼 - 蒙皮模型需要动画师进行精确的骨骼放置与蒙皮权重绘制,具有高制作门槛与长制作周期的特点。但是现实的人脸中不同的人骨骼与肌肉的形状具有较大差异,一套固定的骨骼 - 蒙皮系统难以表达现实中多种多样的脸型,为此,本文在现有的骨骼 - 蒙皮基础上进行进一步设计,提出了自适应骨骼 - 蒙皮模型 ASM,基于高斯混合蒙皮权重(GMM Skinning Weights)与动态骨骼绑定系统(Dynamic Bone Binding)进一步提高了骨骼 - 蒙皮的表达能力与灵活度,为每一个目标人脸自适应生成独有的骨骼 - 蒙皮模型,以表达更为丰富的人脸细节


为了提高骨骼 - 蒙皮模型对于建模不同人脸时的表达能力,ASM 对骨骼 - 蒙皮模型的建模方式进行了全新的设计。


图 1:ASM 整体框架


骨骼 - 蒙皮系统通常基于线性混合蒙皮(Linear Blend Skinning, LBS)算法,通过控制骨骼的运动(旋转、平移、缩放)来控制 Mesh 顶点的变形。传统的骨骼 - 蒙皮包含两个部分,即蒙皮权重矩阵与骨骼绑定,ASM 对这两部分分别进行了参数化,以实现自适应的骨骼 - 蒙皮模型。接下来会分别介绍蒙皮权重矩阵与骨骼绑定的参数化建模方法。


 

公式 1:传统骨骼 - 蒙皮模型的 LBS 公式


公式 2:ASM 的 LBS 公式


高斯混合蒙皮权重(GMM Skinning Weights)


蒙皮权重矩阵是一个 mxn 维的矩阵,其中 m 为骨骼数量,n 为 Mesh 上的顶点数量,该矩阵用于存放每一根骨骼对每一个 Mesh 顶点的影响系数。一般来说蒙皮权重矩阵是高度稀疏的,例如在 Unity 中,每个 Mesh 顶点只会被最多 4 根骨骼影响,除了这 4 根骨骼外,其余骨骼对该顶点的影响系数为 0。传统的骨骼 - 蒙皮模型中蒙皮权重由动画师绘制得到,并且蒙皮权重一旦得到,在使用时将不再发生改变。近年来有工作 [1] 尝试结合大量数据与神经网络学习如何自动生成蒙皮权重,但这样的方案有两个问题,一是训练神经网络需要较大量的数据,如果是 3D 人脸或者蒙皮权重的数据则更难获得;二是使用神经网络建模蒙皮权重存在较为严重的参数冗余。是否存在一种蒙皮权重的建模方式,在不需要训练的前提下使用少量的参数即可完整表达整张人脸的蒙皮权重呢?


通过观察常见的蒙皮权重可发现以下性质:1. 蒙皮权重局部光滑;2. 离当前骨骼位置越远的 Mesh 顶点,对应的蒙皮系数通常也越小;而这样的性质与高斯混合模型(GMM)非常吻合。于是本文提出了高斯混合蒙皮权重(GMM Skinning Weights)将蒙皮权重矩阵建模为基于顶点与骨骼某个距离函数的高斯混合函数,这样就能使用一组 GMM 系数表达特定骨骼的蒙皮权重分布。为了进一步压缩蒙皮权重的参数量,我们将整个人脸 Mesh 从三维空间转移到 UV 空间,从而只需要使用二维 GMM 并且使用顶点到骨骼的 UV 距离就能计算出当前骨骼对特定顶点的蒙皮权重系数。


动态骨骼绑定(Dynamic Bone Binding)


对蒙皮权重进行参数化建模不仅使我们能用少量参数表达蒙皮权重矩阵,还使我们在运行时(Run-Time)调整骨骼绑定位置成为了可能,由此,本文提出了动态骨骼绑定(Dynamic Bone Binding)的方法。与蒙皮权重相同,本文将骨骼的绑定位置建模为 UV 空间上的一个坐标点,并且能够在 UV 空间中任意移动。对于人脸 Mesh 的顶点,能够通过很简单地通过预定义好的 UV 映射关系将顶点映射为 UV 空间上的一个固定坐标。但是骨骼并没有预先定义在 UV 空间中,为此我们需要将绑定的骨骼从三维空间转移到 UV 空间上。本文中这个步骤通过对骨骼与周围顶点进行坐标插值实现,我们将计算得到的插值系数应用在顶点的 UV 坐标上,就能获得骨骼的 UV 坐标。反过来也一样,当需要将骨骼坐标从 UV 空间转移到三维空间时,我们同样计算当前骨骼的 UV 坐标与临近顶点的 UV 坐标的插值系数,并将该插值系数应用到三维空间中同样的顶点三维坐标上,即可插值出对应骨骼的三维空间坐标。


通过这种建模方式,我们将骨骼的绑定位置与蒙皮权重系数都统一为了 UV 空间中的一组系数。当使用 ASM 时,我们将人脸 Mesh 顶点的形变转变为求解 UV 空间中骨骼绑定位置的偏移系数、UV 空间中的高斯混合蒙皮系数与骨骼运动系数三者的组合,极大地提高了骨骼 - 蒙皮模型的表达能力,实现更为丰富的人脸细节的生成

 

表 1:ASM 每根骨骼的参数维度


研究结果:人脸表达能力与多视角重建精度达到 SOTA 水平


对比不同参数化人脸模型的表达能力


我们使用参数化人脸模型注册高精度人脸扫描模型的方式(Registration),将 ASM 与传统的基于 PCA 方法的 3DMM(BFM [6],FLAME [7],FaceScape [10])、基于神经网络降维方法的 3DMM(CoMA [8], ImFace [9])以及业界前沿的骨骼 - 蒙皮模型(MetaHuman)进行了对比。结果指出,ASM 在 LYHM 与 FaceScape 两个数据集上的表达能力均达到了 SOTA 水平。


表 2:LYHM 与 FaceScape 的 registration 精度

 

图 2:LYHM 与 FaceScape 上 registration 精度的误差分布


图 3:LYHM 与 FaceScape 上 registration 的可视化结果与误差热力图


多视角人脸重建中的应用


我们使用了 Florence MICC 的数据集测试了 ASM 在多视角人脸重建任务上的表现,在 Coop(室内近距离摄像头,人物无表情)测试集上的重建精度达到了 SOTA 水平。

 

图 4:Florence MICC 数据集上的 3D 人脸重建结果


我们还在 FaceScape 数据集上测试了多视角重建任务中图片数量对重建结果的影响,结果可以看到当图片数量在 5 张左右时 ASM 相比其他的人脸表达方式能够实现最高的重建精度。

 

表 3:FaceScape 上不同输入数量的多视角重建结果精度


图 5:FaceScape 上不同输入数量的多视角重建可视化结果与误差热力图


总结及展望


在低成本条件下获得高保真人脸这一行业难题上,本研究迈出了重要一步。我们提出的新参数化人脸模型显著增强了人脸表达能力,将多视角人脸重建的精度上限提升到了新的高度。该方法可用于游戏制作中的 3D 角色建模、自动捏脸玩法,以及 AR/VR 中的虚拟形象生成等众多领域。


在人脸表达能力得到显著提升之后,如何从多视角图片中构建更强的一致性约束,以进一步提高重建结果的精度,成为了当前人脸重建领域的新瓶颈、新挑战。这也将是我们未来的研究方向。


参考文献

[1] Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu, and Baoyuan Wang. Jnr: Joint-based neural rig representation for compact 3d face modeling. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII 16, pages 389–405. Springer, 2020.

[2] Thabo Beeler, Bernd Bickel, Paul Beardsley, Bob Sumner, and Markus Gross. High-quality single-shot capture of facial geometry. In ACM SIGGRAPH 2010 papers, pages 1–9. 2010.

[3] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, pages 0–0, 2019.

[4] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. Learning an animatable detailed 3d face model from in-the-wild images. ACM Transactions on Graphics (ToG), 40 (4):1–13, 2021.

[5] Volker Blanz and Thomas Vetter. A morphable model for the synthesis of 3d faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187–194, 1999.

[6] Pascal Paysan, Reinhard Knothe, Brian Amberg, Sami Romdhani, and Thomas Vetter. A 3d face model for pose and illumination invariant face recognition. In 2009 sixth IEEE international conference on advanced video and signal based surveillance, pages 296–301. Ieee, 2009.

[7] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. Learning a model of facial shape and expression from 4d scans. ACM Trans. Graph., 36 (6):194–1, 2017.

[8] Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, and Michael J Black. Generating 3d faces using convolutional mesh autoencoders. In Proceedings of the European conference on computer vision (ECCV), pages 704–720, 2018.

[9] Mingwu Zheng, Hongyu Yang, Di Huang, and Liming Chen. Imface: A nonlinear 3d morphable face model with implicit neural representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20343–20352, 2022.

[10] Haotian Yang, Hao Zhu, Yanru Wang, Mingkai Huang, Qiu Shen, Ruigang Yang, and Xun Cao. Facescape: a large-scale high quality 3d face dataset and detailed riggable 3d face prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 601–610, 2020.




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
厚重的历史书,雄伟的大教堂ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布ICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!车用传感器:永远追逐“高精度”车联网联盟CCC:CCC数字钥匙进入汽车的未来白皮书「纳微星科」获数千万元天使+轮融资,聚焦提供高可信、高精度的卫星导航终端应用及服务|36氪首发红色日记 1967年 18岁 1.1-16ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!切换到国内云服务成本降低50%,这家日本游戏公司真这么干了!从高精度采集到“3D生成”,AIGC怎样造福影视游戏业 | 专访影眸科技CVPR 2023 | SCConv: 即插即用的空间和通道重建卷积美国西北角小家庭和单身人士购物最爱的一家连锁超市录用率26.1%!NeurIPS 2023论文放榜,马毅田渊栋团队研究被接收ICCV 2023 OmniObject3D挑战赛倒计时!双重赛道等你来战ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶我国建成国际最高精度地表太阳辐射监测系统;紫光展锐Wi-Fi 6产品通过Wi-Fi联盟认证丨智能制造日报中央网信办发布《全球人工智能治理倡议》;微软正式发布AI内容审核工具;OpenAI开发可高精度检测AI生成图像工具丨AIGC日报导远电子领跑量产,从IMU到高精度组合定位|金球奖入围公示ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别宇宙人(1395期)开幕;中国首颗高精度地磁场探测卫星投入使用;月壤首次亮相澳门;越南Viettel验证自研5GOpenvRAN全产业链路开发,科讯生物结合微流控布局高精度、高灵敏度肿瘤标志物检测华为首家完成5G蜂窝低功耗高精度定位关键技术验证;移动“破风”芯片上架淘宝|AIoT情报活动预告:周末相约上海、太仓两地图书馆,揭秘《洛丽塔》的文本游戏,解读阿特伍德的女性写作回忆与思考「赛博联物」完成千万级天使+轮融资,用高精度电测技术解决分布式能源管理难题|早起看早期深圳杀出三维重建黑马,背靠港大,“一只手”可重建3D古城CVPR、ICCV 2023等顶会论文都在这里了!ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题Krypton:字节跳动新一代实时服务分析 SQL 引擎设计 | VLDB 2023 论文解读科学家开发高性能计算方法,将高精度分子动力学模拟规模提升至170亿原子战国故事《定风波》卷二(25):春梦「纳微星科」获数千万元天使+轮融资,聚焦提供高可信、高精度的卫星导航终端应用及服务|早起看早期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。