化妆师即将下岗?迪士尼发布首个可实用的re-age模型FRAN,覆盖18-85岁人脸变化
新智元报道
新智元报道
【新智元导读】迪士尼发布首个可用于真实场景的、全自动化的re-age模型FRAN,图像变化完全可控!
看过《本杰明·巴顿奇事》的小伙伴一定会对皮特在剧中同时饰演老年、中年和青年巴顿感到印象深刻,该影片还在2009年斩获了最佳化妆等三项奥斯卡大奖。
十几年后的今天,虽然当下计算机视觉模型可以对人脸的年龄进行生成、风格迁移等,但这也只是看起来炫酷,在实际应用中却几乎零作用,现有的技术通常存在着面部特征丢失、分辨率低和在后续视频帧中结果不稳定的问题,往往需要人工二次编辑。
最近迪士尼发布了第一个可实用的、完全自动化的、可用于生产使用的视频图像中re-age人脸的方法FRAN(Face Re-Aging Network),正式宣告电影中靠化妆师改变演员年龄视觉效果的技术落幕。
论文链接:https://studios.disneyresearch.com/2022/11/30/production-ready-face-re-aging-for-visual-effects/
论文中的第一个关键思路是解决收集训练数据的问题,以便在较长的时间跨度下让模型学习到如何re-age人脸。
但对于真实场景中存在的大量人物来说,这是一项几乎不可能完成的任务。
研究人员使用 StyleGAN2随机生成了大量的年龄在18岁至85岁之间的人工合成人脸,有了这样一个数据集,就可以用于模型训练。
论文中的第二个关键思路是,利用这些合成数据,将面部re-age任务定义为图像到图像的转换任务,这一步可以通过训练一个U-Net模型来完成,而无需更复杂的网络设计。
最终FRAN模型成功学习到了人的外貌是如何随着年龄变化而改变的,并且在训练完成后,可以直接逐帧地用于真正的演员身上。
实验结果中展示了简单的U-Net是如何在视频上推进真实人脸的Re-Age技术的,其以前所未有的时间稳定性,并在不同的表情、视角和照明条件下均能保持面部特征。
研究人员还为 FRAN 开发了一个用户友好的界面,允许艺术家在生产环境中轻松使用该工具,为艺术家提供了局部控制和创造性的自由,以指导和微调re-age效果。
全自动化Re-Age
全自动化Re-Age
在过去的几年里,在电影制作和广告中使用数字老化或减龄人类角色的情况急剧增加,比如在《爱尔兰人》(The Irishman)中让罗伯特-德尼罗(Robert De Niro)显得更年轻,或是在抗击疟疾的广告活动中让大卫-贝克汉姆看起来衰老,都需要用到Re-Age技术。
一般来说,有两种不同的方法常用于CG数字re-age。
1. 沿用传统的三维面部建模pieline,对一个完整的三维re-age面部装备进行建模、动画和渲染,以取代场景中的原始肖像。
这种方法需要在re-age前制作一个完整的三维面部装备来辅助操作,由于其复杂性并且所需时间过长,通常只会应用在那些顶级流量的明星演员上或是有特写的镜头。
2. 遵循一个纯粹的二维painting(即照片)的工作流程,对拍摄完成后的视频中每一帧进行编辑合成,改变演员的年龄。
虽然这种方法所提供的整体控制不如完全的三维方法(例如,视角或场景照明变化过大),但与三维方法相比,这种方法极其简单易用,也不需要提前对演员进行面部扫描并制作面部装备。
因此,二维数字re-age在业内逐渐受到关注,并被用于一些大片的制作中,如《蚁人》中的迈克尔-道格拉斯和《惊奇队长》中的塞缪尔-杰克逊的re-age。
虽然re-age的二维工作流程是比较直观且简便的,但其仍然需要专业人员逐帧对表演视频进行手动编辑。
例如,在使演员变老时,每一帧都必须整合预期的耳朵和鼻子的增长,肌肉张力的丧失和面部皮肤的下垂,动态皱纹的增加,甚至皮肤色素和血流的变化。
整个过程需要熟练的艺术家来实现高质量的逼真和时间上连贯的结果,即使是一个单一的镜头,也可能需要几天的时间来重新制作。
而迪士尼提出的FRAN模型则是完全自动化且可控的高分辨率面部re-age方法,可以直接适用于视频图像中完整的镜头,每个视频帧所消耗的时间大概不到5秒钟。
FRAN模型
FRAN模型
为了实现对任意表情、视角和光照下的人脸视频图像能够保留identity并且可控地re-age,研究人员将该问题形式化为图像到图像的转换。
数据合成
第一个关键部分是找到一个有效的策略,绕过看似不可能完成的任务,即获取在不同视角下描述各种身份、年龄和种族的图像数据集。
为了以完全监督的方式训练re-age网络,数据集需要大量的输入-输出图像对,其中每对图像中的图像描绘相同的人物,具有相同的面部表情、姿势、照明和背景,但处于两个不同的已知年龄。
显然,如果数据集里都是真人的话,那么这项任务几乎是不可能完成的。
已经有相关工作利用上了在大量真实人脸上预训练的神经面部模型的潜空间内的语义操作,不过这些模型中通常在「真实人脸」上表现不佳,虽然操作是近似的,但可能会导致身份漂移。
有一点不可否认,这些模型确实已经捕捉到了re-age过程的语义,这一特性使得研究人员可以在潜空间进行遍历来合成高质量的re-age数据集。
在时间上向前和向后遍历后,会为特定身份生成一个连续的年龄变化过程,从而生成大量的图像对用于训练,也可以在不同的视角、面部表情、照明条件和背景下对其进行采样,提升模型的真实性,
研究人员选择使用最新的基于风格的年龄操纵(SAM, Style-based Age Manipulation)方法对训练数据集进行采样,该路径只改变年龄,对其他面部属性几乎没有副作用,从而符合最大化面部皮肤区域数字re-age质量的目标。
根据上述策略,最终创建了一个包含2000个身份的人脸re-age训练数据集,每个身份具有18至85岁范围内的14个不同年龄,因此每个采样身份总共提供196个训练对。
获得高质量的数据后,模型问题就变得简单了。
模型架构
问题中的第二个关键因素是为设计一个适当的参数空间,能够在不断变化的表情和视角中保持身份,并在不同的视频帧中保持良好的一致性。
考虑到任务中图像到图像的翻译性质,研究人员为FRAN采用了熟悉和成熟的U-Net架构设计,并为翻译质量和re-age控制做了小的调整。
FRAN的输入为5个通道,包括RGB图像和两个单通道表示年龄(指定了每个图像像素的输入和输出年龄)。
U-Net需要预测每个像素的RGB deltas(偏移量),这些偏移量被添加到输入图像上,以形成最终的re-age结果。
此外,这些输入年龄通道不一定是是恒定的,可以主观来推测年龄,然后用其他值进行填充,以控制脸部不同区域的re-age量。
使用输入的年龄值也可以用来控制FRAN,使其可以更容易整合预训练好的脸部分割网络,可以自动控制生成的效果,将其限制在脸部的特定区域。
FRAN使用成对的、具有L1、perceptual和对抗性损失的合成数据进行训练。
实验部分
实验部分
首先对几张静止的照片进行re-age,对于每张有估计原始年龄的输入照片,要求网络单独输出从20岁到80岁的不同年龄的图像,每10年变化一次。
可以看到生成结果不仅在年龄上是平滑和连续的,而且还与输入图像的identity非常接近。
在时间稳定性的测试中,显示了两段不同视频的3帧中两个人的老化情况,该方法可以稳健地处理不同的头部姿势和极端的光线条件,并产生时间上一致的re-age结果。
再将该方法应用于表情、头部姿势和光照的受控变化,可以进一步评估re-age年龄的一致性。
即便输入图像存在运动模糊等情况,该方法仍然可以正确输出re-age后的结果,这一特点使得用户可以很容易地将该网络应用于视频帧,而不需要预先或后期处理步骤,比如预先锐化或后期应用模糊过滤器来匹配原始镜头。
最后,研究人员将该re-age结果与现实世界的图像进行比较,两张相同人物的图像分别拍摄于2007年和2022年,直观来看该方法生成的re-age结果确实可以生成合理的目标年龄图像。
微信扫码关注该文公众号作者