Redian新闻
>
人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型

人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【人脸技术】微信交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

项目主页:https://diffusion-facex.github.io

论文链接:https://arxiv.org/abs/2401.00551

1. 引言

研究问题:

随着泛娱乐领域的火热发展,以人为中心的AIGC技术也越发引人注目。本文研究多种主流面部编辑任务,包括low-level tasks如facial inpainting [1]和domain stylization [2],high-level tasks如region-aware face / head / attribute swapping [3,4,5,6,7],以及motion-aware pose / gaze / expression control [8,9,10]。上述任务在泛娱乐、社交媒体和安全等多个领域都有广泛的应用价值与前景。面部编辑的主要挑战是在修改不同属性的同时保持身份和未受影响的属性一致。

研究动机:

为了获得高质量的编辑人脸图像,当前方法大多在StyleGAN [11]的latent space寻找解耦方向实现不同属性的编辑。得益于扩散模型强大的生成能力,最近的人脸编辑工作逐渐采用改进的StableDiffusion(SD)模型来提高各种人脸编辑任务中生成的面部质量。然而,在Zero-shot setting下解耦并控制面部属性效果仍不理想。此外,不同的方法会精心设计task-specific模块以提高模型效果,不具有普适性而限制了它们的通用性。相比之下,通用模型(即一个模型完成多个任务)具有更高的实用价值,在自然语言处理[12,13]和图像分割[14]等领域均有相关研究工作。受限于面部任务的多样性,通用人脸编辑模型的研究存在较大挑战。   

如何统一多种人脸编辑任务:

作者认为不同人脸任务本质上均可表示为条件受限下的图像生成任务,不同任务之间的差异表现为条件的差异,因此只要将控制条件统一即可完成不同人脸编辑任务的统一。受启发于probabilistic LDA[15,16],作者的解决方案是引入了一个统一面部表征公式,宏观地将面部分解为三个因素的组合:

             (1)

其中代表身份(Identity),代表人脸相关变量(Intra-personal Variation),代表环境变量(Environmental Factors),代表强大的生成模型。进一步,可以分解为运动(Motion),面部纹理(Facial Texture)和头发(Hair),对应于照明(Illumination)和背景(Background)。如下图所示,该方式实现了清晰的公式级任务分解,易于操作并能快速适应各种面部编辑任务,使多功能和高效的解决方案成为可能。

2. 方法

作者首次提出了通用的人脸编辑模型FaceX,其使用统一的模型同时处理多种面部编辑任务,在zero-shot setting下生成高质量人脸图像的同时保持了各种属性的分解和编辑能力。具体地,FaceX包含两个重要的设计以实现通用人脸任务能力:

1)Facial Omni-Representation Decomposing (FORD,下图橙色部分):

作者基于统一面部表征公式(1)使用不同的预训练模型提取不同的面部成分,包括:   

Identity Feature:人脸识别特征[17]用来保持生成图像身份的一致性。

Region Feature:使用预训练CLIP ViT[18,19]作为面部特征编码器以与SD文本空间对齐,同时设计了FPN Adapter恢复空间分辨率,配合face parsing模型BiSeNet[20]得到的人脸区域(眉毛、眼睛、鼻子、嘴唇、耳朵和皮肤)后通过mask feature pooling得到区域特征表示

Motion Descriptor:使用D3DFR[21]提取expression和pose特征,此外解耦的light和texture特征进一步提升面部生成质量,MPIIGaze [22]提取gaze特征

2)Facial Omni-Representation Steering(FORS,下图绿色部分):

解耦后的人脸表示可以根据特定人脸任务灵活重组,包括:

Task-specific Representation Assembler在特征级别操作。

Task-specific Region Assembler在图像级别重组不同面部区域。

SD Adapter将重组后的特征映射到SD空间。

通过这种方式,提出的FaceX可以实现单一模型在多任务下的多样化和混合编辑能力,比如眼镜,胡须,外形,发型,图像修复,以及多种属性的组合。此外,直观的图像级区域重组操作也增强了编辑的交互性和应用价值。

3)Facial Representation Controller(FRC,下图蓝色部分):

对于条件生成模型,核心挑战是如何有效并高效地利用丰富的面部表征条件来指导目标图像的生成过程。作者提出了基于self-attention、cross-attention和zero-convolution串接的FRC模块进行特征的高效注入。

3. 实验

作者在8个主流人脸任务上做了大量定性/定量实验分析,证明了FaceX不仅能够使单一模型具有通用人脸编辑能力,同时具有最先进或极具竞争力的结果。部分实验结果如下,更多的实验结果见项目主页(https://diffusion-facex.github.io)和论文

   

   

4. 结论

作者提出了一种新颖的通才FaceX,通过构建连贯的面部表征来完成多种人脸编辑任务。具体来说,文章提出了一种新颖的FORD以便轻松操控各种面部细节,并设计了FORS来重组统一的面部表示,然后通过设计的FRC有效地引导SD的可控人脸生成过程。在多种人脸任务上的大量实验证明了所提方法的统一性、高效性和有效性。

参考文献
[1] Zhang, Wendong, et al. "Context-aware image inpainting with learned semantic priors." IJCAI. 2021.
[2] Gal, Rinon, et al. "StyleGAN-NADA: CLIP-guided domain adaptation of image generators." ACM TOG. 2022.
[3] Liu, Zhian, et al. "Fine-Grained Face Swapping via Regional GAN Inversion." CVPR. 2023.
[4] Luo, Yuchen, et al. "Styleface: Towards identity-disentangled face generation on megapixels." ECCV. 2022.
[5] Nirkin, Yuval, Yosi Keller, and Tal Hassner. "FSGANv2: Improved subject agnostic face swapping and reenactment." TPAMI. 2022.    
[6] Shu, Changyong, et al. "Few-shot head swapping in the wild." CVPR. 2022.
[7] Wang, Yuhan, et al. "Hififace: 3d shape and semantic prior guided high fidelity face swapping." IJCAI. 2021.
[8] Xu, Chao, et al. "High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning." CVPR. 2023.
[9] Zhang, Jiangning, et al. "Freenet: Multi-identity face reenactment." CVPR. 2020.
[10] Zhu, Feida, et al. "HifiHead: One-Shot High Fidelity Neural Head Synthesis with 3D Control." IJCAI. 2022.
[11] Karras, Tero, et al. "Analyzing and improving the image quality of stylegan." CVPR. 2020.
[12] Brown, Tom, et al. "Language models are few-shot learners." NeurIPS. 2020.
[13] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." NeurIPS. 2022.
[14] Wang, Xinlong, et al. "Images speak in images: A generalist painter for in-context visual learning." CVPR. 2023.
[15] Ioffe, Sergey. "Probabilistic linear discriminant analysis." ECCV. 2006.
[16] Prince, Simon, et al. "Probabilistic models for inference about identity." TPAMI. 2011.
[17] Deng, Jiankang, et al. "Arcface: Additive angular margin loss for deep face recognition." CVPR. 2019.
[18] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." ICML. 2021.
[19] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." ICLR. 2021.
[20] Yu, Changqian, et al. "Bisenet: Bilateral segmentation network for real-time semantic segmentation." ECCV. 2018.
[21] Deng, Yu, et al. "Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set." CVPRW. 2019.
[22] Zhang, Xucong, et al. "Mpiigaze: Real-world dataset and deep appearance-based gaze estimation." TPAMI. 2017.

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

人脸技术交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-人脸技术 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如人脸技术+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
广东出台“通用人工智能发展22条”顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架※※※ 2023唱坛【谁是大模王】& 【 2023万圣节蒙面快闪】 活动合辑※※※ABC找小留, Pro & Con人生完整了:第一次被逼要小费&讨论:继中餐馆,也需远离中国tony了吗?好用的不通用,通用的不好用,金融落地大模型需要“专业型”选手NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRQ&A 申请医学院精神科医生Alex:痛苦的时候,选择精神科还是心理咨询?广东要做通用人工智能最强省!2025算力全国第一,突破3千亿产业2千家企业《大炮、病菌和一场春梦》 (11) 那一年的记忆,除了战争和瘟疫,还有我做的春梦NeurIPS上新 | 从扩散模型、脑电表征,到AI for Science,微软亚洲研究院精选论文NTU吕教授1v1科研:基于机器学习的面部表情识别算法|收获一作论文与导师推荐信!让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接五位清华教授团建!从复杂推理到算力瓶颈,他们眼中“通用人工智能” 该如何降临?纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTA2分钟顺畅入境!加拿大边境局启用人脸识别等新技术!小说 《姚让的疫情时代》(33)刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLPNeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果张钹院士:从大语言模型到通用人工智能红色日记 儒法斗争 7.26-31更快!加拿大边境局启用人脸识别等新技术!两分钟顺畅入境!【暖冬神器1】真正的暖脚、暖腿神器!Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐罕见!苹果开源图片编辑神器MGIE,要上iPhone?这样读[尤利西斯]可以装Beta几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型宾州詹金斯植物园(Jenkins Arboretum),自然的秘密让机器人感知你!清华团队使用百万场景打造通用人机交接策略!浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力清华叉院提出「GenH2R」框架,用百万场景打造基于视觉的通用人机交接策略28、29 长篇民国小说《永泰里》第七章 明争暗斗 (1)&(2)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。