Redian新闻
>
ACM MM 2023 | 「噪」不住你的美,美图&国科大联合提出人脸修复方法DiffBFR

ACM MM 2023 | 「噪」不住你的美,美图&国科大联合提出人脸修复方法DiffBFR

公众号新闻

机器之心专栏

机器之心编辑部


盲人脸恢复(Blind Face Restoration, BFR)旨在从低质量的人脸图像中恢复高质量的人脸图像,是计算机视觉和图形学领域的一项重要任务,广泛应用于监控图像修复、老照片修复和人脸图像超分辨率等各种场景。


然而,这项任务非常具有挑战性,因为不确定性退化会损害图像质量以至于损失图像信息,例如模糊、噪声、下采样和压缩伪影等。以前的 BFR 方法通常依赖于生成对抗网络 (GAN),通过设计各种特定于人脸的先验来解决问题,包括生成先验、参考先验和几何先验。尽管这些方法达到了最先进的水平,但仍然没有完全达到在恢复细粒度面部细节的同时获得逼真纹理这一目标。


因为在图像修复过程中,人脸图像的数据集通常分散在高维空间中,并且分布的特征维度呈现长尾分布形式。与图像分类任务的长尾分布不同,图像修复里的长尾区域特征指的是对身份影响较小,而对视觉效果影响很大的属性,比如痣、皱纹和色调等等。


如图 1 所示,简单的实验表明,过去基于 GAN 的方法不能很好地同时处理位于长尾分布头部和尾部的样本,导致修复图像会出现明显的过平滑和细节消失问题。而基于扩散概率模型 (Diffusion Probistic Models, DPM) 的方法能够较好地拟合长尾分布,在拟合真实数据分布的同时保留尾部特征。


图 1 GAN-based 和 DPM-based 在长尾问题上的测试


来自美图影像研究院(MT Lab)与中国科学院大学的研究者共同提出一种基于 DPM 的盲人脸图像修复新方法 DiffBFR,实现了盲人脸图像恢复,将低质量(low-quality, LQ)的人脸图像修复成高质量(high-quality, HQ)的清晰图像



论文链接:https://arxiv.org/abs/2305.04517


该方法探索了两种生成式模型 GAN 和 DPM 对长尾问题的适应性,设计合适的人脸修复模块来得到更加准确的细节信息,进而降低生成式方法带来的脸部过平滑现象,从而提高修复精度和准确性。该论文已被 ACM MM 2023 接收。


DiffBFR:基于 DPM 的盲人脸图像修复方法


研究发现,扩散模型在避免训练模式崩溃和拟合生成长尾分布方面优于 GAN 方法,因此 DiffBFR 利用扩散概率模型来增强人脸先验信息的嵌入,基于它在任意分布范围内产生 HQ 图像的强大能力,选择 DPM 作为解决方案的基本框架。


针对论文中所发现的人脸数据集上的特征长尾分布,以及过去基于 GAN 方法的过平滑现象,该研究探索合理的设计来更好地拟合近似长尾分布,进而克服修复过程中的过平滑问题。通过相同参数大小的 GAN 和 DPM 在 MNIST 数据集上的简单实验(如图 1),该论文认为 DPM 方法能够合理地拟合长尾分布,而 GAN 会过度关注头部忽略尾部特征,导致尾部特征不再生成。因此,选择 DPM 作为 BFR 的一种解决方案。


通过引入两个中间变量,DiffBFR 中提出了两个具体的修复模块,采用两阶段设计,首先从 LQ 图像中恢复身份信息,再根据真实人脸的分布增强纹理细节。该设计由两个关键部分组成:


(1)身份恢复模块(Identity Restoration Module, IRM):


该模块用于保留结果中的人脸细节。同时,提出了一种从 LQ 图像中加入部分噪声的截断采样方法,取代了在反向过程中以 LQ 图像为条件,从纯高斯随机分布去噪的方法。论文从理论上证明了这种变化缩小了 DPM 的理论证据下界(ELBO),从而恢复了更多的原始细节。在理论证明的基础上,引入两个不同输入大小的级联条件扩散模型来增强这种采样效果,降低直接生成高分辨率图像的训练难度。同时进一步证明,条件输入的质量越高,越接近真实数据分布,恢复的图像越准确,这也是 DiffBFR 在 IRM 中首先恢复低分辨率图像的原因。


(2)纹理增强模块 (Texture Enhancement Module, TEM):


用于对图像进行纹理打磨。这里引入了一个无条件扩散模型,这是一个与 LQ 图像完全无关的模型,进一步使得恢复结果看起来更接近真实图像数据。论文从理论上证明了这种在纯 HQ 图像上训练的无条件扩散模型有助于 IRM 在像素级空间中输出图像的正确分布,即应用该模块后图像分布的 FID 低于使用前的 FID,得到的修复图像总体上和 HQ 图像的分布更相似。具体而言,就是利用时间步长截断采样,在保留身份信息的同时对像素级纹理进行打磨。


DiffBFR 的采样推理步骤如图 2 所示,采样推理过程示意图如图 3 所示。


图 2 DiffBFR 方法的采样推理步骤


图 3 DiffBFR 方法的采样推理过程示意图


实验结果


图 4 BFR 的 GAN-based 方法和 DPM-based 方法的可视化效果比较


图 5 BFR 的 SOTA 方法的性能比较


图 6 BFR 的 SOTA 方法的可视化效果比较


图 7 IRM 和 TEM 在模型中的性能比较可视化


图 8 IRM 和 TEM 在模型中的性能比较


图 9 IRM 不同参数性能比较


图 10 TEM 不同参数性能比较


图 11 DiffBFR 各个模块的参数设置


总结


该论文提出了基于扩散模型的盲退化人脸图像恢复模型 DiffBFR,避免了过去基于 GAN 方法的训练模式崩溃和长尾消失问题。通过将先验嵌入到扩散模型中,从随机严重退化的人脸图像中生成高质量清晰的恢复图像。具体来说,提出了 IRM 和 TEM 两个模块,分别用于还原逼真度和还原真实细节。理论边界的推导和实验图像的演示表明了该模型的优越性,并与现有的 SOTA 方法进行了定性和定量比较。


研究团队


本论文由美图影像研究院(MT Lab)和中国科学院大学的研究者们共同提出。美图影像研究院(MT Lab)成立于 2010 年,是美图公司致力于计算机视觉、深度学习、增强现实等领域的算法研究、工程开发和产品化落地的团队,成立以来聚焦于计算机视觉领域的探索研究,2013 年开始布局深度学习,为美图旗下全系软硬件产品提供技术支持,同时面向影像行业内多个垂直赛道提供针对性 SaaS 服务,通过前沿影像技术推动美图 AI 产品生态发展,曾先后参与 CVPR、ICCV、ECCV 等国际顶级赛事并斩获十余项冠亚军,发表超 48 篇国际顶级学术会议论文。美图影像研究院(MT Lab)长期深耕影像领域研发,已经形成深厚的技术储备,在图片、视频、设计、数字人领域具有丰富的技术落地经验。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第三章 旧文明的社会组织 (全文)莫怨枯寒梅纪念家驹【不再犹豫 】&【逝去日子】5100 血壮山河之武汉会战 浴血田家镇 8Llama也中招,混合精度下位置编码竟有大坑,百川智能给出修复方案文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23ESC 中国之声丨培哚普利、吲达帕胺、氨氯地平单片复方制剂的疗效和安全性不劣于三药自由联合治疗《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!警告!CFA备考余额不足2个月!做好这两件事,稳住你的考试!Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & APICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型老地雷&高歌低吟《Help me make it through the night》广电总局对媒体融合提出这些要求!混合精度下位置编码竟有大坑,llama 等主流开源模型纷纷中招!百川智能给出修复方案「RCM音乐黑板报」BC 省音乐教师答谢宴会 & 2023-24冬季RCM考级​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVISNeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成ICML 2023|CMU大牛全面总结「多模态机器学习」六大挑战:36页长文+120页PPT,全干货!清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统彭博和上海清算所联合提供人民币利率互换初始保证金试算服务ACM MM 2023 | DecenterNet:解决拥挤场景的去中心化人体姿态估计方法你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容泰国诗圣苏东坡蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!Cell Reports | 上科大联合上交大团队揭示输卵管妊娠破裂病理特点及分子机制ACM MM 2023 | CLE Diffusion:可控光照增强扩散模型ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测瓦格纳反水的启示---要善待厨子中科大&微软提出DragNUWA:拖拽下图像就能生成视频!NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!Gunn HS懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法学生身份没保住,两种身份恢复方法!【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。