Redian新闻
>
CVPR 2024|Adobe提出人像抠图新网络MaGGIe

CVPR 2024|Adobe提出人像抠图新网络MaGGIe

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:极市平台 | 作者:周周

导读

 

通过结合Transformer注意力和稀疏卷积等先进技术,MaGGIe在图像和视频输入的细节准确性、时间一致性和计算效率方面都比以前的方法有了很大的改进。研究在综合训练数据和开发综合基准模式方面的方法为评估模型在实例抠图任务中的鲁棒性和有效性提供了一种新的方法。 

论文名称:MaGGIe: Masked Guided Gradual Human Instance Matting

文章地址:https://arxiv.org/abs/2404.16035

项目地址:https://maggie-matt.github.io/

摘要

人体抠图是图像和视频处理中的一项基础任务,旨在从输入中提取人体前景像素。马里兰帕克分校和Adobe研究院的研究人员提出新框架MaGGIe,即掩码引导人体实例抠图。该框架在保持计算成本、精度和一致性的同时,逐步预测人体实例的alpha通道。该框架由Transformer注意力和稀疏卷积构成,其在保持计算成本、精度和一致性的同时实现了更高质量的抠图mattes,并创建了新抠图数据集。

图:MaGGIe(该研究)与InsMatt对比

引言

在图像抠图中,一个简单的解决方案是预测像素的透明度- alpha通道,以精确地去除背景,考虑具有前景和背景两个主要成分的显著性图像。由于检测前景区域的模糊性,例如,一个人的物品是否属于人体前景的一部分,许多研究利用trimaps定义前景、背景和未知或过渡区域,但是在视频中创建trimaps需要消耗大量资源。相比于trimaps,替代的二进制掩码更容易通过绘图或现成的分割模型获得,提供更大的灵活性。

在处理视频输入时,随着视频长度的增加,trimap图的传输性能下降。在trimap预测中,由于错误的预测,比如前景-未知-背景区域之间的对齐,会导致不正确的alpha通道。相比之下,对每一帧使用二进制掩码可以得到更鲁棒的结果。然而,帧输出之间的一致性对于视频抠图方法仍然很重要。许多研究约束了帧间特征映射的时间一致性。在视频分割和抠图中,一些研究通过计算不相干区域来跨帧更新值。本研究(MaGGIe模型)提出了一个时间一致性模块,可以在特征和输出空间中工作,以产生一致的alpha通道。

InstMatt模型在进行实例细化之前,通过从二进制引导掩码中分别预测每个alpha通道来处理多实例图像。尽管该方法性能良好,但该模型的效率和准确性在视频处理中尚未进行分析。上图反映了MaGGIe和InstMatt在处理视频时的性能比较,MaGGIe不仅提高了精度,而且提高了各帧之间的一致性。

除了时间一致性外,在将实例抠图扩展到包含大量帧数和实例的视频时,如何精心设计网络以防止计算成本激增也是关键挑战。为解决该问题,该研究在网络设计上进行调整。首先,利用AOT启发的掩码引导嵌入,将输入大小减小到恒定的通道数。其次,根据各种视觉任务中Transformer注意力的进展,该研究继承了基于查询的实例分割,在一次前向传递中预测实例mattes,而不是分离估计,并通过注意力机制取代了以前复杂的细化工作。为了节省Transformer关注的高成本,该模型只在粗层次上进行多实例预测,并在多尺度上进行逐步细化。替换为稀疏卷积大大节省了推理成本,保持了算法的恒定复杂度。

网络模型

图:MaGGIe模型架构

1.有效的掩码引导实例抠图

该框架处理具有二进制实例引导掩码M的图像或视频帧I,并且预测每一个实例每一帧的Alpha通道。(1)输入构建:将输入图像I和引导嵌入E进行连接。(2)图像特征提取:利用特征金字塔网络,从输入图像I中提取特征映射Fs。(3)实例alpha 通道预测:本研究采用Transformer注意力来预测最粗糙特征F8上的实例问题,对点积注意机制进行变更。在解码器中,将缩小的引导掩码M8加入注意力过程。(4)逐级细化:利用MLP将密集特征F8转化为实例特征X8。运用Instance Guidance模块将特征X8与图像特征F4相结合,生成稀疏实例特征X4。然后将稀疏特征X4分别与其他密集特征F2、F1聚合,得到X2、X1。在每个尺度上,预测alpha通道A4和A1,实现逐级细化。(5)从粗糙到精细处理信息:将不同尺度的alpha通道按递进方式进行组合:A8→A4→A1得到A,每一步只细化不确定位置和属于未知掩码的值。(6) 训练损失:除了标准损失(L1,Laplacian Llap,Gradient Lgrad)之外,增加通过注意损失Latt来监督实例token和图像特征映射之间的亲和得分矩阵。此外,自定义权重W8以反映网络的逐步细化过程中粗级预测程度。

2. Feature-Matte 时间一致性

(1)特性时间一致性:利用对视频输入运用Conv-GRU,网络保证了相邻帧的特征映射之间的双向一致性。(2)Alpha通道时间一致性:通过预测帧的时间稀疏度来融合帧抠图。(3)训练损失:引入时间一致性的dtSSD损失和Alpha通道差异的L1损失。

实验结果:

1. 图像数据训练结果

评估指标:指标包括平均绝对差(MAD)、均方误差(MSE)、梯度(Grad)和连通性(Conn)。研究人员分别计算了前景和未知区域的上述指标,表示为MADf和MADu。因为图像包含多个实例,所以度量是为每个实例单独计算的,然后取平均值。

消融研究:每个消融研究设置训练了10,000次迭代,批大小为96。下表反映了嵌入层与堆叠掩码和图像输入的性能。嵌入层的性能得到了改善,当Ce = 3时效果尤为显著。下表评估了在训练中使用Latt和W8的影响。Latt显著提高了模型的性能,而W8的使用获得了轻微的提升。

表:HIM2K+M-HIM2K数据集上叠加掩码嵌入的性能对比

表:HIM2K+M-HIM2K数据集上Latt和W8参数性能对比

定量结果:在定量测试中,引入多个对比模型,例如,MGM ,MGM,InstMatt等,如下表所示。MaGGIe模型在复合集和自然集上显示了较好的结果,在大多数指标上实现了最低的误差。同时,MGM模型也表现良好,这表明同时处理多个掩码可以促进实例交互。同时,该实验在M-HIM2K数据集上测量了模型的内存和速度,InstMatt, MGM和SparseMat的推理时间随实例数量线性增加,但MGM -和MaGGIe模型在内存和速度上都保持稳定的性能。

表:HIM2K+M-HIM2K数据集上不同模型性能对比

定性结果:MaGGIe捕捉细节和有效分离实例的能力如上表所示。在精确的分辨率下,MaGGIe模型可以与每个实例单独运行MGM模型的性能相媲美,并且超过了公开版本和重新训练版本的InstMatt。MaGGIe模型能够熟练地区分不同的实例,其实例分离功能突出了它在处理复杂的抠图场景时的有效性。

2 视频数据训练结果

时间一致性评估指标:增加了评估指标,包括dtSSD和MESSDdt,以评估跨帧实例抠图的时间一致性。

表:消融实验在时间一致性上的性能对比

消融实验:如上表所示,单向Conv-GRU的使用改善了结果,并通过添加反向融合获得了进一步的效益。单独的前向融合效果较差,可能是由于误差传播。最优的网络设置包括结合反向传播来减少误差,从而产生最佳结果。

性能评估:实验结果如下表所示,该研究提出的MaGGIe模型在大多数指标上表现优于其他对比模型,特别是在需要高时间一致性和细节保存的具有挑战性的场景中。该模型在dtSSD和MESSDdt指标上表现出色,具有良好的时间一致性。同时,该模型在Grad指标上优于其他对比模型,在捕获精细细节上性能卓越。

表:不同模组在V-HIM60数据集上的性能对比

时间一致性和细节保存:如下图所示,该模型在视频实例抠图上的性能亮点包括:

  • 随机噪声的处理:有效处理了掩码输入中的随机噪声,优于其他与不一致的输入掩码质量处理的方法。
  • 前景/背景区域一致性:跨帧保持一致,准确的前景预测,超过InstMatt和MGM⋆-TCVOM。
  • 细节保存:模型保留了复杂的细节,与InstMatt性能相当,优于MGM模型变体。上述实验结果反映了MaGGIe在视频实例抠图中的鲁棒性和有效性,特别是在保持时间一致性和保留跨帧的精细细节方面。

总结:

通过结合Transformer注意力和稀疏卷积等先进技术,MaGGIe在图像和视频输入的细节准确性、时间一致性和计算效率方面都比以前的方法有了很大的改进。此外,该研究在综合训练数据和开发综合基准模式方面的方法为评估模型在实例抠图任务中的鲁棒性和有效性提供了一种新的方法。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式迟春CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力雨夜CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构手擀面CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型有不烦车子的自动停启功能的吗?2024 BMW X5CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut愚人节(4/1/2024)CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络满庭芳 · 巴塞罗那CVPR 2024 | 谷歌提出OmniGlue:特征匹配新工作CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步Best CD Rates Of April 2024: Up To 5.42%春季观鹤:2024 科州CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet著名的密西根大学再收藏11本美国南方出版社图书 之前已收藏143本CVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理2024,哪个包会是LV的断货王?大三本科生在CVPR 2024上发表论文!CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生SIGGRAPH2024|上科大、影眸联合提出DressCode:从文本生成3D服装板片CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。