Redian新闻
>
CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

公众号新闻

新加坡管理大学何盛烽团队联合华南师范大学在CVPR 2024上发表了工作《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation》。这一工作聚焦于利用扩散模型语义传播实现交互式点控制的图像编辑,只需点几个点,即可对用户输入的真实图片和生成图片精准快速的编辑,再也不用担心甲方 “天马行空” 的要求!!!

DragNoise对内容填充、擦除、转脸、姿势控制等要求都能轻松快速的搞定,想要拖动哪里只需点一个红点,想要拖到哪里只需点一个蓝点,DragNoise即可将红点的内容拖拽到蓝点。相对于SOTA方法DragDiffusion,我们方法在有效保留图片原有信息的同时实现更精准快速的拖拽。

Arxiv链接:http://arxiv.org/abs/2404.01050

Code: https://github.com/haofengl/DragNoise

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

DragNoise

DragDiffusion

在这一领域,一些近期的工作引起了广泛关注。利用生成对抗网络(GAN)的DragGAN是一个重要里程碑,DragDiffusion进一步应用到扩散模型上,下图展示了这两个方法的主要思想。不同于传统的“Outer-inversion”将真实图像反演至latent空间,我们将这种将用户编辑反演至latent空间的内部优化过程称为“Inner-inversion”。

1.DragGAN:使用StyleGAN2生成器的第6层特征作为运动监督,将拖拽编辑反演至latent code,从而产生相应的拖动结果图。尽管DragGAN具有创新性,但基于GAN固有的生成效果局限性使其无法获得高质量的编辑结果。此外,该工作和其他基于GAN的编辑方法涉及优化新的latent code,难以保留图片全局内容。

DragGAN

2.DragDiffusion利用大规模预训练扩散模型的优势,在这一领域取得了显著进步。DragDiffusion延续了DragGAN的“Inner-inversion”方法,利用U-Net中间特征来监督优化噪声latent map,从而控制后续去噪过程生成编辑后的图片。

然而,我们发现DragDiffusion出现了两个主要问题:梯度消失导致的拖拽不足或无效,以及较低的反演保真度。DragDiffusion的反演反向传播链较长,当控制点前后的特征差异很小时,梯度消失的问题就会加剧,导致结果出现“欠拖拽”。

此外,保持图像的保真度仍然是反演技术的长期挑战。虽然DragDiffusion相比DragGAN,通过将“Inner-inversion”扩展到二维latent map,改善了空间控制,但由于其优化路径为反传到去噪过程中的有噪声latent map,仍然难以保持较高的保真度。

DragDiffusion

相比于以上的方法,我们提出的方法DragNoise改变预测的噪声并传播优化来进行图像编辑。

DragNoise的核心思想来源于我们对在扩散模型中一种“middle-block replacement”的操作的探索。该操作从某个去噪时间步开始,将不同层的特征复制到所有后续timestep的对应层。通过观察DDIM inversion重建图像的效果,我们探索了扩散模型在何时以及何处学习到何种层次的语义信息。

如下图所示,我们发现,bottleneck特征是一种最优扩散语义表示,适合于高效编辑。由于它可以在早期timestep中有效地被编辑,因此操纵bottleneck特征可以平滑地传播到后面的去噪步骤,从而确保结果图像扩散语义的完整性。此外,由于优化bottleneck的路径短,有效地避免了梯度消失问题。

Middle-Block Replacement

如下图所示,我们的方法DragNoise包括两个过程:扩散语义优化和扩散语义传播:

1.扩散语义优化:DragNoise的编辑过程开始于训练高级语义的timestep (例如,t=35),在此阶段针对用户的拖拽编辑对U-Net的bottleneck特征进行扩散语义优化。优化后的bottleneck特征学习到预期的拖拽效果,并使U-Net输出相应的操纵噪声。

2.扩散语义传播:上一个步骤中优化的bottleneck特征包含了目标语义,因此与上面讨论的“middle-block replacement”操作相似,我们通过替换相应的bottleneck特征将优化后的bottleneck特征传播到所有后续时间步,从而避免了冗余的特征优化。这种替换以稳定、高效的方式显著增强了操纵效果。

DragNoise

我们使用拖拽编辑数据集DragBench和不同的示例图像进行了广泛的定量和定性实验。如下图,DragDiffusion在大幅编辑时,会出现破坏周围特征的情况。DragGAN由于其生成能力的限制, 对用户输入的图片编辑会严重失真,即使对于GAN生成的图片(下图中小猫),由于其优化的latent code为一维特征,缺少空间控制能力,会出现全局变化。

另外,我们在编辑点周围特征相似的极端情况下进行了实验,我们方法可以实现精准的控制,且控制能力优于FreeDrag方法。

与DragDiffusion相比,DragNoise显著减少了50%以上的优化步骤。结果表明了DragNoise的编辑具有突出的效率和灵活性。

我们在DragBench数据集上进行了定量实验,结果达到了SOTA。

此外,我们展示更多和DragDiffusion的对比效果,以表明我们方法广泛的有效性。

最后,我们展示更多的DragNoise的编辑过程,以表明DragNoise的连续性和稳定性。    

更多内容,点击下方关注:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
这次去看小朋友,觉得她的一句话很有道理:protect your timeCVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF老黄发言了:Don't waste your time learn codingCVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计每月一千欧元就能在德国读大学CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT大三本科生在CVPR 2024上发表论文!CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度今日帖,今日读——— 刘德华长得太像陈云帖 美国女巫赫文莉帖股市帖 经济不振帖 金主爱帖 孙殿英盗墓两座,八路军盗墓14CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型每天10句英语口语|Would you mind if I use your phone?APAD: Put that in your pipe and smoke itCVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Property to Virtual Goods, More Young Chinese Are Drafting WillsCVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型CVPR、AAAI、ICLR 2024优秀论文!每天一则英语笑话:did you close your garage door 啥意思?外婆要买的三大件CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 Workshop "非接触健康监测",邀你来投稿!我有一雙可愛的雙胞胎兒女CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品石蓓教授:畅谈2023血脂领域新热点——联合应用、更强降脂、更高获益 | CCIF2024外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法Chase UR 点数“Pay Yourself Back” (PYB)【去掉Grocery类别,新增Wholesale类别】stop fooling around, allocate 1% of your portfolio into BTC52、长篇家庭伦理小说《嫁接》第十三章 节日血拼(2)CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别No one can make you feel inferior without your consentCVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。