Redian新闻
>
有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

公众号新闻
机器之心报道

编辑:蛋酱、小舟

如果甲方想把大象 P 转身,你只需要拖动 GAN 就好了。


在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。


在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比 GAN 方法更易于控制,这是 GAN 式微的原因之一。


当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。


最近,来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN,能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。



  • 论文链接:https://arxiv.org/abs/2305.10973

  • 项目主页:https://vcai.mpi-inf.mpg.de/projects/DragGAN/


这种全新的控制方法非常灵活、强大且简单,有手就行,只需在图像上「拖动」想改变的位置点(操纵点),就能合成你想要的图像。


例如,让狮子「转头」并「开口」:


还能轻松让小猫 wink:


再比如,你可以通过拖动操纵点,让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片:


如果你也接到了「把大象转个身」的 P 图需求,不妨试试:




整个图像变换的过程就主打一个「简单灵活」,图像想怎么变就怎么变,因此有网友预言:「PS 似乎要过时了」。


也有人觉得,这个方法也可能会成为未来 PS 的一部分。


总之,观感就是一句话:「看到这个,我脑袋都炸了。」


当大家都以为 GAN 这个方向从此消沉的时候,总会出现让我们眼前一亮的作品:


这篇神奇的论文,已经入选了 SIGGRAPH 2023。研究者表示,代码将于六月开源。


那么,DragGAN 是如何做到强大又灵活的?我们来看一下该研究的技术方法。


方法概述


该研究提出的 DragGAN 主要由两个部分组成,包括:


  • 基于特征的运动监督,驱动图像中的操纵点向目标位置移动;

  • 一种借助判别型 GAN 特征的操纵点跟踪方法,以控制点的位置。


DragGAN 能够通过精确控制像素的位置对图像进行改变,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。


GAN 有一个很大的优势是特征空间具有足够的判别力,可以实现运动监督(motion supervision)和精确的点跟踪。具体来说,运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标,然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程,直到操纵点达到目标。


DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络,因此它实现了高效的操作,大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑,用户可以对图像进行多次变换更改,直到获得所需输出。



如下图所示,DragGAN 可以有效地将用户定义的操纵点移动到目标点,在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是,本文的变形是在 GAN 学习的图像流形上进行的,它倾向于遵从底层的目标结构,而不是简单地应用扭曲。例如,该方法可以生成原本看不见的内容,如狮子嘴里的牙齿,并且可以按照物体的刚性进行变形,如马腿的弯曲。


研究者还开发了一个 GUI,供用户通过简单地点击图像来交互地进行操作。


此外,通过与 GAN 反转技术相结合,本文方法还可以作为一个用于真实图像编辑的工具。


一个非常实用的用途是,即使合影中某些同学的表情管理不过关,你也可以为 Ta 换上自信的笑容:


顺便提一句,这张照片正是本篇论文的一作潘新钢,2021 年在香港中文大学多媒体实验室获得博士学位,师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后,并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。


这项工作旨在为 GAN 开发一种交互式的图像操作方法,用户只需要点击图像来定义一些对(操纵点,目标点),并驱动操纵点到达其对应的目标点。


这项研究基于 StyleGAN2,基本架构如下:



在 StyleGAN2 架构中,一个 512 维的潜在代码𝒛∈N(0,𝑰)通过一个映射网络被映射到一个中间潜在代码𝒘∈R 512 中。𝒘的空间通常被称为 W。然后,𝒘被送到生成器𝐺,产生输出图像 I = 𝐺(𝒘)。在这个过程中,𝒘被复制了几次,并被送到发生器𝐺的不同层,以控制不同的属性水平。另外,也可以对不同层使用不同的𝒘,在这种情况下,输入将是,其中𝑙是层数。这种不太受约束的 W^+ 空间被证明是更有表现力的。由于生成器𝐺学习了从低维潜在空间到高维图像空间的映射,它可以被看作是对图像流形的建模。


实验


为了展示 DragGAN 在图像处理方面的强大能力,该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。


定性评估


图 4 是本文方法和 UserControllableLT 之间的定性比较,展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点,实现了多样化和自然的操纵效果,如改变动物的姿势、汽车形状和景观布局。相比之下,UserControllableLT 不能忠实地将操纵点移动到目标点上,往往会导致图像中出现不想要的变化。


如图 10 所示,它也不能像本文方法那样保持未遮盖区域固定不变。



图 6 提供了与 PIPs 和 RAFT 之间的比较,本文方法准确地跟踪了狮子鼻子上方的操纵点,从而成功地将它拖到了目标位置。



真实图像编辑。使用 GAN inversion 技术,将真实图像嵌入 StyleGAN 的潜空间,本文方法也可以用来操作真实图像。


图 5 显示了一个例子,将 PTI inversion 应用于真实图像,然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情:


图 13 展示了更多的真实图像编辑案例:


定量评估

研究者在两种设置中下对该方法进行了定量评估,包括人脸标记点操作和成对图像重建。


人脸标记点操作。如表 1 所示,在不同的点数下,本文方法明显优于 UserControllableLT。特别是,本文方法保留了更好的图像质量,正如表中的 FID 得分所示。


这种对比在图 7 中可以明显看出来,本文方法打开了嘴巴并调整下巴的形状以匹配目标脸,而 UserControllableLT 未能做到这一点。



成对图像重建。如表 2 所示,本文方法在不同的目标类别中优于所有基线。



消融实验


研究者研究了在运动监督和点跟踪中使用某种特征的效果,并报告了使用不同特征的人脸标记点操作的性能(MD)。如表 3 所示,在运动监督和点跟踪中,StyleGAN 的第 6 个 block 之后的特征图表现最好,显示了分辨率和辨别力之间的最佳平衡。



表 4 中提供了𝑟_1 的效果。可以看出,性能对𝑟_1 的选择不是很敏感,而𝑟_1=3 的性能略好。



讨论


掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码,图 8 展示了它的效果:



Out-of-distribution 操作。从图 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以创造出训练图像分布之外的图像,例如一个极度张开的嘴和一个大的车轮。



研究者同样指出了本文方法现存的局限性:尽管有一些推断能力,其编辑质量仍然受到训练数据多样性的影响。如图 14(a)所示,创建一个偏离训练分布的人体姿势会导致伪影。此外,如图 14(b)和(c)所示,无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此,研究者建议尽可能挑选纹理丰富的操纵点。


AI+EDA:引领芯片设计新未来

5月23日19:00-21:00,机器之心联合新思科技与微软带来线上分享,来自新思科技资深产品经理庄定铮与微软全球黑带-数据与人工智能资深技术专家陈景忠将就 AI+EDA 这一行业热议话题展开讨论。

识别海报二维码,预约直播。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了生活成本太高,削减开支就行?加拿大财长方慧兰离谱发言被骂上热搜GAN“泰裤辣”,DragGAN点点鼠标就能让狮子开口,未开源已破8k starGAN重出江湖!中国团队抢先开源“复刻版”DragGAN,AI一键实现“大象转身”雷柏推出新款鼠标周边:无线充电模块和鼠标垫、4K 接收器,售价 59 元起ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源爆火DragGAN正式开源,GitHub近18k星!清华校友带GAN逆袭,大象一秒P转身把大象P转身,如此变态的甲方要求,终于让AI 实现了~!让GAN再次伟大!拽一拽关键点就能让狮子张嘴&大象转身,汤晓鸥弟子的DragGAN爆火,网友:R.I.P. Photoshop儿童节选它!有手就会玩的儿童无人机,让孩子爱上航天科技,赢在起跑线!大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGAN意外地好!!!!!Microsoft 必应图像创建者「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文DragGAN第一作者Xingang Pan,正式加入南洋理工,出任助理教授!爱晒衣服的日本人斜风细雨不须归长篇小说《如絮》第一百零三章 哈尔滨-1952-1953年 2 任务九剑一魂 - 第23回 太子遇害 贾后伏诛(九)暴利行业!新手一周赚2w!会英语优先!TikTok搬运!有手机就行你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容带闺女“游学”不用提前攻略,这个有手机就行还能解决“游记”作业有手就会!风靡ins的夏日扎发,半分钟搞定早八发型!这种未来感新家真的有手就行,属实把懒人拿捏了DragGAN开源三天Star量23k,这又来一个DragDiffusion做日本女优很爽吗?染病、吃药、健身只为生存下去...东北人亲测好吃的6款冷面!一口开胃,有手就能做~英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023阿里组织变动:大象不好转身,就把自己拆成狼群让GAN再次伟大!汤晓鸥弟子的DragGAN爆火月入百万“有手就行”? Y3编辑器或将成为游戏新风口大量招: 500-800元/天,有手机就行,海外抖音副业,提供培训!GAN逆袭归来!清华校友论文引爆AI绘图圈,一秒把大象P转身,Diffusion黯然失色大量招:500-800元/天,有手机就行,海外抖音副业,提供培训家庭版捞汁小海鲜!有手就会做,太适合夏天了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。