P图神器来了!不用学,输入一句话就出结果
Pine 发自 凹非寺
量子位 | 公众号 QbitAI
当你拍照片时,“模特不好好配合”怎么办?
没事!现在只用一句话就能后期P图了,还是能改变动作、表情的那种!
比如说你能轻松让鸟张开翅膀(输入“张开翅膀的鸟”即可):
又或者说,想要让一只站立的狗蹲下:
看起来还真不赖!而这个新的“P图”方法呢,名叫Imagic,是基于爆火的扩散模型(Diffusion Model)来实现的。
是的,又是扩散模型,它的能耐想必也不用多介绍了吧(那看那铺天盖地和它相关的论文就能佐证)。
那在扩散模型加持下的Imagic到底有何厉害之处,话不多说,一起来看看吧!
多达6种功能
据不完全统计,Imagic的功能就有6种。
改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……
先来看看这个P图神器改变姿势的效果,比如说输入一条站立的狗,通过变换提示文字,得到的效果是酱紫的~
或者说输入一个随意站立的人,输入口令,他就“乖乖听话,任你摆布”(手动狗头)了,甚至还能凭空出现一个水杯。
还没看够?那再来康康Imagic其他功能:改变颜色,或者增加对象,也可以多种功能同时使用。
总的来说,Imagic的厉害之处太多,这里就不一一详细展开了,效果可以看下图。
除了这么多功能之外,Imagic还有另外一个比较人性化的点,就是当你告诉它要如何“P图”后,它会随机生成几个不同的选项供你选择。
其实这种在真实图像上编辑的模型Imagic不是第一个,在此之前就已经有很多个类似的模型。
这时就会有网友问了,“Imagic有什么厉害的点呢?”
话不多说,直接上效果对比。
这里选取了比较常见的基于真实图像编辑的两个模型:SDEdit、Text2LIVE与Imagic作对比。
结果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模型。
(确实妙啊)
研究团队
Imagic的六位作者均来自Google Research,论文有两位第一作者:Bahjat Kawar和Shiran Zada,均来自以色列。
值得一提的是,Bahjat Kawar还是一位以色列理工学院在读博士,他是在Google Research实习期间完成了这项研究。
而Shiran Zada今年5月刚加入Google Research,目前是计算机视觉研究员。
他曾在微软担任软件工程师以及技术主管的职务,主要负责网络安全相关的项目开发。
参考链接:
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
— 完 —
微信扫码关注该文公众号作者