国际科技财经博客移民网络热点娱乐民生时事公众号

>

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

谷歌P图神器来了！不用学不用教，输入一句话，分分钟给结果

公众号新闻

2022-11-06 05:11

Pine 发自凹非寺
量子位 | 公众号 QbitAI

当你拍照片时，“模特不好好配合”怎么办？

没事！现在只用一句话就能后期P图了，还是能改变动作、表情的那种！

比如说你能轻松让鸟张开翅膀（输入“张开翅膀的鸟”即可）：

又或者说，想要让一只站立的狗蹲下：

看起来还真不赖！而这个新的“P图”方法呢，名叫Imagic，是基于爆火的扩散模型（Diffusion Model）来实现的。

是的，又是扩散模型，它的能耐想必也不用多介绍了吧（那看那铺天盖地和它相关的论文就能佐证）。

那在扩散模型加持下的Imagic到底有何厉害之处，话不多说，一起来看看吧！

多达6种功能

据不完全统计，Imagic的功能就有6种。

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果，比如说输入一条站立的狗，通过变换提示文字，得到的效果是酱紫的～

或者说输入一个随意站立的人，输入口令，他就“乖乖听话，任你摆布”（手动狗头）了，甚至还能凭空出现一个水杯。

还没看够？那再来康康Imagic其他功能：改变颜色，或者增加对象，也可以多种功能同时使用。

总的来说，Imagic的厉害之处太多，这里就不一一详细展开了，效果可以看下图。

除了这么多功能之外，Imagic还有另外一个比较人性化的点，就是当你告诉它要如何“P图”后，它会随机生成几个不同的选项供你选择。

其实这种在真实图像上编辑的模型Imagic不是第一个，在此之前就已经有很多个类似的模型。

这时就会有网友问了，“Imagic有什么厉害的点呢？”

话不多说，直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型：SDEdit、Text2LIVE与Imagic作对比。

结果很显然，Imagic完成“P图指令”的效果很好，在细节上也丝毫不逊色其他模型。

（确实妙啊）

那Imagic是如何“击败”SDEdit、Text2LIVE，实现这样的效果呢？

是怎样实现的

千言万语汇成四个字：扩散模型，在论文的标题上它都赫然在列。

具体到Imagic中，扩散模型的作用是如何发挥出来的，来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说，先给定输入的图像和目标文本，然后对目标文本进行编码，得到初始的嵌入层。

然后不断调整初始嵌入层，让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来，最终便会得到优化后的嵌入层（能够很好地重建输入图像）。

第二步是对扩散模型进行微调，这时就要用到上一步已经优化之后的嵌入层，让嵌入层经过模型后重建输入图像。

在重建的过程，需要不断更改模型中损失函数的参数，以让模型适应优化后的输入层，直到能够很好地重建输入图像时为止，这样一来便得到了微调之后的模型。

第三步就要开始正式P图了。

值得一提的是，这一步除了输入初始的目标嵌入层（tgt）外，还会插入优化好的嵌入层（opt），它们的关系如下图。

通过变换参数，实际的效果如下图。

如果你想更加详细地了解Imagic，可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research，论文有两位第一作者：Bahjat Kawar和Shiran Zada，均来自以色列。

值得一提的是，Bahjat Kawar还是一位以色列理工学院在读博士，他是在Google Research实习期间完成了这项研究。

而Shiran Zada今年5月刚加入Google Research，目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务，主要负责网络安全相关的项目开发。

参考链接：
[1]https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb

— 完 —

MEET 2023 大会启动

邀你共论智能产业穿越周期之道

今年12月，MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾，共同探讨人工智能行业破局之道。

欢迎智能科技企业参会，分享突破性成果，交流时代级变革，共襄盛会！点击链接或下方图片查看大会详情：

量子位「MEET 2023智能未来大会」启动，邀你共论智能产业穿越周期之道

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

眼看剁手季杀来了，反向海淘怎么搞？！来，分分钟教你买的爽拍照5分钟，P图1小时？解决办法来了！“30岁被分手，我的天塌下来了”：这种限制性「生活」，分分钟毁掉你亚麻太狠了！无心一句话，到手的offer凉了…核聚变发电有希望了？美国或宣布首次实现核聚变能量增益，输出大于输入卷！用扩散模型合成连贯视觉故事，输入字幕就能脑补画面，代词ta都分得清我当年在加拿大的学车买车开车悲催往事（下）预告｜让孩子像追剧一样学英语的开口神器来了国产AI作画神器来了！日增5万用户的背后有什么秘诀？丝毫不输谷歌地球！这个国产地图神器终于出圈了！（附神器下载）这3种行为，分分钟摧毁孩子自信，父母最擅长！只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型人生这一步该怎么办？老人院打工----美低端生活（九）马斯克收购推特，分分钟下令大裁员、炒了CEO！7+非肿瘤文章复现来了！分分钟教你实现！龙卷风健康快递 210 老了要多吃泡饃 “这是P图还是换头？”网红P图细节意外流出..？网友吓哭：你看这是同个人么？干货篇｜卖车比价，二手车买卖！这些小技巧，分分钟省个买包钱 AIGC奇点降临丨国产AI作画神器来了！日增5万用户的背后有什么秘诀？可以闭眼入的安心“蛋”！Q弹嫩滑，懒人必备，分分钟爱上小白怎么写综述？不用学！CiteSpace热点挖掘神器高能来袭！靠它轻松发高分……谷歌Pixel手机巨大漏洞！更换SIM卡可绕过锁屏密码原来，发CNS的大牛都在用这个作图神器！专访“AI画图神器”Midjourney创始人：AI是想象力引擎、不是洪水猛兽 Java 后端有哪些不用学的技术？劝退。。。哈尔滨：活都干完了，工人的工钱不给结？施工方回应↘机场最恐怖一句话，留学生听到请马上离开！有人已经被捕了！谷歌提出DreamBooth：新扩散模型！只需3张图一句话，AI就能定制照片级图像！P图神器来了！不用学，输入一句话就出结果夜市｜不冷！不冷！不冷！不是真的光腿，别问了！谷歌Pixel Fold 折叠屏手机渲染图曝光，大屏内折设计我原来一直以为成都人都很有种！英特尔重申不会放弃游戏独显，谷歌Pixel 7 Pro发布，贾跃亭强势回归，海力士开发出1亿像素传感器，这就是今天的其它大新闻！给高利率跪了！新西兰近半房贷族提前还款！这几个房贷tips掌握好，分分钟省出一套房！

热点事件追踪