Redian新闻
>
谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果

谷歌P图神器来了!不用学不用教,输入一句话,分分钟给结果

公众号新闻
Pine 发自 凹非寺
量子位 | 公众号 QbitAI

当你拍照片时,“模特不好好配合”怎么办?

没事!现在只用一句话就能后期P图了,还是能改变动作、表情的那种!

比如说你能轻松让鸟张开翅膀(输入“张开翅膀的鸟”即可)

又或者说,想要让一只站立的狗蹲下:

看起来还真不赖!而这个新的“P图”方法呢,名叫Imagic,是基于爆火的扩散模型(Diffusion Model)来实现的。

是的,又是扩散模型,它的能耐想必也不用多介绍了吧(那看那铺天盖地和它相关的论文就能佐证)

那在扩散模型加持下的Imagic到底有何厉害之处,话不多说,一起来看看吧!

多达6种功能

据不完全统计,Imagic的功能就有6种

改变姿势、变换构图、切换滤镜、多个对象编辑、添加对象、更改颜色……

先来看看这个P图神器改变姿势的效果,比如说输入一条站立的狗,通过变换提示文字,得到的效果是酱紫的~

或者说输入一个随意站立的人,输入口令,他就“乖乖听话,任你摆布”(手动狗头)了,甚至还能凭空出现一个水杯。

还没看够?那再来康康Imagic其他功能:改变颜色,或者增加对象,也可以多种功能同时使用。

总的来说,Imagic的厉害之处太多,这里就不一一详细展开了,效果可以看下图。

除了这么多功能之外,Imagic还有另外一个比较人性化的点,就是当你告诉它要如何“P图”后,它会随机生成几个不同的选项供你选择。

其实这种在真实图像上编辑的模型Imagic不是第一个,在此之前就已经有很多个类似的模型。

这时就会有网友问了,“Imagic有什么厉害的点呢?”

话不多说,直接上效果对比。

这里选取了比较常见的基于真实图像编辑的两个模型:SDEdit、Text2LIVE与Imagic作对比。

结果很显然,Imagic完成“P图指令”的效果很好,在细节上也丝毫不逊色其他模型。

(确实妙啊)

那Imagic是如何“击败”SDEdit、Text2LIVE,实现这样的效果呢?

是怎样实现的

千言万语汇成四个字:扩散模型,在论文的标题上它都赫然在列。

具体到Imagic中,扩散模型的作用是如何发挥出来的,来看看详细的“P图”过程。

整体来说分为三大步。

第一步是优化文本嵌入层。

具体来说,先给定输入的图像和目标文本,然后对目标文本进行编码,得到初始的嵌入层。

然后不断调整初始嵌入层,让其能够通过预先训练的扩散模型很好地重建输入图像。

这样一来,最终便会得到优化后的嵌入层(能够很好地重建输入图像)

第二步是对扩散模型进行微调,这时就要用到上一步已经优化之后的嵌入层,让嵌入层经过模型后重建输入图像。

在重建的过程,需要不断更改模型中损失函数的参数,以让模型适应优化后的输入层,直到能够很好地重建输入图像时为止,这样一来便得到了微调之后的模型。

第三步就要开始正式P图了。

值得一提的是,这一步除了输入初始的目标嵌入层(tgt)外,还会插入优化好的嵌入层(opt),它们的关系如下图。

通过变换参数,实际的效果如下图。

如果你想更加详细地了解Imagic,可以戳文末链接阅读论文原文。

研究团队

Imagic的六位作者均来自Google Research,论文有两位第一作者:Bahjat Kawar和Shiran Zada,均来自以色列。

值得一提的是,Bahjat Kawar还是一位以色列理工学院在读博士,他是在Google Research实习期间完成了这项研究。

而Shiran Zada今年5月刚加入Google Research,目前是计算机视觉研究员。

他曾在微软担任软件工程师以及技术主管的职务,主要负责网络安全相关的项目开发。

参考链接:
[1]
https://arxiv.org/abs/2210.09276
[2]https://twitter.com/Buntworthy/status/1582307817884889088
[3]https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb


MEET 2023 大会启动

邀你共论智能产业穿越周期之道

今年12月,MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾,共同探讨人工智能行业破局之道。

欢迎智能科技企业参会,分享突破性成果,交流时代级变革,共襄盛会!点击链接或下方图片查看大会详情:

量子位「MEET 2023智能未来大会」启动,邀你共论智能产业穿越周期之道


点这里关注我 👇 记得标星噢 ~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产AI作画神器来了!日增5万用户的背后有什么秘诀?谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!我当年在加拿大的学车买车开车悲催往事(下)人生这一步该怎么办?老人院打工----美低端生活(九)机场最恐怖一句话,留学生听到请马上离开!有人已经被捕了!老了要多吃泡饃核聚变发电有希望了?美国或宣布首次实现核聚变能量增益,输出大于输入谷歌Pixel Fold 折叠屏手机渲染图曝光,大屏内折设计英特尔重申不会放弃游戏独显,谷歌Pixel 7 Pro发布,贾跃亭强势回归,海力士开发出1亿像素传感器,这就是今天的其它大新闻!哈尔滨:活都干完了,工人的工钱不给结?施工方回应↘丝毫不输谷歌地球!这个国产地图神器终于出圈了!(附神器下载)卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清我原来一直以为成都人都很有种!“这是P图还是换头?”网红P图细节意外流出..?网友吓哭:你看这是同个人么?夜市|不冷!不冷!不冷!不是真的光腿,别问了!小白怎么写综述?不用学!CiteSpace热点挖掘神器高能来袭!靠它轻松发高分……马斯克收购推特,分分钟下令大裁员、炒了CEO!Java 后端有哪些不用学的技术?劝退。。。给高利率跪了!新西兰近半房贷族提前还款!这几个房贷tips掌握好,分分钟省出一套房!亚麻太狠了!无心一句话,到手的offer凉了…眼看剁手季杀来了,反向海淘怎么搞?!来,分分钟教你买的爽龙卷风健康快递 210“30岁被分手,我的天塌下来了”:这种限制性「生活」,分分钟毁掉你AIGC奇点降临丨国产AI作画神器来了!日增5万用户的背后有什么秘诀?只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型原来,发CNS的大牛都在用这个作图神器!谷歌Pixel手机巨大漏洞!更换SIM卡可绕过锁屏密码干货篇|卖车比价,二手车买卖!这些小技巧,分分钟省个买包钱预告|让孩子像追剧一样学英语的开口神器来了7+非肿瘤文章复现来了!分分钟教你实现!可以闭眼入的安心“蛋”!Q弹嫩滑,懒人必备,分分钟爱上这3种行为,分分钟摧毁孩子自信,父母最擅长!专访“AI画图神器”Midjourney创始人:AI是想象力引擎、不是洪水猛兽拍照5分钟,P图1小时?解决办法来了!P图神器来了!不用学,输入一句话就出结果
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。