Redian新闻
>
还有这种狠活,隔壁同事玩疯了!

还有这种狠活,隔壁同事玩疯了!

科技

大家好,我是 Jack。

今天咱们继续聊一聊有趣好玩的 AI 算法。

手把手教程,原理、环境部署、效果测试,一条龙服务回来了~

InstructPix2Pix

要说最近最火的 CV 算法,那非扩散模型莫属了。

大家熟知的 LDM,效果惊艳了很多人。

最近,又开源了一个基于扩散模型的新算法:InstructPix2Pix。

效果展示

简单概述它的功能就是:图片编辑

不像 PS,需要一定的基础才能使用,这个 AI 算法,你只需要告诉它,你要干什么。

比如输入文本:

将向日葵改为玫瑰花

左图为原图,右图为生成图

InstructPix2Pix算法秒懂,直接帮你修改图片。

这不比 PS 省事多了?

再比如:在天空加些烟花。

左图为原图,右图为生成图

甚至是:将大衣改为皮质的。

左图为原图,右图为生成图

你的很多奇奇怪怪的修图要求,它都能理解,并切满足:

而这一切,InstructPix2Pix可以在几秒钟内完成。

算法原理

你可能已经发现了,这个算法可以很好的理解人类的修改描述。

比如修改这张图:

想要将图片中的向日葵改为玫瑰花,现有的一些算法都是需要这样描述:一个花盆中插满了玫瑰花。其实这种描述首先带有一定的不确定性。

而对于图像编辑任务本身而言,我们需要让模型关注的是要编辑的主体,以及编辑的最终效果。因此,最合适的编辑指令设置为“将向日葵更换为玫瑰花”,这样也更加符合人类的直觉习惯。

而对于文本的理解,就用到了 GPT3 模型,图像生成采用 Stable Diffusion Model 扩散模型。

所以,InstructPix2Pix 整体其实一个二阶段的模型,先使用 GPT3 编辑现有模型所理解的 prompt 格式,然后送给扩撒模型生成。

构建训练数据也是如此,不过为了保证生成效果,这里用到了 prompt to prompt 方法,该方法可以针对一个输入文本生成多代近似的图像,且这些图像彼此之间含有相同的身份信息,Prompt-to-Prompt通过在去噪过程中使用交互注意力权重来实现。

下图展示了使用Prompt-to-Prompt方法和使用随机方法生成的图像效果对比。

显然,使用 Prompt-to-Prompt 更符合我们的图像编辑需求,直接随机生成,会导致画风突变。

InstructPix2Pix 的图像生成部分,本质上其实还是使用的 Laten Diffusion 就是隐空间扩散模型,在这个开源模型的基础上,进行 finetune。

作者使用预训练的 Stable Diffusion 对模型进行初始化。为了赋予 InstructPix2Pix 图像编辑的能力,作者在模型的第一个卷积层中增加了额外的条件输入通道。

算法部署

算法已经开源。

项目地址:

https://github.com/timothybrooks/instruct-pix2pix

环境部署也很简单:

conda env create -f environment.yaml
conda activate ip2p
bash scripts/download_checkpoints.sh

先根据提供的 environment.yaml 环境文件,建一个 ip2p 虚拟环境。

然后使用 download_checkpoints.sh 脚本,下载所需的权重文件。

使用如下指令即可运行程序:

python edit_cli.py --input imgs/example.jpg --output imgs/output.jpg --edit "turn him into a cyborg"

# Optionally, you can specify parameters to tune your result:
# python edit_cli.py --steps 100 --resolution 512 --seed 1371 --cfg-text 7.5 --cfg-image 1.2 --input imgs/example.jpg --output imgs/output.jpg --edit "turn him into a cyborg"

编辑信息放在 --edit 命令之后即可,生成的图片会保存到 imgs 文件夹中。

或者干脆可以直接使用它的 UI 界面。

python edit_app.py 

这样就可以在界面中操作了。

当然,作者也提供了懒人模式。

项目已在 Huggingface 上部署,用的是 T4 机器。

输入图片和编辑信息,即可运行算法

https://huggingface.co/spaces/timbrooks/instruct-pix2pix

絮叨

最后再一起看下,蒙娜丽莎的微笑。多种画风,毫无违和~

对于图像生成、图像编辑感兴趣的小伙伴,可以玩一玩~

我是 Jack,我们下期见~

·················END·················

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美团买药算是把代言人这件事玩明白了!心机女开春这样穿,又撩又欲,隔壁同事追着要链接!搞大事!悉尼华人区Rhodes要搞河边“轰趴”!音乐节响炸河畔!好玩疯了!没有科技狠活,古代的地图是怎么画出来的?马上过年了,我把101张外国钱币塞进红包,隔壁娃都羡慕哭了!压岁钱界的劳斯莱斯后怕!温哥华隔壁滑雪掉进这种大雪坑 差点悲剧了科技与狠活,资本好快活外币红包一来,隔壁小孩都羡慕坏了!闲话人生(216)深切怀念敬爱的赖瑞光校长700+科技感元素,隔壁设计师都馋哭了[第128期]医患关系疫情放开后,「第一批出国旅游的人」玩疯了!人少景美,花费低到难以置信,迫不及待想去玩...免费送票!新加坡滨海湾外空降冰雪世界,一次体验N种冰上活动,玩疯了!走心的“压岁钱”!28种外币塞进红包,隔壁小孩超羡慕狂飙后遗症之模仿高启盛,小姐姐们都玩疯了!改造完这个厕所,隔壁咖啡馆老板追着要给我一张VIP卡|武洲 一席第969位讲者这牛肉干太香了,3斤鲜牛肉仅产1斤,鲜香带劲,隔壁孩子都馋哭了马上过年了,我把101张外国钱币塞进红包,隔壁娃都羡慕哭了!压岁钱界的劳斯莱斯!没有科技与狠活,美国的中餐馆如何变得更好?火爆了!澳洲Woolies这玩意被澳人玩疯了!还狂送$18万礼品卡!赶紧薅羊毛!基于NeRF的APP上架苹果商店!照片转3D只需一部手机,网友们玩疯了已燃烧了50年的“鬼镇”抢人抢疯了!美国开启新移民计划,大量人可拿PR!加拿大狂发43万永居!澳洲隔壁也大改移民政策,多职业加入移民“绿灯清单”!把「51国101张外币」塞进红包,隔壁小孩都羡慕哭了!进入倒数!悉尼华人区Rhodes新春嘉年华连炸三天!好玩疯了!人流量爆棚!招商最后机会!商家抓紧了!我这样培养女儿,隔壁小朋友们都羡慕哭了女友在家中晒日光浴,隔壁澳洲老色鬼屡次偷窥!小伙软硬皆施竟然没用!无奈向网友求助!为了过年不破产,我在红包里塞了51国101张外币,隔壁小孩馋哭了爸妈的科技与狠活,被这支广告片曝光了!钱理群|《论“他妈的!”》一篇体现鲁迅大智慧的奇文养生系列 - (四)从他人的各类个案分析日常自身保养的成败星期一的打开方式!还有这样的同事吗?雪地里挖到比特币?!孩子们家长们都玩疯了!刚刚,谷歌版ChatGPT开放测试申请!暂无中文版,网友已玩疯我的有钱同事:通勤路太长,隔壁买套房
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。