Stable Diffusion新玩法，一句话帮你换图，网友魔改《戴珍珠耳环的少女》长这样

2022-10-23 04:10

机器之心报道

编辑：杜伟、陈萍

修改一张图，一句话的事就搞定。

输入一句话，就能把图片修改好，这是很多画师梦寐以求的修图工具！但是话说回来，再优秀的画师，如果仅凭自己的专业优势，不借助其他工具，也很难在短时间内完成图片的修改。

现在好了，AI 正在向图片生成领域发起挑战，各大科技公司、高校等开始纷纷涉足。最近一段时间，关心 AI 圈的人可能都有这样一种感受：扩散模型被越来越多的人提及，基于扩散模型的各种图片生成工具被开发出来。

在众多模型中，Stable Diffusion 可谓是最出圈的一个，为其捐赠计算资源的英国开源人工智能公司 Stability AI 为此还获得了 1.01 亿美元融资，融资完成后，Stability AI 估值将达到 10 亿美元。就在最近，还闹出了 Stable Diffusion 背后团队互撕的笑话，原因是他们都想当 Stable Diffusion 的所有者。

其实这个模型的技术来源是发表在 CVPR 2022 中的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》，署名作者一共五位，分别来自慕尼黑大学、海德堡大学和 AI 视频剪辑技术创业公司 Runway。

研究者对 Stable Diffusion 的开发一直在继续。就在今日，reddit 上一则帖子点赞量已经突破 800+。

大概意思就是：Stable Diffusion 背后团队之一的 Runway 公司发布了一个由 Stable Diffusion 模型驱动的图像擦除和替换（Erase and Replace）工具，该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述，剩下的交给程序就可以了。

举例来说，一开始树叶上是一只七星瓢虫，用户擦出掉（如紫色区域）该动物，然后输入自然语言描述「正在找食物的蜜蜂」，点击「替换」按钮就可以了。

土地里「长」出不同的植物：

站在柱子上的不同种类的鸟：

不同样式的林中小屋：

宇航员替换成卫星：

看完上述展示，不禁有种修改一张图，就一句话的事的感觉。

此外，Runway 还发布了「擦除和替换」功能背后的模型，感兴趣的小伙伴可以在 GitHub 上查看。该公司计划在未来推出更多 Stable Diffusion 检查点，并在 Runway 的 HPC 集群上进行训练。

GitHub 地址：https://github.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

项目首先通过 Huggingface 的 Diffusers 库来使用修复模型。Diffusers 是在 PyTorch 中用于图像和音频生成的 SOTA 扩散模型，并作为扩散模型推理和训练的模块化工具箱。

相关代码如下所示。

同时，为了评估修复模型的性能，项目使用了与论文《High-Resolution Image Synthesis with Latent Diffusion Models》中相同的评估协议。由于 Stable Diffusion 修复模型接受文本输入，因而只使用一个固定提示，即「photograph of a beautiful empty scene, highest quality settings.」。

评估结果如下所示。