Redian新闻
>
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用

AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用

公众号新闻

 机器之心报道

机器之心编辑部

通过「添加额外条件」来控制扩散模型,斯坦福大学最新的一项研究让图生图效果更上了一层楼。
随着大型文本 - 图像模型的出现,生成一幅吸引人的图像已经变得非常简单,用户需要做的就是动动手指输入简单的 prompt 就可以。通过一系列操作得到图像后,我们不免又会产生这样几个问题:基于 prompt 生成的图像能够满足我们的要求吗?我们应该构建怎样的架构来处理用户提出的各种要求?在特定任务中,大型模型是否还能保持从数十亿张图像中获得的优势和能力?

为了回答这些问题,来自斯坦福的研究者对各种图像处理应用进行了大量调查,并得出以下三个发现:

首先,在特定领域中可用数据实际比训练通用模型的数据要少,这主要表现在,例如在特定问题上(例如姿态理解等)最大的数据集通常低于 100k,比大规模、多模态文本图像数据集 LAION 5B 少了 5 × 10^4 数量级。这就要求神经网络鲁棒性要好,以避免模型过度拟合,并在针对特定问题时具有良好的泛化性。

其次,当使用数据驱动处理图像任务时,大型计算集群并不总是可用的。这时快速训练方法就变得很重要,这种方法在可接受的时间和内存空间内能够针对特定任务对大模型进行优化。更进一步,在后续的处理过程中可能还需要微调、迁移学习等操作。

最后,在图像处理过程中遇到的各种问题会有不同形式的定义方式。在解决这些问题时,虽然图像扩散算法可以以「程序化(procedural)」方式进行调节,例如,约束去噪过程、编辑多头注意力激活等,但这些手工制定的规则基本上是由人类指令规定的,考虑到一些特定的任务,如深度 - 图像、姿态 - 人等,这些问题本质上需要将原始输入解释为对象级或场景级的理解,这使得手工制作的程序方法不太可行。因此,想要在多个任务中给出解决方案,端到端学习是必不可少的。

基于上述发现,本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

论文地址:https://arxiv.org/pdf/2302.05543.pdf
项目地址:https://github.com/lllyasviel/ControlNet

效果展示

那么 ControlNet 效果到底如何呢?

Canny 边缘检测:通过从原始图像中提取线稿,能够生成同样构图的图像。

深度检测:通过提取原始图像中的深度信息,可以生成具有同样深度结构的图。

带有语义分割的 ControlNet:

使用基于学习的深度霍夫变换从 Places2 中检测直线,然后使用 BLIP 生成字幕。

HED 边缘检测图示。

人体姿态识别图示。

方法介绍

ControlNet 是一种神经网络架构,它可以增强具有任务特定(task-specific)条件的预训练图像扩散模型。我们先来看 ControlNet 的基本结构。

ControlNet 操纵神经网络块的输入条件,从而进一步控制整个神经网络的整体行为。这里「网络块」指的是一组神经层,它们被放在一起作为一个构建神经网络的常用单元,例如 resnet 块、多头注意力块、Transformer 块。

以 2D 特征为例,给定一个特征图 x ϵ R^h×w×c,其中 {h, w, c} 分别为高度、宽度和通道数。具有一组参数 Θ 的神经网络块 F (・; Θ) 将 x 转换为另一个特征图 y,如下公式 (1) 所示。

这一过程如下图 2-(a) 所示。

神经网络块由一种被称为「零卷积」的独特卷积层连接,即权重和偏置都零初始化的 1×1 卷积层。研究者将零卷积运算表示为 Z (・;・) ,并使用两个参数实例 {Θ_z1, Θ_z2} 组成 ControlNet 结构,如下公式 (2) 所示。

其中 y_c 成为该神经网络块的输出,如下图 2-(b) 所示。

图像扩散模型中的 ControlNet

研究者以 Stable Diffusion 为例,介绍了如何使用 ControlNet 控制具有任务特定条件的大型扩散模型。Stable Diffusion 是一种在数十亿张图像上训练的大型文本到图像扩散模型,本质上是一个由编码器、中间块和残差连接解码器组成的 U-net。

如下图 3 所示,研究者使用 ControlNet 来控制 U-net 的每一层。需要注意,这里连接 ControlNet 的方式在计算上是高效的:由于原始权重被锁定,原始编码器上的梯度计算不需要进行训练。并且又由于原始模型上少了一半梯度计算,可以加快训练速度并节省 GPU 内存。使用 ControlNet 训练一个 Stable Diffusion 模型只需要在每次训练迭代中增加大约 23% 的 GPU 内存和 34% 的时间(在单个 Nvidia A100 PCIE 40G 上测试)。

具体地,研究者使用 ControlNet 创建了 12 个编码块和 1 个 Stable Diffusion 中间块的可训练副本。这 12 个编码块有 4 种分辨率,分别为 64×64、32×32、16×16 和 8×8,每种分辨率有 3 个块。输出被添加到 U-net 的 12 个残差连接和 1 个中间块。由于 Stable Diffusion 是典型的 U-net 结构,因此这种 ControlNet 架构很可能可以用于其他扩散模型。

训练及提升训练

给定图像 z_0,扩散算法渐进地向图像添加噪声并产生噪声图像 z_t,t 是添加噪声的次数。当 t 足够大时,图像近似于纯噪声。给定一组包括时间步长 t、文本 prompts c_t 的条件以及任务特定条件 c_f,图像扩散算法学习网络 ϵ_θ 以预测添加到噪声图像 z_t 的噪声,如下公式 (10) 所示。

在训练过程中,研究者随机将 50% 的文本 prompts c_t 替换为空字符串,这有利于 ControlNet 从输入条件 map 中识别语义内容的能力。

此外,研究者还讨论了几种改进 ControlNets 训练的策略,特别是在计算设备非常有限(如笔记本电脑)或非常强大(如具有可用大规模 GPU 的计算集群)的极端情况下。

更多技术细节请参阅原论文。


全面学习ChatGPT,机器之心准备了 89 篇文章合集

这是一份全面、系统且高质量的 ChatGPT 文章合集,我们筛选出来了 89 篇相关文章,设计了阅读框架与学习路径,大家可以根据自己的需求进行浏览与研读。合集内容包括:

  • ChatGPT 及 OpenAI  大事件时间轴

  • 概念·真正搞懂 ChatGPT:共 3 篇文章

  • 研究·GPT 家族更迭:共 16 篇文章

  • 八年·OpenAI 的历史与现在:共 13 篇文章

  • 干货·GPT 相关研究与技术:共 18 篇文章

  • 观点·专家谈 ChatGPT:共 8 篇文章

  • 行业·应用与探索:共 23 篇文章

  • 行业·同类产品:共 8 篇文章

点击阅读原文,开始学习ChatGPT。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
什么是「降维打击」?跨越百年,带你认识“降维打击”背后的科学征程高通用第二代骁龙7+,给手机芯片来了次降维打击新冠后的中风【冬至】最漫长而无助的冬夜· 台湾开始抢药了NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++柏林工大也有自己的Döner店了!Opera跟进引入ChatGPT,侧边栏生成文章简短摘要四少女火爆外网!ControlNet组合拳效果惊人,颠覆AI绘画游戏规则47岁李小冉红毯生图引发网友质疑:嫁得好就可以这样“为所欲为”?!Xbox Series S 512GB Console with controller日本啊,日本(十三)利休之死世界上最变态的父母playstation 4 console white 500g with 1 controllerAI画图又双叒革命了?华人小伙开发ControlNet让出图更可控!谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?ControlNet仅靠一张照片完成“旧房改造” | GitHub热榜第一适配Diffusers框架的全套教程来了!从T2I-Adapter到大热ControlNetGPT-4 Copilot X 震撼来袭!AI 写代码效率 10 倍提升,码农遭降维打击得罪大佬还能连上春节档翻红?!隐婚后的她37岁靠身材就降维打击…笑喷了!初中生水平“降维打击”知名粉红大V!火爆全网!ControlNet颠覆AI绘画游戏规则!网友:这是新“魔法”...美最新经济武器或对产业展开“降维打击”ControlNet star量破万!2023年,AI绘画杀疯了?GPT-4 Copilot X震撼来袭!AI写代码效率10倍提升,码农遭降维打击AACO College Panel: From High School to College视觉RLHF要来了?谷歌复用30年前经典算法,CV引入强化学习吵翻了!CNY还是LNY?大批留学生刷屏,澳洲中国银行称春节为LNY!澳洲CNY趋势第一,越南人表示不乐意了,澳韩国烤肉“作妖”高端进口红酒惨遭国内红酒“降维打击”,国际消费市场或生巨变!!这一年里有哪些好看的电视剧?加个沙盒玩家就高潮,塞尔达新作的“降维打击”展现了游戏圈的残忍第二代骁龙 7+,是对中高端市场竞争的一次「降维打击」7 Papers & Radios | 一块GPU跑ChatGPT体量模型;AI绘图又一神器ControlNetControlNet如何为扩散模型添加额外模态的引导信息?AI绘画“打败 98% 人类画家”,却为何画不出一只好看的手?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。