Redian新闻
>
港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!

港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

可控制扩散模型再添一员:Uni-ControlNet!

Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
代码:https://github.com/ShihaoZhaoZSH/Uni-ControlNet
论文:https://arxiv.org/abs/2305.16322

论文简介

可控制扩散模型通过添加额外的条件,比如边缘图、深度图等来控制图像的生成过程。相较于单纯利用文本来生成图像,可控制扩散模型更够让使用者更加详细的制定想要生成的图片。

目前主流的可控制扩散模型研究分为两类:一类是在大规模数据上从头训练的基础模型,比如Composer;另一类是基于已有的图像到文本扩散模型(比如Stable Diffusion),进一步添加额外的模块来达到控制的效果,比如ControlNet和T2I-Adapter。

本文提出的Uni-ControlNet采用了第二种方式,即添加额外的控制模块。和ControlNet、T2I-Adapter相比,Uni-ControlNet仅采用两个额外的控制模块即能实现对多种条件的控制。这样,当控制条件的种类增多时,就可以极大的减少训练的次数和所需控制模块的数量。更重要的是,Uni-ControlNet还支持多种条件的融合生成。         

以下表格展示了不同可控制扩散模型的区别,N表示控制条件的种类数:

效果展示

Uni-ControlNet能够很好的支持单个条件的生成:

Uni-ControlNet还能支持来自不同域的多个条件的联合生成:

甚至可以让用户提供更多的条件:

文章中给出了更多的示例。值得注意的是,得到这些结果,仅仅只需要一个模型!

方法介绍

Uni-ControlNet将所有的控制条件分成了两组:局部条件和全局条件。因此,对应的有两个控制模块,来分别和主模型进行交互、注入控制信息。

局部控制模块:

对于局部控制模块,Uni-ControlNet参考了ControlNet的控制框架:即将主模型中的编码器f和中间层m拷贝一份得到f’和m’,用于处理局部条件。公式(3)展示了添加局部控制模块后,主模型解码器的输入:         

与ControlNet不同的是,Uni-ControlNet采用了一种多尺度的控制条件注入策略。具体来说,首先将多种控制条件c_l在通道维度上拼接在一起;随后利用一个特征提取器h_r来得到控制条件不同维度的特征;接下来通过特征空间中的重归一化模块(FDN),将不同维度的特征在多个尺度上注入拷贝后的编码器和中间层,如下公式(4)所示:

全局控制模块:

对于全局控制模块,Uni-ControlNet首先通过前向传播,将全局条件映射到主模型的文本空间中;然后将文本信息与映射后的全局条件进行拼接,得到扩展的提示信息;最后,用扩展的提示信息替换掉文本信息,并注入到所有模块的注意力层。公式(5)、(6)展示了这一过程:

下图展示了局部控制模块和全局控制模块的更多细节:

训练与推理:

对于模型的训练,Uni-ControlNet采用分开训练的方式单独训练这两个控制模块。在训练时,对注入的各种控制条件采用了一定的dropout策略。在推理时,直接将这两个模块进行合并就能达到很好的控制效果,而不需要额外的联合训练。

更多技术细节请参阅原论文。

点击进入—>【扩散模型和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


扩散模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型和Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
柏林工大也有自己的Döner店了!微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出Transformer取代者登场!微软、清华刚推出RetNet:成本低、速度快、性能强炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens完美世界TA谈Stable Diffusion插件,ControlNet、Segment AnythingCVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】Tipping Livestreamers ‘Out of Control’: China State BroadcasterControlNet新玩法爆火!画出可扫码插画,内容链接任意指定!CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张K12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?华为诺亚提出VanillaNet:一种新视觉Backbone,极简且强大!CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型生死时刻!立即破产?又50%崩盘,股价跌得只剩渣,华尔街多家巨头才存了300亿美元进去,美联储再添一把火!巴菲特提出警示!【吃顆米大會(つっこみたいかい)】暖場《ふるさとはどこですか故鄉在何處》(小村之戀)CVPR 2023 | 北大提出UniDexGrasp:通用灵巧手抓取算法𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~ChatGPT自己会选模型了!浙大和微软提出:HuggingGPTNat Commun|中国医学科学院和香港大学合作揭示SARS-CoV-2 SUD 结构并提出新抗病毒策略用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT天父的花园里精选Quant岗位 | SIG、Jane Street、Arrowstreet Capital l等公司持续热招!【意大利Hilnan&Bellne哈蒙·班尼】4个款式,满足各类穿搭需求随心切换!不锈钢方盆...优质好货开抢!【一日团】12秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法《红叶恋歌》&《飞云之下》开源了!UniControl:可控视觉生成的统一扩散模型CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架昨天,女儿把我气疯了更名!外商独资公募再添一员,这次是大摩…国际巨头不断加码布局中国我们能向黑人学什么
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。