Redian新闻
>
北大团队用Diffusion升级DragGAN,泛化更强生成质量更高,点一点「大山拔地而起」

北大团队用Diffusion升级DragGAN,泛化更强生成质量更高,点一点「大山拔地而起」

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

北大团队最新工作,用扩散模型也能实现拖拉拽P图!

点一点,就能让雪山长个儿:

或者让太阳升起:

这就是DragonDiffusion,由北京大学张健老师团队VILLA(Visual-Information Intelligent Learning LAB),依托北京大学深圳研究生院-兔展智能AIGC联合实验室,联合腾讯ARC Lab共同带来。

它可以被理解为DragGAN的变种。

DragGAN如今GitHub Star量已经超过3w,它的底层模型基于GAN(生成对抗网络)。

一直以来,GAN在泛化能力和生成图像质量上都有短板。

而这刚好是扩散模型(Diffusion Model)的长处。

所以张健老师团队就将DragGAN范式推广到了Diffusion模型上。

该成果发布时登上知乎热榜。

有人评价说,这解决了Stable Diffusion生成图片中部分残缺的问题,可以很好进行控制重绘。

让狮子在照片中转头

Dragon Diffusion能带来的效果还包括改变车头形状:

让沙发逐渐变长:

再或者是手动瘦脸:

也能替换照片中的物体,比如把甜甜圈放到另一张图片里:

或者是给狮子转转头:

该方法框架中包括两个分支,引导分支(guidance branch)和生成分支(generation branch)。

首先,待编辑图像通过Diffusion的逆过程,找到该图像在扩散隐空间中的表示,作为两个分支的输入。

其中,引导分支会对原图像进行重建,重建过程中将原图像中的信息注入下方的生成分支。

生成分支的作用是引导信息对原图像进行编辑,同时保持主要内容与原图一致。

根据扩散模型中间特征具有强对应关系,DragonDiffusion在每一个扩散迭补中,将两个分支的隐变量通过相同的UNet去噪器转换到特征域。

然后利用两个mask,区域。标定拖动内容在原图像和编辑后图像中的位置,然后约束的内容出现在区域。

论文通过cosin距离来度量两个区域的相似度,并对相似度进行归一化:

除了约束编辑后的内容变化,还应该保持其他未编辑区域与原图的一致性。这里也同样通过对应区域的相似度进行约束。最终,总损失函数设计为:

在编辑信息的注入方面,论文通过score-based Diffusion将有条件的扩散过程视为一个联合的score function:

将编辑信号通过基于特征强对应关系的score function转化为梯度,对扩散过程中的隐变量进行更新。

为了兼顾语义和图形上的对齐,作者在这个引导策略的基础上引入了多尺度引导对齐设计。

此外,为了进一步保证编辑结果和原图的一致性,DragonDiffusion方法中设计了一种跨分支的自注意力机制。

具体做法是利用引导分支自注意力模块中的Key和Value替换生成分支自注意力模块中的Key和Value,以此来实现特征层面的参考信息注入。

最终,论文提出的方法,凭借其高效的设计,为生成的图像和真实图像提供了多种编辑模式。

这包括在图像中移动物体、调整物体大小、替换物体外观和图像内容拖动。

在该方法中,所有的内容编辑和保存信号都来自图像本身,无需任何微调或训练附加模块,这能简化编辑过程。

研究人员在实验中发现,神经网络第一层太浅,无法准确重建图像。但如果到第四层重建又会太深,效果同样很差。在第二/三层的效果最佳。

相较于其他方法,Dragon Diffusion的消除效果也表现更好。

来自北大张健团队等

该成果由北京大学张健团队、腾讯ARC Lab和北京大学深圳研究生院-兔展智能AIGC联合实验室共同带来。

张健老师团队曾主导开发T2I-Adapter,能够对扩散模型生成内容进行精准控制。

在GitHub上揽星超2k。

该技术已被Stable Diffusion官方使用,作为涂鸦生图工具Stable Doodle的核心控制技术。

兔展智能联手北大深研院建立的AIGC联合实验室,近期在图像编辑生成、法律AI产品等多个领域取得突破性技术成果。

就在几周前,北大-兔展AIGC联合实验室就推出了登上知乎热搜第一的的大语言模型产品ChatLaw,在全网带来千万曝光同时,也引发了一轮社会讨论。

联合实验室将聚焦以CV为核心的多模态大模型,在语言领域继续深挖ChatLaw背后的ChatKnowledge大模型,解决法律金融等垂直领域防幻觉,可私有化、数据安全问题。

据悉,实验室近期还会推出原创对标Stable Diffusion的大模型。

论文地址:
https://arxiv.org/abs/2307.02421

项目主页:
https://mc-e.github.io/project/DragonDiffusion/

「AIGC算力全景与趋势报告 · 量子位智库」下载

AIGC时代,算力成为「硬通货」。当前大模型的发展对算力产生新的需求,算力行业迎来变革机会。机遇当前,量子位智库发布《AIGC算力全景与趋势报告》,扫描下方二维码即可查看完整报告。

8月9日,我们将在北京举办「量子位AIGC行业沙龙——AIGC时代的算力基石」,欢迎感兴趣的企业联系~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容北大用Diffusion升级DragGAN!泛化更强生成质量更高,点一点「大山拔地而起」北大团队开源首个法律大模型;联合国将就AI威胁和平会谈;Stability AI CEO称程序员将在5年内消失丨AIGC大事日报DragGAN开源三天Star量23k,这又来一个DragDiffusionDragGAN第一作者Xingang Pan,正式加入南洋理工,出任助理教授!做了亿万富翁才有安全感中外4个科研团队用人体干细胞培育出“人造胚胎”,下一步会怎么走?松软没有边,云朵般口感,0蔗糖、添加水牛奶的吐司吃起来太爽了!热量更低一点!北大团队数据解析新方法:揭示新能源多时空尺度不确定性的奥秘无惧图像中的文字,TextDiffuser提供更高质量文本渲染​北大团队确认:韩国团队的LK-99不是室温超导体!美国研究人员:是劣质材料,电阻非常高文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?提质增效,数智升级,泛娱企业的研发进化之路丨TAPD 思享汇中国团队推出脑电图图像生成模型DreamDiffusion以色列,一个芯片强国如何拔地而起王濛445万元股权被冻结;58集团被曝大量倒卖毕业生简历;北大团队称LK99不具备超导性;雷军将于8月14日举办年度演讲丨邦早报清华&腾讯提出DreamDiffusion:你大脑中的画面,可以高清还原了!十分钟读懂Diffusion:图解Diffusion扩散模型战地恋情(三)树莓派上运行 Stable Diffusion,260MB 的 RAM「hold」住 10 亿参数大模型大隐隐于市!越南一家人在San Jose开的小店全是越南客人——Phở Cường 2nǚ hóng?nǚ gōng谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果|GGView驯服调皮的Diffusion,就能让服装卖家们不再为请模特发愁了!大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT【美股盘前】Rivian升近3%,上周股价暴涨48% | 全球最大养老基金结束连续四个季度亏损为了你走遍草原 后 记为何我建议你要有一点「恋爱脑」?北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少蛤蟆传Nature子刊重磅!北大团队超50万人研究:遵循这5种健康生活方式,寿命延长6.3年为了你走遍草原 第二十三章中科院团队用AI设计了一颗CPU
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。