Redian新闻
>
底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原

底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像复原和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

作者:星晴(已授权转载)
https://zhuanlan.zhihu.com/p/679850929

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

2024.1.25,董超XPixelGroup发布的一个新作。这篇文章用20M+张图像数据,结合SDXL模型进行了图像复原,使用64张A6000训练10天,可以看做是底层视觉领域迈向大模型的一个里程碑。本文对其进行详细的解读。

主页:https://supir.xpixel.group/

论文:https://arxiv.org/abs/2401.13627

这是部分可视化结果,整体视觉效果还是很好的:

另外Project Page上有一些可交互的可视化结果。

Introduction

在其他CV领域有很多大模型工作出现,比如SAM。而由于计算资源、模型架构、训练数据以及生成模型等工程约束条件的限制,扩大图像复原模型是很具有挑战性的。文章的motivation也就是要在一定程度上突破这样的诸多限制,构建一个较大的模型用于图像复原。

该工作使用了StableDiffusion-XL (SDXL)作为生成模型,设计并训练了一个参数量为600M的adapter,收集了20M+高质量高清数据用于训练,并且每张图片都有相应的描述性文本作为prompt;同时,使用了一个参数量13B的多模态LLM用于提供图像内容prompt。

Related Work

相关工作可以参考StableSR, PASD, DiffBIR等等。另外可以参考我对PromptSR, SeeSR的解读:

https://zhuanlan.zhihu.com/p/678934551https://zhuanlan.zhihu.com/p/678970240

Method

整体架构见下图

Model Scaling Up

Generative Prior

可选的生成式大模型有Imagen, IF, SDXL。作者首先给出了选择SDXL的原因:Imagen和IF都是层次化方法,即先生成一个低分辨率的图像然后逐步上采样,SDXL一步到位生成高分辨率图像能够更加有效地利用其参数来提升图像质量,而不是进行文本解释,更加符合本工作的目标;

另外,SDXL采用了一种Base-Refine策略。在Base model中,生成的图像多样但质量较低,Refine model则提升了这些图像的感知质量。与Base model相比,Refine model使用的训练图像质量更高,但多样性较少。由于训练数据已经是大量高质量的图像,SDXL的两阶段设计就没有必要,因此选择了参数更多的基础模型。


Degradation-Robust Encoder

在SDXL中,diffusion过程是在latent space进行的,HQ图像要经过一个预训练的encoder从而映射为latent HQ,前面的一些工作为了更好地利用LQ先验,将LQ也用同一个encoder映射到latent space。而作者认为这个encoder没用LQ图像训练过(这样会导致其对退化敏感,受到退化的影响),会影响模型对LQ图像内容的判断,可能会产生伪影。因此作者用LQ和HQ对预训练encoder进行了finetune,从而得到一个退化鲁棒的encoder,不会不受到退化影响。

Large-Scale Adaptor Design

当前的几种adapter, LoRA, T2I adaptor, ControlNet,都有局限性,最常用的ControlNet的问题在于如果在SDXL这种大模型上用的话,encoder复制一份代价太大,那么作者主要对其有两个改动:


Scaling Up Training Data

Image Collection

图像复原领域数量多且质量高的数据集目前尚未出现,因此作者收集了一个数据集,包含20M张1024*1024的高质量图像。并加入了70K张未对齐的FFHQ-raw数据集图像从而提升face restoration的能力。可以看到和其他数据集对比如下:

Multi-Modality Language Guidance


Negative-Quality Samples and Prompt

概括而言,就是加入negative prompts,也就是对图像质量负面评价的词,比如oil painting, cartoon, blur, dirty, messy, low quality, deformation, low resolution, over-smooth等,然后将positive和negative prompts得到的输出融合,公式如下:

但是只有negative prompts没有negative samples,模型无法理解negative prompts,因此作者在训练数据中加入了negative samples,具体而言,用SDXL生成100K张低质量图像。效果如图:

Restoration-Guided Sampling

Diffusion model做restoration会面临一个fidelity-Realness的trade-off,强大的生成能力可能会造成保真度的下降。因此作者提出了一种采样策略,基于EDM。简单概括,在DM生成图像的早期阶段,主要生成低频信息,那么需要约束其与LQ图像的一致性,提高保真度,在后期,主要生成高频细节纹理,那么这个时候就不需要过多约束,保证生成的真实性效果,方法如图所示,详细说明见论文。

Experiments

Datasets

20K带文字描述的高质量图像+70K FFHQ人脸图像+100K negative-quality samples

Results

分别在合成数据和真实数据上进行了实验,具体见论文。

注意虽然有参考的指标不是SOTA,但无参考指标对于图像感知质量更加重要。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!


图像复原交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-图像复原微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像复原+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid李飞飞团队新作:AI透视眼!渲染遮挡人体有了新突破!ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计AI早知道|淘天集团自研大模型“淘宝星辰”上线;Gemini Pro1.5向所有人开放;Suno正式发布V3音乐生成模型元英进院士团队新作:通过酶工程让氯酶具有氟酶活性,有望拓展有机氟化合物的生物合成途径AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug视频|奇幻视觉大片,带你看见TWS耳机新卷王Nature子刊 | 张萍/刘超/杨超团队核膜蛋白SUN2通过调节NS1介导的细胞骨架重组促进黄病毒复制攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析不明白播客:Ian Johnson/江雪 - 星火 Spark陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率奇特的天鹅兰,太美了李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了微软亚研院段楠团队开展视觉内容生成研究,助力解决多模态生成式AI核心难题美图视觉大模型将向公众开放;神经元科技发布AI agent“萨蔓莎”丨AIGC日报联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能再相聚,又传奇深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐文革红八月铁证渗血 - 被北大附中打死的工人陈彦荣长子留下清华附中红卫兵让他前去北大附中领尸体的介绍信CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略计算机视觉迎来GPT时刻!UC伯克利三巨头祭出首个纯CV大模型!中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响新年展望论坛 | 曾钰成先生:变局下的香港古偶升级,群像复兴Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报无形的苦难英伟达 RTX 4080 SUPER GPU 跑分出炉:OpenCL 测试比非 SUPER 版高 7%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。