首个!上交Ð提出PromptSR:基于文本提示扩散的图像超分辨率
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
扫描下方二维码,加入CVer学术星球,可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!
作者:星晴(已授权转载)
https://zhuanlan.zhihu.com/p/678934551
作者:星晴(已授权转载)
ETH Yulun Zhang新作,用Diffusion+Prompt 做SR的,思路很清晰
Motivation
SR需要先验去指导图像复原,LR可以看成一个prior,那么这篇文章就给出了另一个degradation prior,即text prompts。具体而言,用text描述degradation,然后作为prompt输入Diffusion Model,指导DM对图像的超分,思路清晰。
Preliminary
这篇文章的解读默认读者已经了解了相关前置知识。阅读这篇文章之前,除了基本的超分知识外,需要了解的前置知识如下:
Diffusion相关文章(包括Stable Diffusion)
ControlNet
Diffusion + SR的相关文章:如DiffBIR, StableSR, PASD等,后续也会对比这些文章
Method
1. 去除了预处理模块:整体的结构对比DiffBIR与PASR,没有预处理的restoration module;参考StableSR,推测预处理提前清除退化的影响,可能效果不是特别明显而且增加了训练成本;
2. 没有使用ControlNet:DiffBIR, PASD均使用了ControlNet(StableSR也用了类似模块),输入LR,将输出与UNet的Decoder融合,从而达到加入LR先验去控制DM保真度的效果;而这里是将LR进行upsampling和输入Noisy image拼接之后直接输入UNet,同样可能是为了降低训练成本和inference time;
3. 加入了描述Degradation的Text Prompts:之前的PASD使用了高层语义信息(包括分类、分割、Caption)作为prompts,这里作者认为LR图像已经能够提升足够的语义信息用于恢复了,需要用退化相关的prompts以此提升退化建模的能力。这里其实我的看法是,之前提到的预处理模块其实就是在一定程度上解决了退化建模问题,而这里删去了这个模块,用这个text prompts完全可以弥补去掉预处理模块的缺陷。
4.Text Encoder用预训练的CLIP模型
以下是对比之前模型架构图:
DiffBIR
PASD
StableSR
Text-Image Generation Pipeline
这块是本篇论文的核心部分,即生成图像对-文本配对的数据,图像对就是原先的HR-LR,文本则是描述退化的,对于每一种退化,将参数平均分成多个区间,每个区间用一个表示程度的词去描述,例如原先是 [Gaussian noise with noise level 1.5],这里就用[medium noise]表示,最后把所有的描述组合成一句话构成了text prompts。
Experiments
Datasets
训练集:LSDIR
测试集:合成数据集使用了Urban100, Manga109, LSDIR val, DIV2K val;真实数据集使用了RealSR, Real45
Results
Ablation Studies
其中这个不同类别prompts的结果还是挺有意思的(这里caption是BLIP产生的全局内容描述),就是caption+degradation还没有degradation好,作者解释说是两种prompts的gap导致caption会影响degradation prompts。
在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!
超分辨率和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-超分辨率或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如超分辨率或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者