首个！上交&ETH提出PromptSR：基于文本提示扩散的图像超分辨率

公众号新闻

2024-02-03 16:02

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【图像复原和求职】交流群

扫描下方二维码，加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文搞科研，强烈推荐！

作者：星晴（已授权转载）
https://zhuanlan.zhihu.com/p/678934551

论文：https://arxiv.org/abs/2311.14282

代码（即将开源）：

https://github.com/zhengchen1999/PromptSR

ETH Yulun Zhang新作，用Diffusion+Prompt 做SR的，思路很清晰

Motivation

SR需要先验去指导图像复原，LR可以看成一个prior，那么这篇文章就给出了另一个degradation prior，即text prompts。具体而言，用text描述degradation，然后作为prompt输入Diffusion Model，指导DM对图像的超分，思路清晰。

Preliminary

这篇文章的解读默认读者已经了解了相关前置知识。阅读这篇文章之前，除了基本的超分知识外，需要了解的前置知识如下：

Diffusion相关文章（包括Stable Diffusion）
ControlNet
Diffusion + SR的相关文章：如DiffBIR, StableSR, PASD等，后续也会对比这些文章

Method

1. 去除了预处理模块：整体的结构对比DiffBIR与PASR，没有预处理的restoration module；参考StableSR，推测预处理提前清除退化的影响，可能效果不是特别明显而且增加了训练成本；

2. 没有使用ControlNet：DiffBIR, PASD均使用了ControlNet（StableSR也用了类似模块），输入LR，将输出与UNet的Decoder融合，从而达到加入LR先验去控制DM保真度的效果；而这里是将LR进行upsampling和输入Noisy image拼接之后直接输入UNet，同样可能是为了降低训练成本和inference time；

3. 加入了描述Degradation的Text Prompts：之前的PASD使用了高层语义信息（包括分类、分割、Caption）作为prompts，这里作者认为LR图像已经能够提升足够的语义信息用于恢复了，需要用退化相关的prompts以此提升退化建模的能力。这里其实我的看法是，之前提到的预处理模块其实就是在一定程度上解决了退化建模问题，而这里删去了这个模块，用这个text prompts完全可以弥补去掉预处理模块的缺陷。

4.Text Encoder用预训练的CLIP模型

以下是对比之前模型架构图：

DiffBIR

PASD

StableSR

Text-Image Generation Pipeline

这块是本篇论文的核心部分，即生成图像对-文本配对的数据，图像对就是原先的HR-LR，文本则是描述退化的，对于每一种退化，将参数平均分成多个区间，每个区间用一个表示程度的词去描述，例如原先是 [Gaussian noise with noise level 1.5]，这里就用[medium noise]表示，最后把所有的描述组合成一句话构成了text prompts。

Experiments

Datasets

训练集：LSDIR

测试集：合成数据集使用了Urban100, Manga109, LSDIR val, DIV2K val；真实数据集使用了RealSR, Real45

Results

Ablation Studies

其中这个不同类别prompts的结果还是挺有意思的（这里caption是BLIP产生的全局内容描述），就是caption+degradation还没有degradation好，作者解释说是两种prompts的gap导致caption会影响degradation prompts。

在CVer微信公众号后台回复：论文，即可下载论文和代码链接！快学起来！

超分辨率和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-超分辨率或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如超分辨率或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章