Redian新闻
>
首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率

首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像复原和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

作者:星晴(已授权转载)

https://zhuanlan.zhihu.com/p/678934551

论文:https://arxiv.org/abs/2311.14282
代码(即将开源):
https://github.com/zhengchen1999/PromptSR

ETH Yulun Zhang新作,用Diffusion+Prompt 做SR的,思路很清晰

Motivation

SR需要先验去指导图像复原,LR可以看成一个prior,那么这篇文章就给出了另一个degradation prior,即text prompts。具体而言,用text描述degradation,然后作为prompt输入Diffusion Model,指导DM对图像的超分,思路清晰。

Preliminary

这篇文章的解读默认读者已经了解了相关前置知识。阅读这篇文章之前,除了基本的超分知识外,需要了解的前置知识如下:

  1. Diffusion相关文章(包括Stable Diffusion)

  2. ControlNet

  3. Diffusion + SR的相关文章:如DiffBIR, StableSR, PASD等,后续也会对比这些文章

Method

1. 去除了预处理模块:整体的结构对比DiffBIR与PASR,没有预处理的restoration module;参考StableSR,推测预处理提前清除退化的影响,可能效果不是特别明显而且增加了训练成本;

2. 没有使用ControlNet:DiffBIR, PASD均使用了ControlNet(StableSR也用了类似模块),输入LR,将输出与UNet的Decoder融合,从而达到加入LR先验去控制DM保真度的效果;而这里是将LR进行upsampling和输入Noisy image拼接之后直接输入UNet,同样可能是为了降低训练成本和inference time;

3. 加入了描述Degradation的Text Prompts:之前的PASD使用了高层语义信息(包括分类、分割、Caption)作为prompts,这里作者认为LR图像已经能够提升足够的语义信息用于恢复了,需要用退化相关的prompts以此提升退化建模的能力。这里其实我的看法是,之前提到的预处理模块其实就是在一定程度上解决了退化建模问题,而这里删去了这个模块,用这个text prompts完全可以弥补去掉预处理模块的缺陷。

4.Text Encoder用预训练的CLIP模型


以下是对比之前模型架构图:

DiffBIR

PASD

StableSR


Text-Image Generation Pipeline

这块是本篇论文的核心部分,即生成图像对-文本配对的数据,图像对就是原先的HR-LR,文本则是描述退化的,对于每一种退化,将参数平均分成多个区间,每个区间用一个表示程度的词去描述,例如原先是 [Gaussian noise with noise level 1.5],这里就用[medium noise]表示,最后把所有的描述组合成一句话构成了text prompts。

Experiments

Datasets

训练集:LSDIR

测试集:合成数据集使用了Urban100, Manga109, LSDIR val, DIV2K val;真实数据集使用了RealSR, Real45


Results



Ablation Studies

其中这个不同类别prompts的结果还是挺有意思的(这里caption是BLIP产生的全局内容描述),就是caption+degradation还没有degradation好,作者解释说是两种prompts的gap导致caption会影响degradation prompts。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!


超分辨率和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-超分辨率或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如超分辨率或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
五律。挂壁水渠谷歌或1月25日推出Pixel 8 Pro手机新配色肯德基爷爷的诅咒?日本球迷为打破诅咒,又打捞又供奉,如今还把雕像超度了...文末送书 | Prompt超实用宝典:精准提问,显著提升ChatGPT输出质量王友琴:火葬场侥幸生还的校长和太平间复活的老师,道歉在哪里?OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能自动生成prompt:Automatic prompt engineeringMeta官方的Prompt工程指南:Llama 2这样用更高效吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析王友琴: 《饿鬼》书评 — 隐藏在麦穗下面的长凳及埃德加斯诺曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了检测一切!Visual Prompting:视觉提示扩展检测模型能力In Northeast China, Tourists From the South Spark a Winter Boom扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略又书 咏庭芳113、114、长篇民国小说《永泰里》第二十三章 花落流水(1)&(2)Winter Break Nearing, China Targets Illegal Student Competitions打造国内首个超分子技术防脱品牌,可氏利夫凭借“生发肽”掘金防脱发市场扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板武家坡2021 & 不必在乎我是谁 给活动选手们加油:)北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!小常识:地球是圆的这个概念是何时形成的?ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!最近发生在的Texas的Law and Order的具体案例,你觉得和你想象的一样吗?你会支持这样的Law&order吗斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了111、112、长篇民国小说《永泰里》第二十二章 鸳鸯于飞(3)&(4)顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测即插即用!上交提出Long-CLIP:解锁CLIP的长文本功能CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果华硕推出 ProArt PA169CDV 绘图屏:15.6 英寸 4K 分辨率,支持 Wacom EMR 笔底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原71、72、长篇民国小说《永泰里》第十五章 黄雀在后(1)&(2)超分辨率方向微信交流群成立!加州-Crossroads School For Arts and Sciences十字路口科学艺术学校CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型分割一切"3D高斯"来了!上交&华为提出SAGA:几毫秒完成3D分割一切!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。