Redian新闻
>
首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率

首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像复原和求职】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

作者:星晴(已授权转载)

https://zhuanlan.zhihu.com/p/678934551

论文:https://arxiv.org/abs/2311.14282
代码(即将开源):
https://github.com/zhengchen1999/PromptSR

ETH Yulun Zhang新作,用Diffusion+Prompt 做SR的,思路很清晰

Motivation

SR需要先验去指导图像复原,LR可以看成一个prior,那么这篇文章就给出了另一个degradation prior,即text prompts。具体而言,用text描述degradation,然后作为prompt输入Diffusion Model,指导DM对图像的超分,思路清晰。

Preliminary

这篇文章的解读默认读者已经了解了相关前置知识。阅读这篇文章之前,除了基本的超分知识外,需要了解的前置知识如下:

  1. Diffusion相关文章(包括Stable Diffusion)

  2. ControlNet

  3. Diffusion + SR的相关文章:如DiffBIR, StableSR, PASD等,后续也会对比这些文章

Method

1. 去除了预处理模块:整体的结构对比DiffBIR与PASR,没有预处理的restoration module;参考StableSR,推测预处理提前清除退化的影响,可能效果不是特别明显而且增加了训练成本;

2. 没有使用ControlNet:DiffBIR, PASD均使用了ControlNet(StableSR也用了类似模块),输入LR,将输出与UNet的Decoder融合,从而达到加入LR先验去控制DM保真度的效果;而这里是将LR进行upsampling和输入Noisy image拼接之后直接输入UNet,同样可能是为了降低训练成本和inference time;

3. 加入了描述Degradation的Text Prompts:之前的PASD使用了高层语义信息(包括分类、分割、Caption)作为prompts,这里作者认为LR图像已经能够提升足够的语义信息用于恢复了,需要用退化相关的prompts以此提升退化建模的能力。这里其实我的看法是,之前提到的预处理模块其实就是在一定程度上解决了退化建模问题,而这里删去了这个模块,用这个text prompts完全可以弥补去掉预处理模块的缺陷。

4.Text Encoder用预训练的CLIP模型


以下是对比之前模型架构图:

DiffBIR

PASD

StableSR


Text-Image Generation Pipeline

这块是本篇论文的核心部分,即生成图像对-文本配对的数据,图像对就是原先的HR-LR,文本则是描述退化的,对于每一种退化,将参数平均分成多个区间,每个区间用一个表示程度的词去描述,例如原先是 [Gaussian noise with noise level 1.5],这里就用[medium noise]表示,最后把所有的描述组合成一句话构成了text prompts。

Experiments

Datasets

训练集:LSDIR

测试集:合成数据集使用了Urban100, Manga109, LSDIR val, DIV2K val;真实数据集使用了RealSR, Real45


Results



Ablation Studies

其中这个不同类别prompts的结果还是挺有意思的(这里caption是BLIP产生的全局内容描述),就是caption+degradation还没有degradation好,作者解释说是两种prompts的gap导致caption会影响degradation prompts。

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!


超分辨率和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-超分辨率或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如超分辨率或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
五律。挂壁水渠北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!武家坡2021 & 不必在乎我是谁 给活动选手们加油:)打造国内首个超分子技术防脱品牌,可氏利夫凭借“生发肽”掘金防脱发市场提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略加州-Crossroads School For Arts and Sciences十字路口科学艺术学校超分辨率方向微信交流群成立!攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!最近发生在的Texas的Law and Order的具体案例,你觉得和你想象的一样吗?你会支持这样的Law&order吗自动生成prompt:Automatic prompt engineering斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了文末送书 | Prompt超实用宝典:精准提问,显著提升ChatGPT输出质量Winter Break Nearing, China Targets Illegal Student Competitions吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原111、112、长篇民国小说《永泰里》第二十二章 鸳鸯于飞(3)&(4)顶刊TIP 2023!浙大提出:基于全频域通道选择的的无监督异常检测OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题华硕推出 ProArt PA169CDV 绘图屏:15.6 英寸 4K 分辨率,支持 Wacom EMR 笔71、72、长篇民国小说《永泰里》第十五章 黄雀在后(1)&(2)肯德基爷爷的诅咒?日本球迷为打破诅咒,又打捞又供奉,如今还把雕像超度了...Meta官方的Prompt工程指南:Llama 2这样用更高效王友琴: 《饿鬼》书评 — 隐藏在麦穗下面的长凳及埃德加斯诺检测一切!Visual Prompting:视觉提示扩展检测模型能力In Northeast China, Tourists From the South Spark a Winter Boom王友琴:火葬场侥幸生还的校长和太平间复活的老师,道歉在哪里?分割一切"3D高斯"来了!上交&华为提出SAGA:几毫秒完成3D分割一切!CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型又书 咏庭芳即插即用!上交提出Long-CLIP:解锁CLIP的长文本功能谷歌或1月25日推出Pixel 8 Pro手机新配色113、114、长篇民国小说《永泰里》第二十三章 花落流水(1)&(2)CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型小常识:地球是圆的这个概念是何时形成的?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。