Redian新闻
>
CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型

CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型

公众号新闻

图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。随着超分技术的发展和手机硬件性能的提升,人们期望拍摄出更加清晰的照片。这项技术在手机影像等领域有着广泛的应用和需求。


然而,现有的超分方法存在一些局限性,如下图所示,主要有以下两个方面:


一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图像和高清图像间的映射,但在其他场景下表现不佳。此外,逐场景训练的方式计算成本较高,不利于模型的部署和更新。


二是缺乏理解能力。现有的超分方法主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法利用常识来准确恢复物体的结构和纹理。



▲ 图2. 真实场景超分 SOTA 方法的局限性:(行一)难以处理训练集外的退化分布;(行二)难以利用常识恢复物体结构。


人类在处理信息时,有两种不同的认知反馈系统。诺贝尔奖经济学得主丹尼尔・卡尔曼在《思考,快与慢》中将它们称为系统一和系统二,如图 3 所示。 


系统一是快速的、直觉的、基于记忆的反馈,比如,我们可以脱口而出十以内的加减运算。系统二是缓慢的、多步的反馈,比如,28x39 往往需要逐步运算。现有的超分方法更贴近系统一,它们主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法按照常识来准确恢复物体的结构和纹理,也无法处理域外的退化情况。



▲ 图3. CoSeR 采用类似于人脑中系统二的修复方式


近日,由清华大学、华为诺亚方舟实验室、香港科技大学等机构提出的研究,通过将图像外观和语言理解结合起来生成认知特征,实现了认知超分辨率框架,使 SR 模型能够理解低分辨率图像。 


本文认为,真正能有效应用于真实场景的画质大模型应该具备类似系统二的多步修复能力,即基于对图像内容的认知,结合先验知识来实现图像超分(Cognitive Super-Resolution,CoSeR)。




项目主页:

https://coser-main.github.io/

论文地址:

https://arxiv.org/abs/2311.16512

代码地址:

https://github.com/vinhyu/coser


▲ 图1.  LR,GR 和 SR 分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。


CoSeR 模仿了人类专家修复低质量图像自上而下的思维方式,首先建立对图像内容的全面认知,包括识别场景和主要物体的特征,随后将重点转移到对图像细节的检查和还原。本文的主要贡献如下: 


1. 提出了一种通用的万物超分画质大模型 CoSeR,它能够从低清图像中提取认知特征,包括场景内容理解和纹理细节信息,从而提高模型的泛化能力和理解能力;


2. 提出了一种基于认知特征的参考图像生成方法,它能够生成与低清图像内容一致的高质量参考图像,用于指导图像的恢复过程,增强图像的保真度和美感度;


3. 提出了一种「All-in-Attention」模块,它能够将低清图像、认知特征、参考图像三个条件注入到模型当中,实现多源信息的融合和增强;


4. 在多个测试集和评价指标上,相较于现有方法,CoSeR 均取得了更好的效果。同时,CoSeR 在真实场景下也展现颇佳。


方法介绍

图 4 展示了 CoSeR 的整体架构。CoSeR 首先使用认知编码器来对低清图像进行解析,将提取到的认知特征传递给 Stable Diffusion 模型,用以激活扩散模型中的图像先验,从而恢复更精细的细节。 


此外,CoSeR 利用认知特征来生成与低清图像内容一致的高质量参考图像。这些参考图像作为辅助信息,有助于提升超分辨率效果。最终,CoSeR 使用提出的「All-in-Attention」模块,将低清图像、认知特征、参考图像三个条件注入到模型当中,进一步提升结果的保真度。


 图4. 本文提出的万物超分画质大模型CoSeR


图 5 展示了 CoSeR 参考图像生成的效果。与直接从低清图像中获取描述的方法相比,CoSeR 的认知特征保留了细粒度的图像特征,在生成具有高度相似内容的参考图像时具有优势。在图 5 的第一行,使用 BLIP2 从低清图像生成的描述无法准确识别动物的类别、颜色和纹理。 


此外,CoSeR 的认知特征对于低清图像更加鲁棒。例如,在图 5 的第二行,由于输入分布的差异,BLIP2 会生成错误的图像描述,而 CoSeR 生成了内容一致的高质量参考图像。最后,相比于 BLIP2 大模型接近 7B 的参数量,CoSeR 的认知编码器只有其 3% 的参数量,极大提升了推理速度。



 图5.(行一)使用 BLIP2 描述生成的参考图和 CoSeR 生成的参考图;(行二)CoSeR 的高鲁棒性。



结果展示

表 1 和图 6 展示了 CoSeR 与其他方法的定量和定性结果对比。CoSeR 在含有丰富类别的 ImageNet 数据集及真实超分数据集 RealSR 和 DRealSR 上,都取得了不错的结果。CoSeR 能够恢复出更加清晰和自然的图像细节,同时保持了图像的内容一致性和结构完整性。


 表1. 定量结果对比


 图6. 定性结果对比


本文提出的 CoSeR 模型为图像超分辨率技术提供了一种新的思路和方法,它能够从低清图像中提取认知特征,用于激活图像先验、生成参考图像,从而实现高质量的万物超分效果。研究人员表示,未来的研究重点是如何在不影响超分性能的情况下加速采样,以获得更高的视觉质量。 


此外,作者还将探索统一模型在更多样化的图像修复任务中的表现。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!新年首次50 K徒步 2024今日arXiv最热大模型论文:复旦提出基于diffusion的虚拟试衣模型,模特一键换装我爱那只受伤的斑马CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架年终最后一次盘点!最新最全顶会论文合集(含AAAI24、CVPR、ECCV、NIPS、ACL、ICML等)WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率小模型性能直逼GPT-4?北航等提出基于强弱模型协同的ICL增强新范式CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样Honda pilot选车:2022EXL vs 2024 LX塞缪尔·佩皮斯饕餮的快乐 – 约克公爵酱汁江湖网络, 求败不仅是传说CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式身上味道重?今天有救了!有它轻松避免尴尬,跟异味说拜拜!​AAAI 2024 | 杭电等提出MINDS,基于序列超图和对抗学习增强多尺度扩散预测CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!2024 股市指南CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务两轮游台湾 - 我的所见,所闻和所想 基隆我的高中(二):穷且益坚01/06/2024 好六讨论贴CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONutCVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetCVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解2024,美联储政策面的改变CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。