Redian新闻
>
ICCV 2023 | 图像重缩放新方法:无需对模型重新训练即可提高性能

ICCV 2023 | 图像重缩放新方法:无需对模型重新训练即可提高性能

科技

©PaperWeekly 原创 · 作者 | 徐冰娜,国雍

单位 | 华南理工大学

研究方向 | 计算机视觉


深度神经网络在图像重缩放(Image Rescaling , IR)任务中取得了巨大成功,该任务旨在学习最佳的下采样表示,即低分辨率(LR)图像,来重建原始的高分辨率(HR)图像。与固定降尺度方案(例如 bicubic)的超分辨率方法相比,由于学习了下采样表示,IR 通常可以实现更好的重建性能,这突出了一个良好的下采样表示的重要性。现有的 IR 方法主要通过联合优化下采样和上采样模型来学习生成低分辨率图片。


研究者发现,可以通过一种不同的且更为直接的方式来改进下采样表示——直接优化下采样图像(LR 图像)本身,而不是下采样/上采样模型。所提出的方法专注于模型的推理阶段,无需对现有模型进行重新训练,因此可以很好地推广到不同的模型中,并不断改进结果。本工作发表在 ICCV 2023,为提升现有 IR 方法的性能提供了有效途径。

论文标题:
Downscaled Representation Matters: Improving Image Rescaling with Collaborative Downscaled Images

论文地址:

https://arxiv.org/abs/2211.10643


Image Rescaling(IR)旨在将高分辨率(HR)图像缩小为视觉上舒适的低分辨率(LR)图像,然后将其放大以恢复原始 HR 图像。在实际应用中,缩小后的图像在节省存储空间或带宽以及拟合不同分辨率的屏幕等方面发挥着重要作用。IR 的典型应用场景是在边缘设备(例如移动设备)上获取 HR 图像/视频(之前存储在服务器中)。


为了节省存储空间和减少传输延迟,通常将原始 HR 图像/视频缩小到 LR,然后存储在服务器上。在某些情况下,这些 LR 图像可以直接被边缘设备使用,例如当设备屏幕分辨率较低或仅作为预览时,同时也可以在需要时将其升级到原始分辨率。为了提高 IR 任务的性能,现有方法通过最小化重建损失来共同学习下采样和上采样模型。然而,在一个完整的 pipline 中,除了训练好的神经网络模型外,被缩小的低分辨率图片本身也非常重要。

▲ 图1 对抗样本和协同样本对于重建的HR图像的影响


当不同的数据被输入到一个参数冻结的模型中时, 通常会得到明显不同的结果。如图 1 所示,与原始 LR 图像相比,基于对抗样本生成办法所生成的 LR 图像会使重建的 HR 图像的 PSNR 下降 0.93dB,并且在视觉上线条变得模糊。相比之下,基于梯度下降生成协同的 LR 图像时,不仅性能提高了 1.29dB,而且线条更加清晰流畅。


因此,本文提出了一种协作的降尺度方案 Hierarchical Collaborative Downscaling(HCD),如图 2 所示,其重点是获得图像的更好的下采样表示(紫色框),而不是学习模型(蓝色框),该方案优化了 HR 和 LR 图像域的表示,获得了更优的下采样图片。


本文提出的 HCD 与现有方法的不同之处被概括为以下 3 点:


1)优化目标不同。现有方法对模型参数进行优化,而 HCD 优化了数据的表示,这与优化模型的方法是正交的。


2)专注于不同的阶段。现有方法专注于训练阶段,HCD 专注于推理阶段,是第一个用于 IR 任务推理阶段优化方法。此外,HCD 可以很好地推广到不同的模型中,并不断改进结果。


3)优化方案不同。现有方法在每次迭代中进行向前-后向传播。相比之下,HCD 采用分层方案,采用分层方式进行前-后向传播,即先更新 HR 图像,再更新 LR 图像。

▲ 图2 现有图像重缩放方法与 HCD 方法的比较




方法


HCD 方法的整体流程图如图 3 所示。由于 LR 图像是从相应的 HR 图像中所获得的,因此可以基于 HR 域中的协同样本来改进 LR 表示。通过这种方式,依次在 HR 和 LR 域生成协同样本,可以获得更优的下采样表示。从本质上讲,可以将共同学习 HR 和 LR 域图像看作是一个双层优化问题。


本文将优化图像本身设计为向图像添加扰动的过程。为了提高重建性能,该方法固定模型参数,直接学习最优扰动 ,依次改进下采样表示 。设 为重构损失, 分别表示上采样模型和下采样模型。扰动将被约束在一个 p-norm epsilon 球内,以避免显著改变 LR 图像的视觉效果,即 。形式上,该双层优化问题中的 LR 域扰动可通过最小化 L 得到:

▲ 图3 HCD方法的整体流程图


如图 3 所示,本文提出的 HCD 方法共包括三个步骤(整个过程中保持模型参数固定):首先,迭代生成 HR 协同样本(黑色虚线框),该过程如黑线所示。其次,将它们输入到下采样模型中,以获得更好的初始 LR 图像,并迭代生成 LR 协同样本(红色虚线框),该过程如红线所示。最后,将最终生成的 LR 图像输入到上采样模型中以重建高分辨率图像。


理论上,仅优化下采样所得的 LR 图像便可获得最佳重建图像。但是,实践中必须考虑有限次数的梯度下降迭代来更新 LR 图像,并通过 以 ϵ-ball 约束扰动 ,优化结果将严重依赖于 LR 图像 在流形上的初始位置。因此,基于更好的 初始化图像,可以获得更好的优化后的 LR: 。为了获得更好的初始化 ,可以先优化 HR 图像,然后使用下采样模型产生更好的 LR:



定性&定量比较


本文基于 IRN、HCFlow 和 GRAIN 这三个最新的 Image Rescaling 方法评估了 HCD 的有效性,并在 DIV2K 验证集和 Set5、Set14、BSD100、Urban100 和 Manga109 五个标准数据集上对提出的方法进行了定量和定性分析。


2.1 定量比较

▲ 表1 不同倍数的图像重缩放在基准数据集上的定量评估结果(PSNR / SSIM)


该实验部分对本文提出的方法与其他先进的 IR 方法进行了定量比较。在所有数据集上,本文提出的 HCD 在 PSNR 和 SSIM 上的性能明显优于最先进的方法。与原模型相比,HCD 在 15 次迭代中显著提高了 HR 图像的重建效果。对于 2 倍尺度的重建图像,HCD 比 IRN 方法提高了 0.19-0.68 dB。对于 4 倍尺度的重建图像,HCD 比 HCFlow方法提高了 0.16-0.7 dB,比 IRN 方法提高了 0.27-0.44 dB。即使在 64 倍尺度放大任务上,HCD 基于最新方法 GRAIN 仍然可以提高0.66-1.48 dB,证明了该方法的鲁棒性。


2.2 定性比较

▲ 图4 不同方法在4倍缩小图像的放大任务上的视觉效果对比


研究者通过展示重建图片的细节定性地评估了 HCD 的性能。如图 4 所示,基于 HCFlow 的 HCD 结果呈现出更真实的细节和高质量的视觉效果。在最后一组对比中,HCD 缓解了 IRN 和 HCFlow 方法所带来的颜色差异。与 IRN 相比,它产生的线条更整齐,没有错误的水平线。这表明论文提出的 HCD 在视觉上明显优于 baseline 方法 HCFlow 和 IRN。




分析与讨论


层次化协同学习的影响:

▲ 表2 不同迭代方案的定量评估结果(PSNR / SSIM)


迭代次数降为零表示跳过了 HR 或 LR 图像的协作样本生成步骤。表2显示,当利用 HR 和 LR 协同样本时,PSNR 可以进一步提高 0.22-0.3 dB,这些结果证明了所提出的层次化学习方案的有效性,表明协同HR样本可以与协同 LR 样本相结合,以提高图像重缩放任务的性能。


HCD 方法图像下采样和上采样延迟的影响:本文方法所增加的延迟仅存在于获取低分辨率图像的过程中,该过程可以在服务器上离线处理。获取到优化的 LR 图像后,在边缘设备上进行图像放大时,时间成本与现有的 IR 方法完全相同。因此,该方法可在不增加重建高分辨率图像的延迟的情况下提高原模型的性能。


LR 图像上生成扰动的可视化结果:

▲ 图5 生成的LR协同样本(上行)和相应扰动(下行)的可视化结果


如图 5,扰动主要分布在图像的轮廓和角点上。有趣的是,这些区域通常包含图像放大过程中难以捕获的高频信息,本文所提出的 HCD 方法的性能改进主要源于这些协同扰动。




结语


本文提出了一种层次化的协同降尺度(HCD)的图像重缩放方法。首先,该方法为降尺度模型的输入 HR 图像生成协同样本,以便将其下采样后生成更好的 LR 初始化图像。然后,为该 LR 图像生成协同样本,以进一步提高其重建性能。大量的实验表明,无论是定量还是定性比较,该方法在不同的图像缩放模型上都显著低提高了性能。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测超逼真3D生成模型!华南理工贾奎团队ICCV'23新作:支持重新照明、编辑和物理仿真想不想我【美国风流才女春天传奇夏至父亲端午节5年现场舞台风格流派三部曲原创演唱会】励志春天跑步歌《阳光下奔跑》&《白色衣裙女孩》俄乌战况14ICCV 2023 Oral | CLIP-LIT将CLIP用于无监督背光图像增强分分钟手搓一个知识快应用!10年积淀,「云中问道」大模型重新定义知识管理次韵为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTAICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器赞!兵哥哥借住过的教室像重新装修了……听,教育早新闻来啦!大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构​ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型2023 樱花之约(四)琵琶湖和夜樱中科院大模型重磅更新!神经外科手术、研读交通违反规定图像都能用上ICCV 2023 | DomainAdaptor:测试阶段自适应新方法《思乡情》&《千樱雪》放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师2023年的当头一棒:我在日本做手术(完)俄乌战况11ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练五十一 治沙3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型Biotechnology Advances | 上海交大李雷课题组综述独特微生物资源生物合成潜能释放新方法外派故事 (35)萍水相逢在南洋无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型ICCV 2023 | 对于极暗场景RAW图像去噪,你是否还在被标定折磨?来试试LED!少量数据、快速部署!为什么有时候外商无需提单即可提货?无需对当前市场太过悲观Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTA给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型训练大模型之前,你要了解下向量数据库、算力集群、高性能网络技术底座吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。