ICCV 2023 | 图像重缩放新方法:无需对模型重新训练即可提高性能
©PaperWeekly 原创 · 作者 | 徐冰娜,国雍
单位 | 华南理工大学
研究方向 | 计算机视觉
深度神经网络在图像重缩放(Image Rescaling , IR)任务中取得了巨大成功,该任务旨在学习最佳的下采样表示,即低分辨率(LR)图像,来重建原始的高分辨率(HR)图像。与固定降尺度方案(例如 bicubic)的超分辨率方法相比,由于学习了下采样表示,IR 通常可以实现更好的重建性能,这突出了一个良好的下采样表示的重要性。现有的 IR 方法主要通过联合优化下采样和上采样模型来学习生成低分辨率图片。
研究者发现,可以通过一种不同的且更为直接的方式来改进下采样表示——直接优化下采样图像(LR 图像)本身,而不是下采样/上采样模型。所提出的方法专注于模型的推理阶段,无需对现有模型进行重新训练,因此可以很好地推广到不同的模型中,并不断改进结果。本工作发表在 ICCV 2023,为提升现有 IR 方法的性能提供了有效途径。
论文地址:
Image Rescaling(IR)旨在将高分辨率(HR)图像缩小为视觉上舒适的低分辨率(LR)图像,然后将其放大以恢复原始 HR 图像。在实际应用中,缩小后的图像在节省存储空间或带宽以及拟合不同分辨率的屏幕等方面发挥着重要作用。IR 的典型应用场景是在边缘设备(例如移动设备)上获取 HR 图像/视频(之前存储在服务器中)。
为了节省存储空间和减少传输延迟,通常将原始 HR 图像/视频缩小到 LR,然后存储在服务器上。在某些情况下,这些 LR 图像可以直接被边缘设备使用,例如当设备屏幕分辨率较低或仅作为预览时,同时也可以在需要时将其升级到原始分辨率。为了提高 IR 任务的性能,现有方法通过最小化重建损失来共同学习下采样和上采样模型。然而,在一个完整的 pipline 中,除了训练好的神经网络模型外,被缩小的低分辨率图片本身也非常重要。
▲ 图1 对抗样本和协同样本对于重建的HR图像的影响
当不同的数据被输入到一个参数冻结的模型中时, 通常会得到明显不同的结果。如图 1 所示,与原始 LR 图像相比,基于对抗样本生成办法所生成的 LR 图像会使重建的 HR 图像的 PSNR 下降 0.93dB,并且在视觉上线条变得模糊。相比之下,基于梯度下降生成协同的 LR 图像时,不仅性能提高了 1.29dB,而且线条更加清晰流畅。
因此,本文提出了一种协作的降尺度方案 Hierarchical Collaborative Downscaling(HCD),如图 2 所示,其重点是获得图像的更好的下采样表示(紫色框),而不是学习模型(蓝色框),该方案优化了 HR 和 LR 图像域的表示,获得了更优的下采样图片。
本文提出的 HCD 与现有方法的不同之处被概括为以下 3 点:
1)优化目标不同。现有方法对模型参数进行优化,而 HCD 优化了数据的表示,这与优化模型的方法是正交的。
2)专注于不同的阶段。现有方法专注于训练阶段,HCD 专注于推理阶段,是第一个用于 IR 任务推理阶段优化方法。此外,HCD 可以很好地推广到不同的模型中,并不断改进结果。
3)优化方案不同。现有方法在每次迭代中进行向前-后向传播。相比之下,HCD 采用分层方案,采用分层方式进行前-后向传播,即先更新 HR 图像,再更新 LR 图像。
▲ 图2 现有图像重缩放方法与 HCD 方法的比较
方法
HCD 方法的整体流程图如图 3 所示。由于 LR 图像是从相应的 HR 图像中所获得的,因此可以基于 HR 域中的协同样本来改进 LR 表示。通过这种方式,依次在 HR 和 LR 域生成协同样本,可以获得更优的下采样表示。从本质上讲,可以将共同学习 HR 和 LR 域图像看作是一个双层优化问题。
▲ 图3 HCD方法的整体流程图
如图 3 所示,本文提出的 HCD 方法共包括三个步骤(整个过程中保持模型参数固定):首先,迭代生成 HR 协同样本(黑色虚线框),该过程如黑线所示。其次,将它们输入到下采样模型中,以获得更好的初始 LR 图像,并迭代生成 LR 协同样本(红色虚线框),该过程如红线所示。最后,将最终生成的 LR 图像输入到上采样模型中以重建高分辨率图像。
定性&定量比较
本文基于 IRN、HCFlow 和 GRAIN 这三个最新的 Image Rescaling 方法评估了 HCD 的有效性,并在 DIV2K 验证集和 Set5、Set14、BSD100、Urban100 和 Manga109 五个标准数据集上对提出的方法进行了定量和定性分析。
2.1 定量比较
该实验部分对本文提出的方法与其他先进的 IR 方法进行了定量比较。在所有数据集上,本文提出的 HCD 在 PSNR 和 SSIM 上的性能明显优于最先进的方法。与原模型相比,HCD 在 15 次迭代中显著提高了 HR 图像的重建效果。对于 2 倍尺度的重建图像,HCD 比 IRN 方法提高了 0.19-0.68 dB。对于 4 倍尺度的重建图像,HCD 比 HCFlow方法提高了 0.16-0.7 dB,比 IRN 方法提高了 0.27-0.44 dB。即使在 64 倍尺度放大任务上,HCD 基于最新方法 GRAIN 仍然可以提高0.66-1.48 dB,证明了该方法的鲁棒性。
▲ 图4 不同方法在4倍缩小图像的放大任务上的视觉效果对比
研究者通过展示重建图片的细节定性地评估了 HCD 的性能。如图 4 所示,基于 HCFlow 的 HCD 结果呈现出更真实的细节和高质量的视觉效果。在最后一组对比中,HCD 缓解了 IRN 和 HCFlow 方法所带来的颜色差异。与 IRN 相比,它产生的线条更整齐,没有错误的水平线。这表明论文提出的 HCD 在视觉上明显优于 baseline 方法 HCFlow 和 IRN。
分析与讨论
迭代次数降为零表示跳过了 HR 或 LR 图像的协作样本生成步骤。表2显示,当利用 HR 和 LR 协同样本时,PSNR 可以进一步提高 0.22-0.3 dB,这些结果证明了所提出的层次化学习方案的有效性,表明协同HR样本可以与协同 LR 样本相结合,以提高图像重缩放任务的性能。
HCD 方法图像下采样和上采样延迟的影响:本文方法所增加的延迟仅存在于获取低分辨率图像的过程中,该过程可以在服务器上离线处理。获取到优化的 LR 图像后,在边缘设备上进行图像放大时,时间成本与现有的 IR 方法完全相同。因此,该方法可在不增加重建高分辨率图像的延迟的情况下提高原模型的性能。
LR 图像上生成扰动的可视化结果:
如图 5,扰动主要分布在图像的轮廓和角点上。有趣的是,这些区域通常包含图像放大过程中难以捕获的高频信息,本文所提出的 HCD 方法的性能改进主要源于这些协同扰动。
结语
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者