ICCV 2023 | 图像重缩放新方法：无需对模型重新训练即可提高性能

2023-08-09 04:08

©PaperWeekly 原创 · 作者 | 徐冰娜，国雍

单位 | 华南理工大学

研究方向 | 计算机视觉

深度神经网络在图像重缩放（Image Rescaling , IR）任务中取得了巨大成功，该任务旨在学习最佳的下采样表示，即低分辨率（LR）图像，来重建原始的高分辨率（HR）图像。与固定降尺度方案（例如 bicubic）的超分辨率方法相比，由于学习了下采样表示，IR 通常可以实现更好的重建性能，这突出了一个良好的下采样表示的重要性。现有的 IR 方法主要通过联合优化下采样和上采样模型来学习生成低分辨率图片。

研究者发现，可以通过一种不同的且更为直接的方式来改进下采样表示——直接优化下采样图像（LR 图像）本身，而不是下采样/上采样模型。所提出的方法专注于模型的推理阶段，无需对现有模型进行重新训练，因此可以很好地推广到不同的模型中，并不断改进结果。本工作发表在 ICCV 2023，为提升现有 IR 方法的性能提供了有效途径。

论文标题：

Downscaled Representation Matters: Improving Image Rescaling with Collaborative Downscaled Images

论文地址：

https://arxiv.org/abs/2211.10643

Image Rescaling（IR）旨在将高分辨率（HR）图像缩小为视觉上舒适的低分辨率（LR）图像，然后将其放大以恢复原始 HR 图像。在实际应用中，缩小后的图像在节省存储空间或带宽以及拟合不同分辨率的屏幕等方面发挥着重要作用。IR 的典型应用场景是在边缘设备（例如移动设备）上获取 HR 图像/视频（之前存储在服务器中）。

为了节省存储空间和减少传输延迟，通常将原始 HR 图像/视频缩小到 LR，然后存储在服务器上。在某些情况下，这些 LR 图像可以直接被边缘设备使用，例如当设备屏幕分辨率较低或仅作为预览时，同时也可以在需要时将其升级到原始分辨率。为了提高 IR 任务的性能，现有方法通过最小化重建损失来共同学习下采样和上采样模型。然而，在一个完整的 pipline 中，除了训练好的神经网络模型外，被缩小的低分辨率图片本身也非常重要。

▲ 图1 对抗样本和协同样本对于重建的HR图像的影响

当不同的数据被输入到一个参数冻结的模型中时，通常会得到明显不同的结果。如图 1 所示，与原始 LR 图像相比，基于对抗样本生成办法所生成的 LR 图像会使重建的 HR 图像的 PSNR 下降 0.93dB，并且在视觉上线条变得模糊。相比之下，基于梯度下降生成协同的 LR 图像时，不仅性能提高了 1.29dB，而且线条更加清晰流畅。

因此，本文提出了一种协作的降尺度方案 Hierarchical Collaborative Downscaling（HCD），如图 2 所示，其重点是获得图像的更好的下采样表示（紫色框），而不是学习模型（蓝色框），该方案优化了 HR 和 LR 图像域的表示，获得了更优的下采样图片。

本文提出的 HCD 与现有方法的不同之处被概括为以下 3 点：

1）优化目标不同。现有方法对模型参数进行优化，而 HCD 优化了数据的表示，这与优化模型的方法是正交的。

2）专注于不同的阶段。现有方法专注于训练阶段，HCD 专注于推理阶段，是第一个用于 IR 任务推理阶段优化方法。此外，HCD 可以很好地推广到不同的模型中，并不断改进结果。

3）优化方案不同。现有方法在每次迭代中进行向前-后向传播。相比之下，HCD 采用分层方案，采用分层方式进行前-后向传播，即先更新 HR 图像，再更新 LR 图像。

▲ 图2 现有图像重缩放方法与 HCD 方法的比较

方法

HCD 方法的整体流程图如图 3 所示。由于 LR 图像是从相应的 HR 图像中所获得的，因此可以基于 HR 域中的协同样本来改进 LR 表示。通过这种方式，依次在 HR 和 LR 域生成协同样本，可以获得更优的下采样表示。从本质上讲，可以将共同学习 HR 和 LR 域图像看作是一个双层优化问题。

本文将优化图像本身设计为向图像添加扰动的过程。为了提高重建性能，该方法固定模型参数，直接学习最优扰动和，依次改进下采样表示。设为重构损失，，分别表示上采样模型和下采样模型。扰动将被约束在一个 p-norm epsilon 球内，以避免显著改变 LR 图像的视觉效果，即。形式上，该双层优化问题中的 LR 域扰动可通过最小化 L 得到：

▲ 图3 HCD方法的整体流程图

如图 3 所示，本文提出的 HCD 方法共包括三个步骤（整个过程中保持模型参数固定）：首先，迭代生成 HR 协同样本（黑色虚线框），该过程如黑线所示。其次，将它们输入到下采样模型中，以获得更好的初始 LR 图像，并迭代生成 LR 协同样本（红色虚线框），该过程如红线所示。最后，将最终生成的 LR 图像输入到上采样模型中以重建高分辨率图像。

理论上，仅优化下采样所得的 LR 图像便可获得最佳重建图像。但是，实践中必须考虑有限次数的梯度下降迭代来更新 LR 图像，并通过以 ϵ-ball 约束扰动，优化结果将严重依赖于 LR 图像在流形上的初始位置。因此，基于更好的初始化图像，可以获得更好的优化后的 LR: 。为了获得更好的初始化，可以先优化 HR 图像，然后使用下采样模型产生更好的 LR: 。

定性&定量比较

本文基于 IRN、HCFlow 和 GRAIN 这三个最新的 Image Rescaling 方法评估了 HCD 的有效性，并在 DIV2K 验证集和 Set5、Set14、BSD100、Urban100 和 Manga109 五个标准数据集上对提出的方法进行了定量和定性分析。

2.1 定量比较

▲ 表1 不同倍数的图像重缩放在基准数据集上的定量评估结果（PSNR / SSIM）

该实验部分对本文提出的方法与其他先进的 IR 方法进行了定量比较。在所有数据集上，本文提出的 HCD 在 PSNR 和 SSIM 上的性能明显优于最先进的方法。与原模型相比，HCD 在 15 次迭代中显著提高了 HR 图像的重建效果。对于 2 倍尺度的重建图像，HCD 比 IRN 方法提高了 0.19-0.68 dB。对于 4 倍尺度的重建图像，HCD 比 HCFlow方法提高了 0.16-0.7 dB，比 IRN 方法提高了 0.27-0.44 dB。即使在 64 倍尺度放大任务上，HCD 基于最新方法 GRAIN 仍然可以提高0.66-1.48 dB，证明了该方法的鲁棒性。

2.2 定性比较

▲ 图4 不同方法在4倍缩小图像的放大任务上的视觉效果对比

研究者通过展示重建图片的细节定性地评估了 HCD 的性能。如图 4 所示，基于 HCFlow 的 HCD 结果呈现出更真实的细节和高质量的视觉效果。在最后一组对比中，HCD 缓解了 IRN 和 HCFlow 方法所带来的颜色差异。与 IRN 相比，它产生的线条更整齐，没有错误的水平线。这表明论文提出的 HCD 在视觉上明显优于 baseline 方法 HCFlow 和 IRN。

分析与讨论

层次化协同学习的影响：

▲ 表2 不同迭代方案的定量评估结果（PSNR / SSIM）

迭代次数降为零表示跳过了 HR 或 LR 图像的协作样本生成步骤。表2显示，当利用 HR 和 LR 协同样本时，PSNR 可以进一步提高 0.22-0.3 dB，这些结果证明了所提出的层次化学习方案的有效性，表明协同HR样本可以与协同 LR 样本相结合，以提高图像重缩放任务的性能。

HCD 方法图像下采样和上采样延迟的影响：本文方法所增加的延迟仅存在于获取低分辨率图像的过程中，该过程可以在服务器上离线处理。获取到优化的 LR 图像后，在边缘设备上进行图像放大时，时间成本与现有的 IR 方法完全相同。因此，该方法可在不增加重建高分辨率图像的延迟的情况下提高原模型的性能。

LR 图像上生成扰动的可视化结果：

▲ 图5 生成的LR协同样本（上行）和相应扰动（下行）的可视化结果

如图 5，扰动主要分布在图像的轮廓和角点上。有趣的是，这些区域通常包含图像放大过程中难以捕获的高频信息，本文所提出的 HCD 方法的性能改进主要源于这些协同扰动。

结语

本文提出了一种层次化的协同降尺度（HCD）的图像重缩放方法。首先，该方法为降尺度模型的输入 HR 图像生成协同样本，以便将其下采样后生成更好的 LR 初始化图像。然后，为该 LR 图像生成协同样本，以进一步提高其重建性能。大量的实验表明，无论是定量还是定性比较，该方法在不同的图像缩放模型上都显著低提高了性能。

更多阅读