聚焦图像/视频去模糊全新挑战：Blur Decomposition/Interpolation

科技

2023-03-18 12:03

©PaperWeekly 原创 · 作者 | Zhihang Zhong

单位 | The University of Tokyo

研究方向 | 图像/视频恢复增强，计算摄影

作者主页 | https://zzh-tech.github.io/

研究背景

在深度学习时代，去模糊（deblurring）问题作为底层视觉（low-level vision）的经典恢复任务，对应的神经网络模型也是层出不穷。但是，大部分方法都还停留在一对一映射（one-to-one mapping）阶段，即根据输入的一张模糊的图或者一个模糊的视频来恢复出对应的清楚图片或者视频。其中输出的图片数量是不会多于输入的图片数量的。

传统去模糊方法忽略了模糊中蕴藏的有益时序信息。其实模糊的形成过程可以理解为在曝光时间内清楚图片按时序平均的过程。这就启发了研究者们思考一个问题：是否可以训练一个神经网络来模拟模糊形成的逆过程从而实现取其精华，去其糟粕呢？通俗地讲就是从模糊的图片中提取出潜在的清楚视频。

这个任务可以被称作模糊分解（blur decomposition）或者模糊插帧（blur interpolation）。模糊插帧和传统去模糊任务的比较详见下图：

显然，和传统去模糊任务相比，这个任务更难了！或许大家定睛一看，会想是不是在训练过程中给对应的多帧清楚帧作为监督就行了，学习的事情就交给网络。但事情并没有这么简单。

如果是单张模糊图片作为输入的话会存在模糊分解的方向歧义性。退一步讲，即使没有方向歧义性，如何实现高效的任意时刻清晰帧抽取也不容易。东京大学的研究员分别针对这两个问题给出了他们的解答，相关工作分别收录于 ECCV 2022 和 CVPR 2023。

问题1：如何解决模糊分解的方向歧义性?

论文标题：

Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance

收录会议：

ECCV 2022

论文作者：

Zhihang Zhong, Xiao Sun, Zhirong Wu, Yinqiang Zheng, Stephen Lin, Imari Sato

论文链接：

https://arxiv.org/abs/2207.10123

代码链接：

https://github.com/zzh-tech/Animation-from-Blur

论文主页：

https://zzh-tech.github.io/Animation-from-Blur/

2.1 何谓模糊方向歧义？

输入单张模糊的图片，比如以下面跳舞的人为例子，每个独立运动的部分在曝光时间内正向反向运动都可以生成一样的运动模糊。所以，每个独立运动的区域在运动没那么复杂的情况下都对应着至少两种解。假设独立运动的区域为，那么存对于单张图来说，存在的解的数量至少为，这意味着对应模糊的解不是唯一的。如果忽视模糊的方向歧义性，直接用其中一种正确序列作为监督信号会导致训练过程很难收敛。这是当前研究所面临的问题。

2.2 解决方法-训练

Animation-from-Blur 的核心思想是，在训练的过程中明确告诉网络该往哪个方向分解。这样不但确保了训练过程的稳定性，还顺便带来了一个可控的多接口模糊分解框架。

作者定义了一种 motion guidance 来指导神经网络该往什么方向分解。该 motion guidance 是一种量化版的光流，只拥有四个粗略的方向并且不存在大小幅值。以作者定义的二阶段网络为例子，相应实验的损失函数曲线证明了拥有 motion guidance 的网络（红色曲线）能收敛得更好。

2.3 解决方法-推断

在训练阶段可以根据用于监督的高帧率清晰帧来生成用于训练的 motion guidance，那在测试阶段该怎么获得 motion guidance 呢？作者提供了以下三种接口来解决这个问题：

1. 利用 cVAE-GAN 的结构去学习一张模糊图片潜在合理的 motion guidance 分布，并利用 Kullback-Leibler divergence loss 的约束让学习到的分布尽量逼近正太分布。在推断阶段就可以通过在正态分布进行采样得到不同的 motion guidance 来指导模糊分解的过程。

2. 如果输入是一个模糊视频，那么可以根据相邻帧直接估计光流从而得到对应的符合真实情况的 motion guidance。

3. 因为所定义的 motion guidance 的简洁性，用户甚至可以直接绘制一个 motion guidance 用于分解。

2.4 实验结果

在解决了方向歧义问题后，从同一张模糊图片出发，Animation-from-Blur 通过不同的 motion guidance 接口出发可以产生多种物理上合理的分解结果！更多的结果包括存在相机运动的场景请参考论文网站以及原论文。

问题2：如何实现高效且稳定的任意时刻模糊插帧？

论文标题：

Blur Interpolation Transformer for Real-World Motion from Blur

收录会议：

CVPR 2023

论文作者：

Zhihang Zhong, Mingdeng Cao, Xiang Ji, Yinqiang Zheng, and Imari Sato

论文链接：

https://arxiv.org/abs/2211.11423

代码链接：

https://github.com/zzh-tech/BiT

3.1 没有歧义下的效率和泛化问题

如果输入是模糊的视频，根据相邻帧的相对运动信息是基本不存在 ECCV 2022 论文中所提到的方向歧义性问题的。但仍然存在的问题有两个：

1. 如何构建一个能够实现任意时刻模糊插帧（arbitrary time blur interpolation）的网络？

2. 如何解决在合成数据训练的模型难以泛化到真实数据的问题？

作者在他们 CVPR 2023 的论文中给出了解答。

3.2 解决方法-模型

首先，作者提出了 BiT（Blur Interpolation Transformer）模型，可以实现比之前的方法更强更快的任意时刻模糊插帧。该模型主要由多尺度残差 Swin Transformer 模块（Multi-scale Residual Swin Transformer Blocks, MS-RSTBs）作为骨干模块来构建网络。

BiT 通过个 MS-RSTB 模块将中间帧和前后帧编码成一个共享特征。对这个共享特征赋予不同的时刻进行调制并通过个模块进行解码能得到对应时刻的清晰帧。作者根据模糊插帧的特性进一步提出了以下两种时间相关的学习策略来构建任意时刻模糊插帧模型的完全体 BiT++：

1. 双端时序监督策略（Dual-end Temporal Supervision，DTS）：直接使用共享特征进行曝光起始点（t=0）和终点（t=1）时刻清晰帧的恢复可以重塑共享特征，这有助于任意时刻清晰帧的恢复。可以将该策略想象成把特征从时间两端撑开以适应连续时刻插帧。

2. 时序对称集成策略（Temporally Symmetric Ensembling, TSE）：输入的三帧正序的时刻和反序的时刻其实对应相同的清晰帧。对正序和反序相同时间点的共享特征进行集成解码可以进一步提升模型的性能。

3.3 解决方法-数据

因为合成数据是利用离散清晰图像序列进行平均，生成的模糊并不连续，所以在合成数据上训练的模型泛化性有限。因此，作者团队利用分光器设计了一个新的混合相机系统来采集真实世界的模糊插帧数据库。其中一个相机为低帧率长曝光的相机，用来采集低帧率模糊视频，另外一个相机是高帧率短曝光的相机，用来采集对应的高帧率清晰视频。

3.4 实验结果

可以发现在相同数据库上训练的方法中，所提出的 BiT++ 在视觉效果上明显超过了之前的方法。

而且在数值对比上，BiT++ 能以更快的速度取得更好的效果。

结尾

本文介绍了去模糊问题在深度学习时代的新走向，即模糊分解或插帧。希望能够给予各位读者一些启发！值得一提的是，除了模糊以外，其他的一些跟时序相关的运动伪影（motion artifacts），如卷帘门畸变（rolling shutter distortion）等，也能实现相应的 image-to-video 任务。详情请参考该团队的另一个工作 Dual-Reversed-Distortion：

https://zzh-tech.github.io/Dual-Reversed-RS/

最后，欢迎大家点🌟和 follow 作者的 GitHub：

https://github.com/zzh-tech

更多阅读