真·任意时刻视频插帧利器，更清晰，可编辑！已开源，可在线试用

2023-11-29 06:11

视频插帧技术具有广阔的应用前景，如慢动作生成，提高视频帧率，也是视频生成和压缩等任务的核心模块。现有的 SOTA 视频插帧算法如 RIFE [1]，IFRNet [2]，AMT [3]，以及 EMA-VFI [4] 等都是基于神经网络训练而来。

上海人工智能实验室联合 Snap 的研究团队提出了“即插即用”的 InterpAny-Clearer 训练策略，首次显式地突破了以下难点：

解决了视频插帧模型在训练时碰到的速度歧义问题；
提高了视频插帧算法清晰度的理论上限；
赋予插帧算法可编辑物体运动模式的能力

代码链接：

https://github.com/zzh-tech/InterpAny-Clearer

论文链接：

http://arxiv.org/abs/2311.08007

试用链接：

http://ai4sports.opengvlab.com/interpany-clearer/1

更清晰的任意时刻插帧

在此，我们以 RIFE 为例，仅用两帧图像插出 128 倍的慢动作。左边是原本算法的结果，右边是相同算法运用我们训练策略的结果：

▲ 更多结果详见project website

可编辑的任意物体插帧

技术细节

3.1 速度歧义问题

目前主流的任意时间插帧算法是以起始帧，结尾帧，以及时间索引作为输入来预测目标帧：

但是由于每一个独立运动物体的运动速度是未知的，这会带来“速度歧义”问题，即存在相同输入到多种可能的不同位置的映射：

以 ⚾️ 为例子，中间 ⚾️ 的落点有无数种可能，导致训练过程中的学习冲突。

简而言之，算法无法判断学习哪种情况才是对的，干脆就学一个平均状态：

这导致在测试的时候，算法的预测是模糊的：

事实上，一对多映射（one-to-many mapping）的歧义问题在机械学习中不少见，比如在语音合成（text-to-speech，TTS）任务中也有所涉及。对于语音合成来说，给定一段话，可以有很多方式朗读它。如果直接学习不加以区分，网络只能学到“模糊”的语音。

为了解决这个问题，研究人员通常在训练期间引入了 speaker embedding 或 style embedding（表示不同性别、口音、说话风格等），以减少歧义。在测试时，使用平均的 speaker embedding 就可以产生高质量的语音。此外，通过编辑 speaker embedding，可以实现口音和音调改变等效果。同理，我们需要解决视频插帧的速度歧义问题。

3.2 解歧义

为了解决速度歧义，我们需要一种新的索引学习的范式。

我们需要提示算法，为什么物体落在图像中的某个位置：

3.3 路径距离索引

事实上，采用时间索引的训练方式，要求算法不但学会如何插帧，还需要猜测时间到位置的映射关系：

我们的解决方案是计算一个路径距离比例图来替换时间进行索引学习：

我们首先分别计算从至以及从至的光流。然后对于每一个像素位置，我们计算投影到所占的比例（“路径距离比例”）：

通过 ，算法规避了训练期间由于速率不同导致时间到位置上的模糊对应，所以在测试期间能够给出更清晰的预测。

重要的是，即使在测试期间无法使用真实标签计算对应的 ，给予和时间索引测试一样的均匀索引图，即 ，算法也能预测出更清晰的图（模拟物体运动都是匀速的情况）。

3.4 迭代距离估计

虽然路径距离索引能帮我们规避速率上的歧义，但是运动方向上的歧义仍然没有解决。

我们采用经典的分治法来尽可能减小方向歧义带来的影响，使得预测的结果能够进一步清晰。

具体而言，我们将一个大距离推断拆解为由近到远的逐步小距离推断，且每一次推断都有上一次推断的索引、结果以及开头结尾帧作为参考，避免累积错误：

例如，将推断拆解为两步，则可表示为：

同样以 ⚾️ 为例，我们所提出的策略如下图所示：

3.5 可编辑插帧

除去像时间索引一样使用均匀的索引图，我们甚至可以利用路径距离索引的 2D 可编辑属性实现可编辑插帧技术。

我们首先可以通过 Segment Anything Model（SAM）[5] 得到感兴趣物体的掩码图，然后通过定制各个物体区域的路径距离曲线完成视频插帧的自定义编辑。

结尾

本文介绍了新一代更清晰可编辑的视频插帧技术，希望能够给予各位读者一些启发！

有兴趣实习或者工作的读者请联系：[email protected]

欢迎大家🌟该项目以及 follow 作者的 GitHub~

参考文献

[1] Huang, Zhewei, Tianyuan Zhang, Wen Heng, Boxin Shi, and Shuchang Zhou. "Real-time intermediate flow estimation for video frame interpolation." In European Conference on Computer Vision, pp. 624-642. Cham: Springer Nature Switzerland, 2022.

[2] Kong, Lingtong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Xiaoming Huang, Ying Tai, Chengjie Wang, and Jie Yang. "Ifrnet: Intermediate feature refine network for efficient frame interpolation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1969-1978. 2022.

[3] Li, Zhen, Zuo-Liang Zhu, Ling-Hao Han, Qibin Hou, Chun-Le Guo, and Ming-Ming Cheng. "AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9801-9810. 2023.

[4] Zhang, Guozhen, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, and Limin Wang. "Extracting motion and appearance via inter-frame attention for efficient video frame interpolation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5682-5692. 2023.

[5] Kirillov, Alexander, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, and Ross Girshick. "Segment Anything." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4015-4026. 2023

更多阅读