Redian新闻
>
真·任意时刻视频插帧利器,更清晰,可编辑!已开源,可在线试用

真·任意时刻视频插帧利器,更清晰,可编辑!已开源,可在线试用

公众号新闻


视频插帧技术具有广阔的应用前景,如慢动作生成,提高视频帧率,也是视频生成和压缩等任务的核心模块。现有的 SOTA 视频插帧算法如 RIFE [1],IFRNet [2],AMT [3],以及 EMA-VFI [4] 等都是基于神经网络训练而来。


上海人工智能实验室联合 Snap 的研究团队提出了“即插即用”的 InterpAny-Clearer 训练策略,首次显式地突破了以下难点:


  • 解决了视频插帧模型在训练时碰到的速度歧义问题;

  • 提高了视频插帧算法清晰度的理论上限;

  • 赋予插帧算法可编辑物体运动模式的能力

代码链接:
https://github.com/zzh-tech/InterpAny-Clearer

论文链接:

http://arxiv.org/abs/2311.08007

试用链接:

http://ai4sports.opengvlab.com/interpany-clearer/1



更清晰的任意时刻插帧

在此,我们以 RIFE 为例,仅用两帧图像插出 128 倍的慢动作。左边是原本算法的结果,右边是相同算法运用我们训练策略的结果:

▲ 更多结果详见project website



可编辑的任意物体插帧


技术细节

3.1 速度歧义问题

目前主流的任意时间插帧算法 是以起始帧 ,结尾帧 ,以及时间索引 作为输入来预测目标帧

但是由于每一个独立运动物体的运动速度是未知的,这会带来“速度歧义”问题,即存在相同输入到多种可能的不同位置的映射:

以 ⚾️ 为例子,中间 ⚾️ 的落点有无数种可能,导致训练过程中的学习冲突。


简而言之,算法无法判断学习哪种情况才是对的,干脆就学一个平均状态:

这导致在测试的时候,算法的预测 是模糊的:

事实上,一对多映射(one-to-many mapping)的歧义问题在机械学习中不少见,比如在语音合成(text-to-speech,TTS)任务中也有所涉及。对于语音合成来说,给定一段话,可以有很多方式朗读它。如果直接学习不加以区分,网络只能学到“模糊”的语音。


为了解决这个问题,研究人员通常在训练期间引入了 speaker embedding 或 style embedding(表示不同性别、口音、说话风格等),以减少歧义。在测试时,使用平均的 speaker embedding 就可以产生高质量的语音。此外,通过编辑 speaker embedding,可以实现口音和音调改变等效果。同理,我们需要解决视频插帧的速度歧义问题。

3.2 解歧义

为了解决速度歧义,我们需要一种新的索引学习的范式。


我们需要提示算法,为什么物体落在图像中的某个位置:

3.3 路径距离索引

事实上,采用时间索引的训练方式,要求算法不但学会如何插帧,还需要猜测时间到位置的映射关系

我们的解决方案是计算一个路径距离比例图 来替换时间 进行索引学习:

我们首先分别计算从 以及从 的光流 。然后对于每一个像素位置 ,我们计算 投影到 所占的比例(“路径距离比例”):
,算法规避了训练期间由于速率不同导致时间到位置上的模糊对应,所以在测试期间能够给出更清晰的预测。

重要的是,即使在测试期间无法使用真实标签计算对应的 ,给予和时间索引测试一样的均匀索引图,即 ,算法也能预测出更清晰的图(模拟物体运动都是匀速的情况)。

3.4 迭代距离估计

虽然路径距离索引能帮我们规避速率上的歧义,但是运动方向上的歧义仍然没有解决。


我们采用经典的分治法来尽可能减小方向歧义带来的影响,使得预测的结果能够进一步清晰。


具体而言,我们将一个大距离推断拆解为由近到远的逐步小距离推断,且每一次推断都有上一次推断的索引、结果以及开头结尾帧作为参考,避免累积错误:

例如,将推断拆解为两步,则可表示为:

同样以 ⚾️ 为例,我们所提出的策略如下图所示:

3.5 可编辑插帧

除去像时间索引一样使用均匀的索引图,我们甚至可以利用路径距离索引的 2D 可编辑属性实现可编辑插帧技术。


我们首先可以通过 Segment Anything Model(SAM)[5] 得到感兴趣物体的掩码图,然后通过定制各个物体区域的路径距离曲线完成视频插帧的自定义编辑。



结尾

本文介绍了新一代更清晰可编辑的视频插帧技术,希望能够给予各位读者一些启发!


有兴趣实习或者工作的读者请联系:[email protected]


欢迎大家🌟该项目以及 follow 作者的 GitHub~


参考文献

[1] Huang, Zhewei, Tianyuan Zhang, Wen Heng, Boxin Shi, and Shuchang Zhou. "Real-time intermediate flow estimation for video frame interpolation." In European Conference on Computer Vision, pp. 624-642. Cham: Springer Nature Switzerland, 2022.
[2] Kong, Lingtong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Xiaoming Huang, Ying Tai, Chengjie Wang, and Jie Yang. "Ifrnet: Intermediate feature refine network for efficient frame interpolation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1969-1978. 2022.
[3] Li, Zhen, Zuo-Liang Zhu, Ling-Hao Han, Qibin Hou, Chun-Le Guo, and Ming-Ming Cheng. "AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9801-9810. 2023.
[4] Zhang, Guozhen, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, and Limin Wang. "Extracting motion and appearance via inter-frame attention for efficient video frame interpolation." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5682-5692. 2023.
[5] Kirillov, Alexander, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, and Ross Girshick. "Segment Anything." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4015-4026. 2023


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅!这份收入今年不用报税;美移民局可在线查询临时绿卡处理时长好消息!移民局扩展服务,可在线查询绿卡预计处理时长年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩画质越来越清晰,童年却越来越模糊重庆广电迎来新总编辑!好消息!移民局可在线查询绿卡预计处理时长长江颂减震利器,攻守兼备!海富通悦享一年持有期混合新发在即长篇小说《谷雨立夏间》10记忆中的惊叹号沃顿官方出品!这门疯传的金融入门课,留学生可在线白嫖!利器!一键在线生成思维导图申根签证可在线申请!这几类人无需亲临领事馆!即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了移民局推出新工具,申请者可在线自助更新地址新版上海国际服务门户上线试运行 更好服务全球用户移民局推新工具「E-COA」 可在线变更地址扶桑游记(一)【无人岛之行】5.6K Star,多种开发环境的管理利器,从此告别混乱与冲突![单车] 中年男人的"彩色"奶茶·任性的Barbour V22023年冰岛之旅 (三)好消息! 移民局宣布可在线查询绿卡预计处理时长AI“机器狗”立功!加州警察新利器,让带枪嫌犯乖乖受降(图)【新年优惠】【独家顶级公寓1b1b带家具仅$3900】【1月任意时间拎包入住/可签长短期合约】【市中心/South End】火遍全网的刷牙利器,口感细腻堪比口腔SPA,买了省下几千块修补牙钱!说说美国的第一大店Costco消费品牌们在找的AIGC营销利器,在哪儿加拿大移民真相大披露!让你的移民路更清晰!H-1B可在线申请官宣!持加拿大/美国护照可在线核验身份,回国买高铁票更方便了!好消息!移民局扩展服务 可在线查询绿卡预计处理时长人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源官宣!持加拿大护照可在线核验身份,回国买高铁票更方便了!好消息!美移民局可在线查询绿卡预计处理时长只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!冲规模利器,这类产品又火了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。