Redian新闻
>
真实时、强细节、高保真:更强大的视频重建算法,性能明显提升

真实时、强细节、高保真:更强大的视频重建算法,性能明显提升

公众号新闻
机器之心报道
编辑:赵阳
对图像的风格变换重建已经取得了不少突破,但是视频的重建任务目前还存在非实时、弱细节、低保真的问题,本文提出基于退火哈希算法的、粒度逐步细化的视频内容重建算法,性能提升明显。

我们知道过去几年,图像编辑领域发展惊人。但在视频领域,还有所缺陷。近日,一项视频编辑领域的研究成果放出。让我们先来看一下效果。


姜文变成大猩猩......


美女变成卡通人物......


是不是看起来非常不错?这都来自于以下这篇研究。


链接:https://arxiv.org/abs/2308.07926


图像处理领域能取得如此显著的进步,在很大程度上归功于能够在大规模数据集上训练的生成式模型,后者能显著提高图像任务的质量和精度。然而,有关视频内容的处理任务却没有取得同等的进展。视频任务的挑战之一在于对保持时间一致性的要求较高,而这个要求会因神经网络固有的随机性而变得复杂。另一个挑战来自视频数据集本身的性质,和图像集相比通常质量较差,并且需要更多的计算资源。

 

因此,基于视频的算法的质量明显落后于那些专注于图像的算法。这种落差引发了一个问题:以图像形式表示视频,将已建立的图像算法无缝应用于具有高度时间一致性的视频内容是否可行?


为了实现这一目标,在深度学习时代之前,研究人员曾建议从动态视频中生成视频马赛克,而在隐式神经表征提出之后,研究人员又建议利用神经分层图像图集。但是这些方法存在两个主要缺陷。首先,这些方法的表征能力是有限的,特别是在如实地重建视频中错综复杂的细节时。通常,重建的视频忽略了微妙的运动细节,如眨眼或轻微的微笑。第二个限制与估计图集的典型扭曲性质有关,语义信息会因此受损。总而言之,现有的图像处理算法无法发挥最佳性能,因为预测的结果缺乏足够的自然度。


本文作者提出了一种新的视频表征方法,该方法利用基于 2D 散列的图像场和基于 3D 散列的时间变形场。结合多分辨率散列编码来表示时间变化,大大提高了重建一般视频的能力。这种方法有助于跟踪水和烟雾等复杂实体的变形。然而,变形场能力的增强对估计自然规范图像提出了挑战。不自然的规范图像也可以通过完整的重建来估计相应的变形场。


为了应对这一挑战,本文建议在训练期间使用退火哈希算法。先使用平滑变形网格来识别适用于所有刚性运动的粗解决方案,然后逐渐添加高频细节。通过这种由粗到细的训练,表征结果在规范的自然性和重建的还原性之间实现了平衡。与之前的方法相比,本文作者观察到重建后的质量显著提高。改进后 PSNR 大约增加 4.4,规范图像的自然性也肉眼可见的增加。这种方法的优化过程只需要大约 300 秒来估计带有变形场的规范图像,而之前的隐式分层表示需要超过 10 个小时。


本文在变形场算法的基础上,还说明了提升图像处理任务,如提示引导图像翻译、超分辨率和分割 —— 到视频内容的更动态场。在处理标准图像时,本文使用的 prompt-guided 的视频到视频重建的方法,具体来说使用的网络是 ControlNet ,然后通过学习后的变形场传导重建的内容。重建过程在单个标准图像上进行,无需跨所有帧,无需使用耗时的推理模型(例如扩散模型)。与基于生成模型的 sota 零拍视频重建相比,本文的重建输出结果在时间一致性和纹理质量方面有明显改善。与依赖神经分层标签的 Text2Live 相比,本文提出的模型可以说是精通处理更复杂的运动,能给产生更自然的标准图像,从而实现卓越的重建结果。此外,本文将超分辨率、语义分割和关键点检测等图像算法的应用扩展到标准图像,从而在视频上下文中能给得到实际应用。这包括视频超分辨率、视频对象分割、视频关键点跟踪等。本文作者提出的表征算法能从始至终地保持卓越的时间一致性,生成高保真合成帧,展示了其作为视频处理工具突破性的潜力。


方法概览


给定由帧 {I1,I2,…,IN} 组成的视频 V,对于对应的视频任务,可以简单地将图像处理算法 X 单独应用于每一帧,但是可能会出现帧之间存在不一致的内容,这是我们不希望看到的。进一步地,可以使用另一种策略:用时间模块增强算法 X,但这需要对视频数据进行额外的训练。然而,简单地引入时间模块很难保证理论的一致性,并且可能由于训练数据不足而导致性能下降。


受此启发,本文作者建议使用平滑的规范图像 Ic 和变形场 D 来表征视频 V。通过在 Ic 上应用图像算法 X,可以利用学习到的变形场将效果有效地应用到整个视频。这种新颖的视频表示是图像算法和视频任务之间的重要桥梁,能将最先进的图像方法直接提升到视频应用中。


本文提出的表征算法具有以下基本特征:


  • 如实地视频重建的拟合能力。表征应该具有精确拟合视频中的大的刚性或非刚性物体变形的能力。

  • 规范图像的语义正确性。失真或语义不正确的规范图像可能导致图像处理性能下降,特别是考虑到这些训练过程多数都是在自然图像数据上进行的。

  • 变形场的平滑度。保证变形场的平滑性是保证时间一致性和正确传播的一个基本特征。


下图 2. 显示了本文提出的的视频表示算法 CoDeF 的说明,其将任意视频分解为 2D 内容规范场和 3D 时间变形场。每个字段使用高效的 MLP,用多分辨率 2D 或 3D 哈希表来实现。这种新型的表示算法天然地支持用于视频处理任务的图像算法,其方式是将所建立的算法直接应用于规范图像(即,从规范内容字段渲染),然后沿着时间轴通过时间变形字段传播结果。


实验


重建质量


在与神经图像图谱的比较分析中,如图所示,本文提出的模型对非刚性运动表现出卓越的鲁棒性,能够以更高的精度有效地重建细微的运动(例如眨眼、面部纹理)。


流媒体视频处理


(a) 视频到视频的重建。定性比较包括几种基线方法,分为三个不同的类别:(1) 使用图像翻译模型的逐帧推理,如 ControlNet ;(2) 分层视频编辑,如 Text-to-live ;(3) 基于扩散模型的视频翻译,包括 Tune-A-Video 和 FateZero 。


如图 4 所示,每帧图像转换模型可生成高保真内容,并伴有明显的闪烁。其他基线的生成质量或时间一致性相对较低。 本文提出的流水线式方法能有效地将图像转换提升到视频,保持与图像转换算法相关的高质量,同时确保时间一致性。


(b) 视频关键点跟踪。通过估计每个单独帧的变形场,可以查询规范空间内一帧中特定关键点的位置,然后识别所有帧中存在的对应点,如图 5 所示。本文在项目页面的视频中展示了在非刚性对象(如流体)中跟踪点的演示。


(c)视频对象跟踪。使用规范图像上的分割算法,本文能够利用内容变形场促进掩模在所有视频序列中的传播。如图 6 所示,本文提出的流水线算法熟练地生成在所有帧之间保持一致性的掩码。


(d) 视频超分辨率算法。通过将图像超分辨率算法直接应用于规范图像,可以将视频进行超分辨率处理以生成高质量视频,如图 7 所示。假设变形由连续场表示,那么超分辨率的应用不会产生闪烁。


(e) 用户交互式视频编辑。本文提出的表示算法允许用户编辑具有独特风格的对象,而不会影响图像的其他部分。如图 8 所示,用户可以手动调整规范图像上的内容,以在自动编辑算法可能无法实现最佳结果的区域进行精确编辑。


消融实验


为了验证本文所提出模块的效果,作者进行了消融实验研究。在用位置编码代替 3D 散列编码时,视频的重建 PSNR 显著降低了 3.1dB。在没有退火散列的情况下,规范图像失去了其自然外观,如图 9 中的显示。此外,在不考虑流信息损失的情况下,平滑区域明显受到闪烁的影响。要进行更广泛的比较,请参阅项目页面上的视频。


如何快速掌握大模型技术与实践?

机器之心主办的「Llama 2大模型算法与应用实践」论坛,拆解以 Llama 2 为代表的大模型算法和应用,帮助你系统学习大模型算法理论,并上手搭建一个专属大模型,在实践中巩固学习成果。

你将了解:大模型技术细节、行业落地案例、多模态改造、量化及低成本微调……

想要参加但还在犹豫?机器之心限时开放「拼团」模式,让更多开发者顺利组团,享受优惠价格。赶快扫描下图二维码报名加入!

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【周末去哪玩】7/15-7/16 | 公园马戏、街区嘉年华、青年艺术涂鸦节、潮湿狂野日、儿童音乐节、星光电影院、社区公园日午夜惊魂 冷明比Roth IRA更强大的省税利器, 高收入人士都在用!【周末去哪玩】7/8-7/9 | 古筝表演、旧金山民谣音乐节、日本节、侏罗纪现场巡演、火车展、魔法泡泡秀、木偶秀、夏日家庭乐趣在野猪笼落下那一刻想到的【周末去哪玩】9/16-9/17 | 希腊美食节、美洲嘉年华、丰收历史节、火车日、柯基大会、慕尼黑啤酒节、【周末去哪玩】8/26-8/27 | 全国电影院日、旧金山市政中心嘉年华、中元节、黎巴嫩节、越南社区节、夏日节、八月节、多伦多周末去哪玩:万锦美食节、草莓节、动物博览会、免费电影...将Python程序移植到Mojo,性能提升250倍、速度比C版本快20%排骨节、美食节、免费逛省立公园...周末遛娃走花路正确打开方式【周末去哪玩】9/30-10/01 | 渔人码头45周年庆、小意大利节、冲浪节、马赛克节、中秋节、黑眼豆豆节、橡木啤酒节、两轮节【周末去哪玩】8/5-8/6 | 书法&古筝表演、日本町街头集市、世界狗狗冲浪锦标赛、意大利家庭节、昆虫嘉年华、海事节、扎染派对Go 1.21的PGO正式GA,性能提升,更快更猛!最后两天!科颜氏全场7-7.5折+满送193元大礼包+2正装!入超值装、高保湿面霜!《国脉》&《千里共婵娟》【老键曲库】Daniel Lozakovich – Tchaikovsky: Six Pieces, Op. 51, TH 14Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源舞蹈节、音乐节、电影之夜!周末去哪玩 7/29~7/30 第422期【周末去哪玩】9/9-9/10 | 骑行动物园、花与钢琴、中秋节、艺术&红酒节、沙滩嘉年华、硅谷秋日节、苹果节、公交博物馆开放日长周末多伦多去哪儿玩?加勒比狂欢节、排骨节、音乐节...【长周末去哪玩】9/2-9/4 | 免费钓鱼日、希腊节、苏格兰高地节、国王山艺术节、香港节、铁路博览会、巴西独立日【周末去哪玩】7/1-7/2 | 免费钓鱼日、爵士音乐节、中国城夏日文化活动、杏子STEM节、星光电影院、马林县嘉年华漫游大华府(11)大使馆开放日(上)更强大、更全面的高性能任务调度框架:Openjob 重磅来袭!【周末去哪玩】10/21-10/22 | 电车之舞、风筝节、慕尼黑啤酒节、家庭万圣节、巧克力节、火车阅读派对、科颜氏全场8折+送2倍积分!入圣诞倒数日历、高保湿面霜、淡斑精华、A醇精华!科颜氏全场7-7.5折+满送193元5件套大礼包+2正装!入超值装、高保湿面霜!【周末去哪玩】8/19-8/20 | 模型车周末、海岸艺术&趣味节、东湾社区派对、大丽花大赛、免费舞蹈节、儿童音乐会、迷你高尔夫11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023【周末去哪玩】8/12-8/13 | 中国城舞狮节、湾区夏威夷节、菲律宾游行节、历史日、街区派对、世界音乐节、湾区苹果节、返校节多伦多周末去哪:Lawrence美食节、非洲文化节、艺术展...【周末去哪玩】10/07-10/08 | 舰队周飞行秀、广场马戏团、秋日节、素食节、沙球节、中东美食节、非洲美食节……世界首颗AI全自动设计CPU!中国团队重磅推出,性能堪比486,规模提升4000倍超20城落实“认房不认贷”,置业意愿明显提升【周末去哪玩】7/22-7/23 | 中国城舞狮节、半岛卡车展、儿童音乐节、免费旋转木马日、旧金山马拉松、日本城街舞节、烟花秀
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。