Redian新闻
>
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了

公众号新闻

机器之心报道

机器之心编辑部

Tracking Everything Everywhere All at Once.


前段时间,Meta 发布「分割一切(SAM)」AI 模型,可以为任何图像或视频中的任何物体生成 mask,让计算机视觉(CV)领域研究者惊呼:「CV 不存在了」。之后,CV 领域掀起了一阵「二创」狂潮,一些工作陆续在分割的基础上结合目标检测、图像生成等功能,但大部分研究是基于静态图像的。


现在,一项称为「追踪一切」的新研究为动态视频中的运动估计提出了新方法,能够准确、完整地追踪物体的运动轨迹。



该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。 



  • 论文地址:https://arxiv.org/abs/2306.05422

  • 项目主页:https://omnimotion.github.io/


有网友在推特上转发了这项研究,仅一天时间就收获了 3500 + 的点赞量,研究内容大受好评。



从该研究发布的 demo 看,运动追踪的效果非常好,例如追踪跳跃袋鼠的运动轨迹:



荡秋千的运动曲线:



还能交互式查看运动追踪情况:



即使物体被遮挡也能追踪运动轨迹,如狗在跑动的过程中被树遮挡:



在计算机视觉领域,常用的运动估计方法有两种:稀疏特征追踪和密集光流。但这两种方法各有缺点,稀疏特征追踪不能建模所有像素的运动;密集光流无法长时间捕获运动轨迹。


该研究提出的 OmniMotion 使用 quasi-3D 规范体积来表征视频,并通过局部空间和规范空间之间的双射(bijection)对每个像素进行追踪。这种表征能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,并对相机和物体运动的任何组合进行建模。该研究通过实验表明所提方法大大优于现有 SOTA 方法。


方法概述


该研究将帧的集合与成对的噪声运动估计(例如光流场)作为输入,以形成整个视频的完整、全局一致的运动表征。然后,该研究添加了一个优化过程,使其可以用任何帧中的任何像素查询表征,以在整个视频中产生平滑、准确的运动轨迹。值得注意的是,该方法可以识别画面中的点何时被遮挡,甚至可以穿过遮挡追踪点。


OmniMotion 表征


传统的运动估计方法(例如成对光流),当物体被遮挡时会失去对物体的追踪。为了在遮挡的情况下也能提供准确、一致的运动轨迹,该研究提出全局运动表征 OmniMotion。


该研究试图在没有显式动态 3D 重建的情况下准确追踪真实世界的运动。OmniMotion 表征将视频中的场景表示为规范的 3D 体积,通过局部规范双射(local-canonical bijection)映射成每个帧中的局部体积。局部规范双射被参数化为神经网络,并在不分离两者的情况下捕获相机和场景运动。基于此种方法,视频可以被视为来自固定静态相机局部体积的渲染结果。


由于 OmniMotion 没有明确区分相机和场景运动,所以形成的表征不是物理上准确的 3D 场景重建。因此,该研究称其为 quasi-3D 表征。


OmniMotion 保留了投影到每个像素的所有场景点的信息,以及它们的相对深度顺序,这让画面中的点即使暂时被遮挡,也能对其进行追踪。


实验及结果


定量比较


研究者将提出的方法与 TAP-Vid 基准进行比较,结果如表 1 所示。可以看出,在不同的数据集上,他们的方法始终能实现最佳的位置准确性、遮挡准确性和时序一致性。他们的方法可以很好地处理来自 RAFT 和 TAP-Net 的不同的成对对应输入,并且在这两种基准方法上提供了一致的改进。


定性比较


如图 3 所示,研究者对他们的方法和基线方法进行了定性比较。新方法在(长时间)遮挡事件中显示出了出色的识别和追踪的能力,同时在遮挡期间为点提供合理的位置,并处理很大的摄像机运动视差。



消融实验与分析


研究者利用消融实验来验证他们设计决策的有效性,结果如表 2 所示。


在图 4 中,他们展示了由他们的模型生成的伪深度图,以展示学习到的深度排序。


需要注意的是,这些图并不对应于物理深度,然而,它们展示了仅使用光度和光流信号时,新方法能够有效地确定不同表面之间的相对顺序,这对于在遮挡中进行追踪至关重要。更多的消融实验和分析结果可以在补充材料中找到。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下TFBOYS十周年蛋糕突倒塌 郭京飞当老师 携手王源「追光」TFBOYS捐款涿州300万元 官微晒凭证酷炫!这个像狗一样的机器人,竟是纽约警察的地铁保镖?空船是谁还在为数学题破防...99%都不知道的刷题方法来了!神奇!在家也能轻松洗牙,牙垢残渣秒不见!随时随地清洁口腔健康多功能折叠循环小风扇~好用好看好收纳,随时随地凉爽一“夏”!心甘情愿躺「中枪」,随时随地缓解肩颈、腰酸背疼!美女护士碎尸案告破!必须“随叫随到,随时随地”发生关系!从夫妻四不讲说起大营养!美国热门营养新特价,男女维生素,鱼油,姜黄素,还有…老年人不怕胖、不怕瘦,最怕的竟然是……郭碧婷向佐最新同框照:一个像女王,一个像月嫂?有人问我:美国有什么好?迷你洗衣机太方便了!随时随地想洗就洗!连出差旅行都可以携带~3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 2.4K+星更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」回国之旅,摄像头,投诉电话与点评一眼心动的蓝牙音响!360°立体环绕只要百元价格,随时随地听演唱会!ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收低价开团丨户外折叠足球门,折起来小小一个,随时随地来一场足球比赛自来熟猫猫简直是动物界的社交达人,随时随地跨物种交友用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型夏日潮酷便携挂脖风扇~随时随地感受凉爽柔风,还自带强力照明!当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换视频丨新移民看过来!想在加拿大建筑行业工作?方法来了!贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩那个像外星人的法国韩裔女孩,迎来了她最精彩的冒险「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了美国妹子AirPods丢失,追踪后没成想竟在这里超市保安打死小偷,检方不予起诉,你看视频算不算正当防卫一年制硕士花了40万,回国能找个像样的工作吗?国企真实海归招聘数据揭晓!《大爱如歌》&《如梦令》口袋按摩师,随时随地按摩舒缓
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。