Redian新闻
>
分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下

分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下

公众号新闻

机器之心专栏

作者:南方科技大学郑锋团队
南方科技大学郑锋团队的这项研究:Track Anything ,很好的解决了 SAM 在视频领域的短板。

本月初,Meta 发布「分割一切」AI 模型(Segment Anything Model,简称 SAM),可以为任何图像或视频中的任何物体生成 mask,甚至包括没有见过的物体和图像。有人将这一研究比喻为计算机视觉领域的 GPT-3 时刻之一。

Meta 表示,「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』即开即用,无需额外的训练。」

该模型一经发布,迅速引起计算机视觉领域的轰动,更是有人发出「CV 不存在了」这样的感慨。

然而目前 SAM 的应用主要集中在图像领域,在视频领域的应用仍然未被深入探索,尤其是对视频目标的跟踪 / 分割,仍是巨大挑战。同时,现有的跟踪模型的局限性也很明显,如,场景切换在现实视频中很常见,而现有的跟踪模型只能在单一场景下实现目标的精准定位;现有的模型要求准确的模版初始化,需要人为提供目标边界框或精准掩码,因而可用性被极大限制。

近日,南方科技大学郑锋团队提出了「跟踪一切」(Track Anything  Model ,TAM)的交互工具,其在视频中实现高性能的交互式跟踪和分割。Track Anything 是基于 SAM 的二次创作模型,适用于视频领域任意目标的跟踪任务,可以通过简单的鼠标点击实现对任意视频任意目标的像素级跟踪,实现了目标跟踪的交互性、灵活性、可用性。


  • 论文地址:https://arxiv.org/pdf/2304.11968.pdf
  • 项目地址:https://github.com/gaomingqi/Track-Anything
  • Demo 地址:https://huggingface.co/spaces/watchtowerss/Track-Anything

Track Anything:交互式跟踪任意视频任意目标

Track Anything 效果到底如何呢?我们先从几个示例来说明。首先是多目标跟踪与分割。《清明上河图》大家早已耳闻,画中人物众多、形态各异,其间还穿插各种动作等等。想要跟踪里面的目标难度还是比较大的。下面视频显示 Track Anything 很好的跟踪了物体:


接下来考察 Track Anything 在快速运动场景下的跟踪能力。众所周知,打篮球需要动作敏捷、健步如飞…… 用 AI 技术跟踪一位篮球运动员并不容易,加之运动员动作幅度大、相互之间出现遮挡等,都加大了跟踪难度,出现错误跟踪、漏跟踪情况。但从下面展示的效果来看,即便是在瞬息万变的篮球比赛,Track Anything 跟踪效果都做的非常好:


接下来,我们在看一个示例。从下面视频中可以看到,一位身姿矫健的男生灵活的跨越众多障碍,即便人的运动速度再快、动作再复杂等,Track Anything 都能很好的处理:


由于 Track Anything 跟踪效果非常好,受到广大网友的好评。就像下面这位网友所说的:「这项研究给人一种强烈的终结者的感觉。SAM 在分割图像方面很在行,但在视频方面却不出色,而TMA仅通过少量人工输入,就能很好的实现对视频中物体的跟踪与分割。」


技术介绍

郑锋团队通过以使用者为中介的 SAM 与 VOS 模型的交互式组合,提出了 Track Anything 工具,它拥有强大的视频目标跟踪能力,并提供用户友好的操作界面,只需要简单的点击操作,就可以任意地跟踪用户感兴趣的一个或多个目标区域,还可以根据用户需求灵活调整目标对象,并自带用户纠错和视频编辑功能。其技术流程如下:

1 基于 SAM,用户通过正负样本点的选取,确定目标对象在视频中某一帧的空间区域。
2 使用用户确定的区域作为模板初始化跟踪模型。跟踪过程中,通过建立每个视频帧与模板区域之间的密集关联,实现将用户选取信息向整个视频的传递过程,从而实现目标跟踪。
3 跟踪过程中,用户可以随时暂停,同样通过正负样本选取的方式,实现对其他目标的追踪,或修正当前目标追踪的结果。
4 基于跟踪结果,用户可以使用目标擦除或视频修复功能,实现在视频中对特定区域的编辑。


总之,通过 Track Anything,使用者可以轻松地完成视频中单个或多个目标的精确标注,视频特定区域提取及编辑,以及长时 / 转场视频中的目标跟踪。

相关功能陆续上线中,欢迎大家试用!


郑锋团队不仅在视频领域研发了Track-Anything,还在图像和语言领域还推出了Caption-Anything系统。它是一个多功能的图像处理工具,结合了Segment Anything、Visual Captioning和ChatGPT在图像和语言领域的能力。项目地址:https://github.com/ttengwang/Caption-Anything/。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻50万出国留学够不够?在美国够,在小红书不够Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星人民币还不够,还需要更多份额用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型SAM分割一切最全论文大盘点一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了金秋英伦行(5):伦敦掠影 (下篇)华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型加息仍未停止,澳联储还要接着加!专家:4.1%还不够,可能要到5.6%CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型穿过冻雨的是那些鸟儿分割一切还不够,还要检测一切、生成一切,SAM二创开始了钢琴【他乡明月|心情】2023/03/05 三年绣一副《清明上河图》:疫情下的美好杜牧的《清明》“行人欲断魂”可不是首扫墓诗分割一切模型SAM首篇全面综述:28页、200+篇参考文献分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型看电影【女人们的谈话】让我想到铁链女美国入境档案--梁方仲、桑恒康和许烺光1944年洛杉矶视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种《清明上河图》和宋官窑里的悠悠宋韵Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!来了!《千里江山图》+《清明上河图》手帐:记录点滴生活,艺术滋养日常当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换分割一切又一力作!北京智源提出通用分割模型SegGPT3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准卷爆CV!46篇分割一切模型(SAM)二创论文大盘点CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型​Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。