Redian新闻
>
Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

视频动作跟踪,已经精确到了每个像素!

Meta最新推出的视频跟踪工具CoTracker,发布没多久就在GitHub上斩获了1.4k星标。

从官方发布的几个DEMO来看,效果还是很震撼的。

一场马术比赛中,马匹在骑手的操纵下优雅地跨过障碍,画出了优美的弧线。

还有一架帆船乘风破浪,仿佛捉住了风的影子。

另一边,一位跳伞运动员从空中划过,留下了一道绚丽的彩虹……

对这个新“玩具”,有网友评论说,它不仅能改变物体追踪技术,也将在体育(动作)分析、野生动物追踪,甚至电影后期领域掀起一场新的革命。

我们也第一时间上手试玩了一下线上的简易版本,下面就一起来看看吧。

精准记录像素轨迹

首先有请四川知名网红、熊猫界的当红炸子鸡“果赖”隆重登场。

只见花花六亲不认的步伐被CoTracker整个记录了下来,真的是太可爱了。

不过要论戏剧性的话,可能还得是我们的“西直门三太子”萌兰。

看完了可爱的胖达,接下来就要进入整活环节了,来点名场面!

这个就不用再多介绍了吧(确信)。

除了上面的这位老朋友,还有王境泽吃炒饭的镜头。

只见他手上诚实的动作在CoTracker面前暴露无遗。

而在地球的另一边,马斯克正在直播用FSD开着特斯拉去找小扎,准备进行一番亲切友好的交流。

CoTracker的效果就展示到这里了,朋友们如果想看其他效果可以自己玩玩看。

传送门:
https://huggingface.co/spaces/facebook/cotracker

不过,在线DEMO是个简易版本,还不支持自定义跟踪位置,只能根据输入的跟踪数量等距分配。

但是如果自己部署、用代码操纵的话,就可以设置任意跟踪点了。

说到这我们正好来看一下CoTracker该怎么部署。

首先是Colab版本,我们刚刚说到的自定义跟踪点也在Colab当中。

传送门:
https://colab.research.google.com/github/facebookresearch/co-tracker/blob/master/notebooks/demo.ipynb

Colab的过程不必过多介绍,进入之后运行笔记中的代码就可以了。

而如果想自己动手的话,最简单的方式是从torch.hub中直接调用已完成预训练的版本。

pip install einops timm tqdm
import torch
import timm
import einops
import tqdm

cotracker = torch.hub.load("facebookresearch/co-tracker""cotracker_w8")

如果要对模型进行评估或训练,那么使用GitHub Repo更为合适。

首先要安装一下程序和相关依赖:

git clone https://github.com/facebookresearch/co-tracker
cd co-tracker
pip install -e .
pip install opencv-python einops timm matplotlib moviepy flow_vis 

然后下载模型:

mkdir checkpoints
cd checkpoints
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_4_wind_8.pth
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_4_wind_12.pth
wget https://dl.fbaipublicfiles.com/cotracker/cotracker_stride_8_wind_16.pth
cd ..

有关评估和训练的方式,可以到GitHub项目页来查看,链接放在了文末。

那么,CoTracker又是怎么实现像素级追踪的呢?

评分超过DINOv2

虽然都是追踪,但CoTracker和物体追踪模型有很大区别。

CoTracker并没有基于语义理解对视频中物体进行分割的过程,而是把重点放在了像素点上。

底层方面,CoTracker采用了Transformer架构。

Transformer编码了视频中点的跟踪信息,并迭代更新点的位置。

推理上,CoTracker还采用了一种窗口机制,在时间轴上划分出滑动窗口。

CoTracker使用上个窗口的输出对后面的窗口进行初始化,并在每个窗口上运行多次Transformer迭代。

这样就使得CoTracker能够对更长的视频进行像素级跟踪。

总之,经过一番训练之后,CoTracker取得了一份不俗的成绩单。

在FastCapture数据集测试上,CoTracker的成绩在一众模型中脱颖而出,其中也包括Meta自家的DINOv2。

总之,喜欢的话,就赶紧体验一下试试吧!

论文地址:
https://arxiv.org/pdf/2307.07635.pdf
GitHub项目页:
https://github.com/facebookresearch/co-tracker

报名开启!9月6日

「具身智能前夜」仿生机器人沙龙
9月6日 14:30,量子位智库行业沙龙「具身智能前夜」将为你解读仿生机器人的崛起与挑战,邀请到来自云深处科技、帕西尼感知科技、大象机器人等企业代表,聊聊仿生机器人行业最新趋势~

后台回复「仿生机器人」,报名线下参与仿生机器人行业沙龙 


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Hurun China Metaverse Companies with the Greatest Potential 20236家GPU被曝漏洞,用户名密码被「像素级窃取」,N卡A卡I卡高通苹果ARM都没躲过智能周报|有报道称GitHub Copilot亏损严重,但遭前CEO否认;苹果和Meta规划下一代头显…重磅!大批人失业!Uber、DoorDash和Grubhub败诉!价格上涨!650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星AmEx Platinum 80k & AmEx Gold 60k可Churn链接 (No Lifetime Language)GitHub 1.1万星,模拟软件开发流程,开源框架MetaGPT爆火Copilot Chat 推出公开测试版,GitHub:花费数月的单元测试成为过去又一个职业要被AI淘汰了?Adobe甩出三大AI模型,在PS里一秒生成图像素材!突发!Uber、DoorDash 、Grubhub怒发冲冠大暴走!英语句子什么时候用to do something,什么时候用doing something?Meta用头显实现全身动作追踪!没有腿部信息,也可准确估计姿态ICCV 2023 | 港中文MMLab: 多帧光流估计模型VideoFlow,首次实现亚像素级别误差谈谈李玟与抑郁症的治疗MetaMath:新数学推理语言模型,训练大模型的逆向思维碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标爆火AutoGPT获1200万美元融资,GitHub已有151k星MetaGPT爆火出圈!2美元就能当老板,GitHub狂揽11.2k星,AI智能体「多面手」诞生比 GitHub Copilot 更强大?Meta 开源 AI 编码工具,能跨多语言补全和调试代码3年个人戒烟残酷史 回头一看都是认知问题?这个国家人口全球第4、镍储量全球第 1!为什么造不出像样的新能源车?克苏鲁高清AI视频爆火,背后模型已开源,Demo在线可玩,前特斯拉AI总监也来围观小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大造访新开张的温哥华唐人街的华裔博物馆4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型在PS里一秒生成图像素材!Adobe甩出三大AI模型,100多项AI能力炸场贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩PS VR2获日本市场2023H1销冠;Meta推出新AI模型,可翻译近百种语言挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星八声甘州 时事森林大火见闻
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。