Redian新闻
>
CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架

CVPR 2023 | 大连理工和微软提出SeqTrack:目标跟踪新框架

公众号新闻
如果模型知道目标在哪,那么我们只需要教模型读出目标的位置,而不需要显式地进行分类、回归。对于这项工作,研究者们希望可以启发人们探索目标跟踪等视频任务的自回归式序列生成建模。
自回归式的序列生成模型在诸多自然语言处理任务中一直占据着重要地位,特别是最近ChatGPT的出现,让人们更加惊叹于这种模型的强大生成能力和潜力。
最近,微软亚洲研究院与大连理工大学的研究人员提出了一种使用序列生成模型来完成视觉目标跟踪任务的新框架SeqTrack,来将跟踪建模成目标坐标序列的生成任务。
目前的目标跟踪框架,一般把目标跟踪拆分为分类、回归、角点预测等多个子任务,然后使用多个定制化的预测头和损失函数来完成这些任务。而SeqTrack通过将跟踪建模成单纯的序列生成任务,不仅摆脱了冗余的预测头和损失函数,也在多个数据集上取得了优秀的性能。

论文链接:
http://arxiv.org/abs/2304.14394
Github:
https://github.com/microsoft/VideoX
方法亮点

1.新的目标跟踪框架,将跟踪建模为序列生成任务,一个简洁而有效的新基线;

2.摒弃冗余的预测头和损失函数,仅使用朴素的Transformer和交叉熵损失,具有较高的可扩展性。




一 、研究动机

现在比较先进的目标跟踪方法采用了“分而治之”的策略,即将跟踪问题解耦成多个子任务,例如中心点预测、前景/背景二分类、边界框回归、角点预测等。尽管在各个跟踪数据机上取得了优秀的性能,但这种“分而治之”的策略存在以下两个缺点:

1、模型复杂:每个子任务都需要一个定制化的预测头,导致框架变得复杂,不利于扩

2、损失函数冗余:每个预测头需要一个或多个损失函数,引入额外超参数,使训练困难

图1 目前常见的跟踪框架
研究者认为,如果模型知道目标在图像中的位置,那么只需要简单地教模型读出目标边界框即可,不需要用“分而治之”的策略去显式地进行分类和回归等。为此,作者采用了自回归式的序列生成建模来解决目标跟踪任务,教模型把目标的位置作为一句话去“读”出来。
图2 跟踪的序列生成建模

二 、方法概览

研究者将目标边界框的四个坐标转化为由离散值token组成的序列,然后训练SeqTrack模型逐个token地预测出这个序列。在模型结构上,SeqTrack采用了原汁原味的encoder-decoder形式的transformer,方法整体框架图如下图3所示:
图3 SeqTrack结构图
Encoder提取模板与搜索区域图片的视觉特征,decoder参考这些视觉特征,完成序列的生成。序列包含构成边界框的 x,y,w,h token,以及两个特殊的 start 和 end token,分别表示生成的开始与结束。
在推理时,start token告知模型开始生成序列,然后模型依次生成 x,y,w,h ,每个token的生成都会参考前序已生成好的token,例如,生成 w 时,模型会以 [start, x, y] 作为输入。当 [x,y,w,h] 生成完,模型会输出end token,告知用户预测完成。
为了保证训练的高效,训练时token的生成是并行的,即 [start, x,y,w,h] 被同时输入给模型,模型同时预测出 [x,y,w,h, end] 。为了保证推理时的自回归性质,在训练时对decoder中的自注意力层中添加了因果性的attention mask,以保证每个token的预测仅取决于它前序的token,attention mask如下图4所示。

图3 Attention mask,第 i 行第 j 列的橘色格子代表第生成第 i 个输出token时,允许观察到第 j 个输入token,而白色格子代表不可观察。

图像上连续的坐标值被均匀地离散化为了[1, 4000]中的整数。每个整数可以被视为一个单词,构成了单词表 V ,x,y,w,h 四个坐标从单词表 V 中取值。

与常见的序列模型类似,在训练时,SeqTrack使用交叉熵损失来最大化目标值基于前序token的预测值、搜索区域、模板三者的条件概率:
在推理时,使用最大似然从单词表 V 中为每个token取值:
通过这种方式,仅需要交叉熵损失即可完成模型的训练,大大简化了复杂度。
除此之外,研究者们还设计了合适的方式,在不影响模型与损失函数的情况下,引入了在线模板更新、窗口惩罚等技术来集成跟踪的先验知识,这里不再赘述,具体细节请参考论文。

三 、实验结果

研究者开发了四种不同大小的模型,以取得性能与速度之间的平衡,并在8个跟踪数据集上验证了这些模型的性能。
表1 SeqTrack模型参数
如下表2所示,在大尺度数据集LaSOT, LaSOText,TrackingNet, GOT-10k上,SeqTrack取得了优秀的性能。例如,与同样使用ViT-B和256输入图片分辨率的OSTrack-256相比,SeqTrack-B256在四个数据集上都取得了更好的结果。
表2大规模数据集性能
如表3所示,SeqTrack在包含多种不常见目标类别的TNL2K数据集上取得了领先的性能,验证了SeqTrack的泛化性。在小规模数据集NFS和UAV123上也都取得了具有竞争力的性能。
表3额外数据集性能
图4所示,在VOT竞赛数据集上,分别使用边界框测试和分割掩膜测试,SeqTrack都取得了优秀的性能。
图4 VOT2020性能
这样简单的框架具有良好的可扩展性,只需要将信息引入到序列构建中,而无需更改网络结构。例如,研究者们进行了额外的实验来尝试在序列中引入时序信息。具体来说,将输入序列扩展到多帧,包含了目标边界框的历史值。表4显示这样的简单扩展提升了基线模型的性能。
图5 时序序列示意图
表4 时序序列结果

四、结语

本文提出了目标跟踪的新的建模方式:序列生成式建模。它将目标跟踪建模为了序列生成任务,仅使用简单的Transformer结构和交叉熵损失,简化了跟踪框架。大量实验表明了序列生成建模的优秀性能和潜力。在文章的最后,研究者希望通过本文给视觉目标跟踪和其他视频任务的序列建模提供灵感。在未来工作,研究者将尝试进一步融合时序信息,以及扩展到多模态任务。

点击进入—>【目标跟踪】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标跟踪和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标跟踪或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标跟踪或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架国际要闻简报,轻松了解天下事(03微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型CVPR 2023 | 北大提出DynamicDet:目标检测器的通用动态架构ChatGPT自己会选模型了!浙大和微软提出:HuggingGPT上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 20232022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测过年回老家, 陪老妈过日子(野狗花花的故事)CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023国际要闻简报,轻松了解天下事(03一个AI驱动百万个API!微软提出多任务处理模型TaskMatrix,机器人和物联网终于有救了大连理工大学和东京大学(日本)机械工程联合博士后招聘今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会CVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术姐夫深夜酒醉后闯进了我的房间,我应该把这件事情告诉姐姐吗?CVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法CVPR 2023 Workshop | 华为自研IPT-V2斩获NTIRE挑战赛图像去噪Track冠军国际要闻简报,轻松了解天下事(03CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernelICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述“鬼才”贾平凹说:“那些穷乡僻壤里的光棍们,从来不在乎女人的外貌,只要是CVPR 2023 | 精准、通用、轻量!EqMotion:等变轨迹预测与不变关系推断模型老海归回国被扣的经过CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPTCVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey国际要闻简报,轻松了解天下事(03GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成从抽雪茄到捡肥皂K12全科目标注人员招聘!微软提出MathPrompter后,难道国内直接全搞了吗?CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏CVPR 2023 | 一键去除视频闪烁,该研究提出了一个通用框架讲述丨海归院士在大连——大连理工大学教授程耿东、蹇锡高港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。