Redian新闻
>
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

公众号新闻
机器之心专栏
机器之心编辑部

能够有效实现多模态交叉提示跟踪。

目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。


然而,现有的多模态跟踪任务也面临两个主要问题:


  1. 由于多模态目标跟踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建有效的多模态跟踪器;

  2. 因为不同的成像方式在变化的环境中对物体的敏感度不同,开放世界中主导模态是动态变化的,多模态数据之间的主导相关性并不固定。


在 RGB 序列上进行预训练,然后以完全微调的方式转移到多模态场景的许多多模态跟踪工作存在时间昂贵和效率低下的问题,同时表现出有限的性能。


除了完全微调方法之外,受自然语言处理 (NLP) 领域参数高效微调方法成功的启发,一些最近的方法通过冻结骨干网络参数并附加一组额外可学习的参数,将参数高效 prompt 微调引入到多模态跟踪中。


这些方法通常以一种模态 (通常是 RGB) 为主导模态,另一种模态作为辅助模态。然而,这些方法忽略了多模态数据的动态主导相关性,难以在如图 1 所示的复杂场景中充分利用互补的多模态信息,从而限制了跟踪性能。


图 1:复杂场景下不同的主导模态。


为了解决上述问题,来自天津大学的研究人员设计出了一种双向 adapter 用于多模态跟踪 (BAT)。与在主导模态中添加辅助模态信息作为提示以增强基础模型在下游任务中的表示能力的方法 (通常使用 RGB 作为主要模态) 不同,该方法没有预设固定的主导模态 - 辅助模态,而是在辅助模态向主导模态变化的过程中动态提取有效信息。


BAT 由两个共享参数的特定于模态分支的基础模型编码器和一个通用的双向 adapter 组成。在训练过程中,BAT 没有对基础模型进行完全的微调,每个特定的模态分支由具有固定参数的基础模型初始化,仅训练新增的双向 adapter。每个模态分支从其他模态中学习提示信息,与当前模态的特征信息相结合,增强表征能力。两个特定模态的分支通过通用双向 adapter 执行交互,在多模态非固定关联范式中动态地相互融合主导辅助信息。


通用双向 adapter 具有轻量级沙漏结构,它可以嵌入到基础模型的每一层 transformer 编码器中,而不需要引入大量的可学习参数。通过添加少量的训练参数 (0.32M),BAT 与全微调方法和基于提示学习的方法相比具有更低的训练成本,获得了更好的跟踪性能。


论文《Bi-directional Adapter for Multi-modal Tracking》:



论文链接:https://arxiv.org/abs/2312.10611

代码链接:https://github.com/SparkTempest/BAT


主要贡献


  • 我们首先提出了一个基于 adapter 的多模态跟踪视觉提示框架。我们的模型能够感知开放场景中主导模态的动态变化,以自适应的方式有效融合多模态信息。

  • 据我们所知,我们首次为基础模型提出了一个通用的双向 adapter。它结构简单、高效,能有效地实现多模态交叉提示跟踪。通过仅添加 0.32M 可学习参数,我们的模型可以鲁棒应对开放场景下的多模态跟踪。

  • 我们深入分析了我们的通用 adapter 在不同层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 跟踪相关数据集上的优势。


核心方法


如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提示框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的基础模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提示多模态数据。


方法没有对基础模型进行完全的微调,仅通过学习轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。


图 2:BAT 的总体架构。


首先将每种模态的模板帧(第一帧中目标物体的初始框)和搜索帧(后续追踪图像)转换为 ,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。

 

双向 adapter 与双流编码器层并行设置,可以学习从一种模态到另一种模态的特征提示。为此,将两个分支的输出特征相加并输入到预测头 H 中,得到最终的跟踪结果框 B。

 


双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特征提示从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特征提示反馈到其他模态的 transformer 编码器层。


通过这种简单的结构,双向 adapter 可以有效地在  模态之间进行特征提示,实现多模态跟踪。


由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 不同,我们的双向 adapter 是作为动态变化的主导模态的跨模态特征提示而发挥作用的,确保了开放世界中良好的跟踪性能。


实验效果


如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方法在准确率和成功率上均优于最先进的方法。如图 3 所示,在 LasHeR 数据集的不同场景属性下,与最先进方法的性能比较也证明了所提出方法的优越性。


这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的目标,并自适应地从动态变化的主导 - 辅助模态中提取有效信息,达到了最先进的性能。


表 1 RGBT234 和 LasHeR 数据集上的整体性能。

 

图 3 LasHeR 数据集中不同属性下 BAT 和竞争方法的比较。


实验证明我们在复杂场景中从不断变化的主导 - 辅助模式中动态提示有效信息的有效性。如图 4 所示,与固定主导模态的相关方法相比,我们的方法即使在 RGB 完全不可用的情况下也能有效地追踪目标,当 RGB 和 TIR 在后续场景中都能提供有效的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动态提取目标的有效特征,捕获更准确的目标响应位置,并消除 RGB 模态的干扰。

 

图 4 跟踪结果的可视化。


我们同样在 RGBE 追踪数据集上评估了我们的方法。如图 5 所示,在 VisEvent 测试集上与其他方法相比,我们的方法在不同复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的有效性和泛化性。

 

图 5 VisEvent 数据集下追踪结果。

 

图 6 attention 权重可视化。


我们在图 6 中可视化了不同层跟踪目标的注意力权重。与 baseline-dual (基础模型参数初始化的双流框架) 方法相比,我们的 BAT 有效地驱动辅助模态向主导模态学习更多的互补信息,同时随着网络深度的增加保持主导模态的有效性,从而提高了整体跟踪性能。


实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动态跟踪。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!龙行龘(dá)龘(dá)!这些三叠字怎么念?New Year's fireworks 2024 LIVE: NYC's Times Square ball dropAI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G2024中国首个AI新政发布;袁进辉创办新公司硅基流动;清华教授朱军入选AAAI 2024 Fellow丨AIGC大事日报家居修理系列: 漏水篇(1)ICLR 2024 | 图领域首个通用框架!任意数据集、分类问题都可搞定!华盛顿大学&北大&京东出品杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生Runner’s Tradition——2024 Opening刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA【美坛综艺秀假日篇】Best wishes for 2024!咀外文嚼汉字(294)“依存症”、“依赖症”2024 rav4 油车 le四驱目标跟踪方向微信交流群成立!最强开源多模态生成模型MM-Interleaved:首创特征同步器清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法发烧,出门戴口罩AI早知道|国内首个兰花AI智能对话机器人;全球首款集成多模态AI 助手的眼镜全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东华为查询建议新范式MMQS入选WWW 2024,解锁基于人类反馈的多模态查询建议hé bàng?hé bèng?IB、AP、A-level、SAT,到底哪个通过率最高?《晴空月儿明》&合唱《约定》龙行龘(dá)龘(dá)!Strong start 2024无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpandá àn jiē xiǎo 🥳超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源把金钗石斛兰养开花容易吗龙行龘(dá)龘(dá)!2024央视春晚宣布→CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。