NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务
近年来,在音视频下游任务中部署大规模预训练模型已经取得了显著的成果。然而,这些模型主要是在单模态非受限数据集上进行训练的,仍然在多模态任务的特征提取方面面临挑战。这个局限性是因为在编码过程中引入了无关的模态特定信息,对下游任务的性能产生了不利影响。我们发表于 NeurIPS 2023 的文章,《Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks》解决了这一挑战。
论文标题:
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks
代码链接:
https://github.com/haoyi-duan/DG-SCT
消融实验,验证了空间(S),通道(C)和时间(T)三个模块的有效性; 定性分析,可视化地分析模型对表征效果的提升; 性能分析,可训练参数和计算成本的比较。
Introduction
如 Figuire 1(a)所示,预训练模型均匀地提取视觉特征并将它们直接传递给下游任务。然而,当感知到引擎声时,描述“汽车”的视觉区域应该比“树木”的区域更受关注。同时,当观察汽车时,应集中注意力于引擎的音频段。因此,编码器不仅应该均匀提取当前模态的模态特定信息,还应该突出显示与其他模态相关的信息,以增强在下游任务中跨多样模态的特征融合。
Approach
而 DG-SCT 模块中包含有 3 个子模块,按顺序依次为:
通道注意力机制(channel-wise attention) 不同的通道代表了特征的不同方面。引入通道注意力可以帮助模型忽略无关的特征,并提高表示的质量。我们让音频和视频作为相互引导的信号,分别得出 channel attention maps: 和 ,明确地建模了它们之间的通道依赖关系。 空间注意力机制(spatial-wise attention) 音频可以通过在空间维度上提供视觉关注来改善视觉特征提取。受此启发,我们利用音频和视觉提示的引导能力来分别引导视觉空间关注和音频频率关注。和通道注意力机制类似,我们得出 spatial attention maps: 和 。
时间门注意力机制(temporal-gated attention) 在给定音频的情况下,应强调重要的时间段(例如,“引擎声音”),同时应减弱背景信息(例如,“寂静”)。对于视觉信息也同样如此。受此启发,我们在编码器的最后一层加入了 temporal attention gates: 和 。
音频-视觉事件定位(AVE)在视频中的多个时间段内识别既可见又可听的音视频事件; 音频-视觉视频解析(AVVP)将视频解析为时间事件片段,并将其标记为可听、可见或两者皆有; 音频-视觉分割(AVS)输出在图像帧上产生声音的对象的 pixel-level map; 音频-视觉问答(AVQA)旨在根据对象和声音之间的关联来回答问题; 此外,我们在 AVE 和 LLP(AVVP 任务数据集) 数据集上提出了音频-视觉 few-shot/zero-shot 任务。在 AVE 数据集上评估 AVE 和分类任务,并在 LLP 数据集上进行分类任务。
AVE:
正如我们如下图所看到的,由提出的 DG-SCT 提取的特征在类内更加紧凑,而在类间更加分离。这表明,DG-SCT 模型成功地为不同下游任务中的每个模态学习了紧凑和具有区分性的特征。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者