Redian新闻
>
NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务

NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务

科技
©PaperWeekly 原创 · 作者 | 段皞一
单位 | 浙江大学
研究方向 | 多模态


近年来,在音视频下游任务中部署大规模预训练模型已经取得了显著的成果。然而,这些模型主要是在单模态非受限数据集上进行训练的,仍然在多模态任务的特征提取方面面临挑战。这个局限性是因为在编码过程中引入了无关的模态特定信息,对下游任务的性能产生了不利影响。我们发表于 NeurIPS 2023 的文章,《Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks》解决了这一挑战。

本文提出了一种新颖的双引导空间-通道-时间(DG-SCT)注意机制。该机制将音频和视觉模态作为软提示,基于当前多模态输入特征动态调整预训练模型的参数。具体来说,DG-SCT 模块将可训练的跨模态交互层整合到预训练的音频、视频编码器中,允许跨空间、通道和时间维度自适应地提取当前模态的关键信息,同时保留大规模预训练模型的冻结参数

论文标题:
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks
代码链接:
https://github.com/haoyi-duan/DG-SCT
实验表明,我们提出的模型在多个下游任务中取得了 state-of-the-art,包括 AVE、AVVP、AVS 和 AVQA 任务。此外,我们的模型在具有挑战性的 few-shot 和 zero-shot 场景中表现优越。此外,我们还进行了全面的实验:
  • 消融实验,验证了空间(S),通道(C)和时间(T)三个模块的有效性;
  • 定性分析,可视化地分析模型对表征效果的提升;
  • 性能分析,可训练参数和计算成本的比较。
总体来说,在 4 个数据集总共 25 个 setting 下,我们有 19 个取得了 SOTA。我们的方法表现出了强大的泛化能力,并在未来的更多音视频场景中具有应用潜力



Introduction

随着 GPU 性能的不断提升,基于大规模数据进行预训练的模型在各种多模态任务中取得了显著的进展。然而,由于这些模型主要是在单一模态上进行预训练的,它们可能不太适用于当前的多模态下游任务。

如 Figuire 1(a)所示,预训练模型均匀地提取视觉特征并将它们直接传递给下游任务。然而,当感知到引擎声时,描述“汽车”的视觉区域应该比“树木”的区域更受关注。同时,当观察汽车时,应集中注意力于引擎的音频段。因此,编码器不仅应该均匀提取当前模态的模态特定信息,还应该突出显示与其他模态相关的信息,以增强在下游任务中跨多样模态的特征融合。

音频或视频是否可以作为一种新颖的 prompt,以增强预训练模型对任务的理解并引导对应模态的自适应特征提取?答案是肯定的。




Approach

如 Figure 2 所示,DG-SCT 模块加入到音频、视频 Transformer 编码器的层间。也就是下面公式中

而 DG-SCT 模块中包含有 3 个子模块,按顺序依次为:

  • 通道注意力机制(channel-wise attention)
    不同的通道代表了特征的不同方面。引入通道注意力可以帮助模型忽略无关的特征,并提高表示的质量。我们让音频和视频作为相互引导的信号,分别得出 channel attention maps:,明确地建模了它们之间的通道依赖关系。
  • 空间注意力机制(spatial-wise attention)
    音频可以通过在空间维度上提供视觉关注来改善视觉特征提取。受此启发,我们利用音频和视觉提示的引导能力来分别引导视觉空间关注和音频频率关注。和通道注意力机制类似,我们得出 spatial attention maps:

  • 时间门注意力机制(temporal-gated attention)
    在给定音频的情况下,应强调重要的时间段(例如,“引擎声音”),同时应减弱背景信息(例如,“寂静”)。对于视觉信息也同样如此。受此启发,我们在编码器的最后一层加入了 temporal attention gates
最终,DG-SCT 将上述三个子模块得到的 attention maps/gates 融合:




Experiments
任务描述:
  • 音频-视觉事件定位(AVE)在视频中的多个时间段内识别既可见又可听的音视频事件;
  • 音频-视觉视频解析(AVVP)将视频解析为时间事件片段,并将其标记为可听、可见或两者皆有;
  • 音频-视觉分割(AVS)输出在图像帧上产生声音的对象的 pixel-level map;
  • 音频-视觉问答(AVQA)旨在根据对象和声音之间的关联来回答问题;
  • 此外,我们在 AVE 和 LLP(AVVP 任务数据集) 数据集上提出了音频-视觉 few-shot/zero-shot 任务。在 AVE 数据集上评估 AVE 和分类任务,并在 LLP 数据集上进行分类任务。

AVE:


AVVP:

AVS:
AVQA:


Few-shot/zero-shot:

Ablation analysis:

Qualitative analysis:

正如我们如下图所看到的,由提出的 DG-SCT 提取的特征在类内更加紧凑,而在类间更加分离。这表明,DG-SCT 模型成功地为不同下游任务中的每个模态学习了紧凑和具有区分性的特征。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见2023/08最新民调,台湾人对于独立还是统一是怎么看的?NeurIPS 2023 | FD-Align:基于特征判别对齐的预训练模型小样本微调华为提出QA-LoRA:让微调大型语言模型‘轻装上阵’一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%Resolution in 2023「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023ACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法长篇小说《如絮》 第一百八十五章 旧金山-2007年 向日葵直播预告 | 清华大学深研院马仕镕:电商领域指令微调大模型猎户星空推出微调大模型,多项测评霸榜,开源免费!NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路NeurIPS 2023 | 扩散模型解决多任务强化学习问题撵着白云走Llama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调北京内推 | 百度文心(ERNIE)团队招聘大模型预训练方向实习生也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?US News 2023看看历史上辱华漫画----就知道为何“僵尸”受罚了。。。。NeurIPS 2023 | 多模态基础大模型的高效微调NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务【回国记录】我的初恋NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较诱惑NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型NeurIPS 2023 | InstructBLIP:指令微调训练通用视觉-语言模型2023 US Open 美国网球公开赛NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。