Redian新闻
>
CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯

CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯

公众号新闻
Yiyuan 投稿
量子位 | 公众号 QbitAI

万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能

比如训练一个图像分类模型,除了标注好类别的图像数据集,增加视频、音频、点云等模态数据,也能显著提升模型在图像分类上的性能。

这样一来,在AI训练阶段就可以减少与特定任务直接相关的标注数据需求,可以节省大量成本,或在数据有限的任务上提供新解决思路。

这个神奇的发现来自港中文MMLab和腾讯AI Lab的合作研究,相关论文已被CVPR 2024接收,引起广泛关注。

从无关数据中学习有用知识

具体来说,团队提出了一种称为多模态通路(Multimodal Pathway)的新框架。

该框架允许Transformer模型在处理特定模态的数据时,同时利用其他模态中的无关数据进行训练,从而在不增加额外推理成本的前提下显著提升模型性能。

多模态通路的核心技术是跨模态重参数化 (Cross-Modal Re-parameterization)*。

这一技术的创新之处在于,它通过结构上的智能重组,使得模型能够在保持原有计算成本的同时,增加从其他模态学习的能力。

对于已经被广泛运用到多模态特征提取的Vision Transformer,团队关心的是这些神经网络中的主要线性层。

具体来说,这一技术在模型的每一个线性层中引入了辅助模态的权重,这些权重通过可学习的参数进行调节,从而在不增加推理时间的情况下,实现模态间的知识迁移。

如图所示,比如有不同模态的两个线性层FC和FC’, 那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算,在这里直接将来自不同模态的两部分权重 (W和W’)做线性组合(W+λW’)来平衡两个模态的权重对于目标模态的贡献。

实验结果:跨模态增益挖掘Transformer潜力

在论文中,研究团队详细介绍了他们的实验设计和结果。

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术,观察到多模态通路能够在12种不同的模态相互帮助的关系中实现一致的性能提升



例如,在ImageNet图像识别任务中,结合了点云数据的多模态通路Transformer模型,比传统的Transformer模型在识别准确率上提高了0.7%。

与MAE预训练方法的各种改进相比,该方法无需高昂的计算成本来预训练1600 Epoch,而是直接在下游任务中微调,就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。

研究人员还发现,跨模态知识迁移的效果不仅与模型参数规模有关,还可能与层次表示(Hierarchical Representation)能力密切相关。也就是越擅长学习层次化的抽象表示的模型,迁移效果就越好。

更值得注意的是,该方法有效地证明了即使毫不相关的多模态数据之间,仍能存在着明显的多模态增益效果,这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。

总的来说,这项研究不仅能够启发多模态学习在学术领域的发展,也为工业界提供了新的思路。通过利用现有的海量数据资源,即使这些数据与当前任务不直接相关,也能够为AI模型的训练带来积极的影响。

这种方法为数据资源有限或难以标注的领域提供了新的解决方案,特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域,多模态通路技术的应用前景广阔。

此外,这一研究还揭示了AI跨模态学习的新机制,推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示,未来他们将探索将多模态通路技术应用于卷积神经网络(CNN)和其他跨架构的AI系统,以进一步挖掘这一技术的潜力。

论文地址:https://arxiv.org/abs/2401.14405
项目网页:https://ailab-cvc.github.io/M2PT/
开源代码:https://github.com/AILab-CVC/M2PT
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

—  —


投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱Mamba再次击败Transformer!在视频理解任务中杀疯了!现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023低质多模态数据融合,多家机构联合出了篇综述论文Mamba和Transformer合体!Jamba来了:超越Transformer!7人创业、1人投敌!Transformer 八子谷歌坐冷板凳5年再成老黄座上宾CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF3、长篇家庭伦理小说《嫁接 下》第一章 情敌过招(3)开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战【花样女神节】《蔷薇蔷薇处处开》&《濑户の花嫁》CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型今天我投票【花样女神节】(拉手手亲口口)翻唱:爱晚亭&丽莎,音频全民K歌录制,视频来自网络。请问大家, AT&T的手机用户去日本回中国,怎样实现上网自由?【花样女神节】朗诵《一棵开花的树》&《红梅赞》旅行的尽头是日本(29)结语平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法Transformer升级之路:多模态编码位置的简单思考CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构Transformer仍是2024发论文神器为什么Transformer一般使用LayerNorm?YOCO:打破传统Decoder-only架构,内存消耗仅为Transformer的六分之一ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性探索视频理解新境界!在12项任务中,Mamba先打败了TransformerTransformer要变Kansformer?用了几十年的MLP迎来挑战者KANCVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作Meta革命新架构掀翻Transformer!无限上下文处理!CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度Transformer解码真实场景!Meta推出70M参数SceneScript模型Mamba架构第一次做大!混合Transformer,打败Transformer猫与狗投行边边角角的业务很多。 M&A和Underwriting这些投行CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满为子女鞠躬尽瘁,服了!性能突破Transformer!Mamba引爆AI圈CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。