Redian新闻
>
CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作

CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

最后一天!CVer学术星球最大优惠!限时送新用户50元优惠券(下方左图),老用户7折+20元续费券(下方右图),每天分享最新最优质的AI/CV内容,助力你的科研和工作!快加入!

Yiyuan 投稿
转载自:量子位(QbitAI)

万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能

比如训练一个图像分类模型,除了标注好类别的图像数据集,增加视频、音频、点云等模态数据,也能显著提升模型在图像分类上的性能。

这样一来,在AI训练阶段就可以减少与特定任务直接相关的标注数据需求,可以节省大量成本,或在数据有限的任务上提供新解决思路。

这个神奇的发现来自港中文MMLab和腾讯AI Lab的合作研究,相关论文已被CVPR 2024接收,引起广泛关注。

从无关数据中学习有用知识

具体来说,团队提出了一种称为多模态通路Multimodal PathwayMultimodal PathwayMultimodal PathwayMultimodal Pathway的新框架。

该框架允许Transformer模型在处理特定模态的数据时,同时利用其他模态中的无关数据进行训练,从而在不增加额外推理成本的前提下显著提升模型性能。

多模态通路的核心技术是跨模态重参数化 (Cross-Modal Re-parameterization)*。

这一技术的创新之处在于,它通过结构上的智能重组,使得模型能够在保持原有计算成本的同时,增加从其他模态学习的能力。

对于已经被广泛运用到多模态特征提取的Vision Transformer,团队关心的是这些神经网络中的主要线性层。

具体来说,这一技术在模型的每一个线性层中引入了辅助模态的权重,这些权重通过可学习的参数进行调节,从而在不增加推理时间的情况下,实现模态间的知识迁移。

如图所示,比如有不同模态的两个线性层FC和FC’, 那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算,在这里直接将来自不同模态的两部分权重 (W和W’)做线性组合(W+λW’)来平衡两个模态的权重对于目标模态的贡献。

实验结果:跨模态增益挖掘Transformer潜力

在论文中,研究团队详细介绍了他们的实验设计和结果。

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术,观察到多模态通路能够在12种不同的模态相互帮助的关系中实现一致的性能提升



例如,在ImageNet图像识别任务中,结合了点云数据的多模态通路Transformer模型,比传统的Transformer模型在识别准确率上提高了0.7%。

与MAE预训练方法的各种改进相比,该方法无需高昂的计算成本来预训练1600 Epoch,而是直接在下游任务中微调,就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。

研究人员还发现,跨模态知识迁移的效果不仅与模型参数规模有关,还可能与层次表示(Hierarchical Representation)能力密切相关。也就是越擅长学习层次化的抽象表示的模型,迁移效果就越好。

更值得注意的是,该方法有效地证明了即使毫不相关的多模态数据之间,仍能存在着明显的多模态增益效果,这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。

总的来说,这项研究不仅能够启发多模态学习在学术领域的发展,也为工业界提供了新的思路。通过利用现有的海量数据资源,即使这些数据与当前任务不直接相关,也能够为AI模型的训练带来积极的影响。

这种方法为数据资源有限或难以标注的领域提供了新的解决方案,特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域,多模态通路技术的应用前景广阔。

此外,这一研究还揭示了AI跨模态学习的新机制,推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示,未来他们将探索将多模态通路技术应用于卷积神经网络(CNN)和其他跨架构的AI系统,以进一步挖掘这一技术的潜力。

论文地址:https://arxiv.org/abs/2401.14405
项目网页:https://ailab-cvc.github.io/M2PT/
开源代码:https://github.com/AILab-CVC/M2PT
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

最后一天!CVer学术星球最大优惠!限时送新用户50元优惠券(下方左图),老用户7折+20元续费券(下方右图),每天分享最新最优质的AI/CV内容,助力你的科研和工作!快加入!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
黎舒苇詩歌賞析《雨落黄昏》Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存Mamba再次击败Transformer!在视频理解任务中杀疯了!CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型探索视频理解新境界!在12项任务中,Mamba先打败了Transformer纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023老烟记事(412) 带毛猪图灵奖得主Bengio团队新作:注意力可视为RNN!新模型媲美Transformer性能突破Transformer!Mamba引爆AI圈CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术2024 多伦多国际车展( II ) Exotic LuxuryTransformer升级之路:多模态编码位置的简单思考中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满Mamba和Transformer合体!Jamba来了:超越Transformer!回忆是一把遮雨的伞--过客(第二幕/微小说)CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型狗引儿【长篇】(二十八)再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升Mamba架构第一次做大!混合Transformer,打败Transformer梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单【童心依然】《童年》&《黑猫警长》&《日本娃娃》现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了2024 Toronto International Auto Show( II ) Exotic Luxury无需3D数据也能训练,港科&港中文联手华为推出3D自动驾驶场景生成模型为什么Transformer一般使用LayerNorm?CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同低质多模态数据融合,多家机构联合出了篇综述论文搬家清囤的Lululemon, Aritzia Randy & Murphy, Sophie Webster蝴蝶鞋及其他CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!2024年5月西班牙(3)CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯吴恩达团队新作ManyICL:多样本上下文学习显著提高多模态基础模型性能!将注意力视为RNN!Bengio等人新作媲美Transformer,但超级省内存辛稼轩词 永遇乐 京口北固亭怀古CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT全面超越Transformer!清华蚂蚁推出纯MLP架构,长短程时序预测大幅提升首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升Transformer要变Kansformer?用了几十年的MLP迎来挑战者KAN
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。