Redian新闻
>
NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!

NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

转载自:新智元 | 编辑:LRS 好困

【导读】C-MCR利用现有多模态对比表征间可能存在的重叠模态,来连接不同的对比表征,从而学到更多模态间的对齐关系,实现了在缺乏配对数据的多模态间进行训练。

多模态对比表示(multi-modal contrastive representation, MCR)的目标是将不同模态的输入编码到一个语义对齐的共享空间中。

随着视觉-语言领域中CLIP模型的巨大成功,更多模态上的对比表征开始涌现出来,并在诸多下游任务上得到了明显的提升,但是这些方法严重依赖于大规模高质量的配对数据。

为了解决这个问题,来自浙江大学等机构的研究人员提出了连接多模态对比表示(C-MCR),一种无需配对数据且训练极为高效的多模态对比表征学习方法。

论文地址:https://arxiv.org/abs/2305.14381
项目主页:https://c-mcr.github.io/C-MCR/
模型和代码地址:https://github.com/MCR-PEFT/C-MCR
该方法在不使用任何配对数据的情况下,通过枢纽模态连接不同的预训练对比表征,我们学习到了强大的音频-视觉和3D点云-文本表征,并在音频-视觉检索、声源定位、3D物体分类等多个任务上取得了SOTA效果。

介绍

多模态对比表示(MCR)旨在将不同模态的数据映射到统一的语义空间中。随着CLIP在视觉-语言领域的巨大成功,学习更多模态组合之间的对比表示已成为一个热门研究课题,吸引了越来越多的关注。
然而,现有多模态对比表示的泛化能力主要受益于大量高质量数据对。这严重限制了对比表征在缺乏大规模高质量数据的模态上的发展。例如,音频和视觉数据对之间的语义相关性往往是模糊的,3D点云和文本之间的配对数据稀缺且难以获得。
不过,我们观察到,这些缺乏配对数据的模态组合,往往和同一个中间模态具有大量高质量配对数据。比如,在音频-视觉领域,尽管视听数据质量不可靠,但音频-文本和文本-视觉之间存在大量高质量的配对数据。
同样,虽然3D点云-文本配对数据的可用性有限,但3D点云-图像和图像-文本数据却非常丰富。这些枢纽模态可以为模式之间建立进一步关联的纽带。
考虑到具有大量配对数据的模态间往往已经拥有预训练的对比表示,本文直接尝试通过枢纽模态来将不同模态间的对比表征连接起来,从而为缺乏配对数据的模态组合构建新的对比表征空间。
连接多模态对比表示(C-MCR)可以通过重叠模态为现有大量多模态对比表示构建连接,从而学习更广泛的模态之间的对齐关系。其中,学习过程不需要任何配对数据且极为高效。
C-MCR具有两个关键优势:
1. 灵活性:
C-MCR能够为缺乏直接配对配对的模态学习对比表征。从另一个视角来看,C-MCR将每个已有的多模态对比表示空间视为一个节点,并将不同表示空间的重叠模态视为枢纽模态。
通过连接各个孤立的多模态对比表征,我们可以灵活地扩展了获得的多模态对齐知识,并挖掘出更广泛模态间的对比表示。
2、高效性:
由于C-MCR仅需为已有的表征空间构建连接,因此只用学习两个简单的映射器,其训练参数和训练成本都是极低的。
实验利用文本作为枢纽连接视觉-文本(CLIP)和文本-音频(CLAP)对比表示空间,获得了高质量的视觉-音频表示。 
类似地,通过使用图像连接文本-视觉(CLIP)和视觉-3D点云(ULIP)对比表示空间,也可以获得一组3D点云-文本对比表示。

方法

图1 (a) 介绍了C-MCR的算法流程(以使用文本连接CLIP和CLAP为例)。
文本(重叠模态)的数据分别被CLIP和CLAP的文本编码器编码为文本特征:
同时,大量非配对单模态数据也分别被编码到CLIP和CLAP空间,构成image memory 和 audio memory
1. 特征语义增强
我们首先提出从语义一致性和语义完整性两个角度来增强表征中的语义信息,从而实现更鲁棒更全面的空间连接。
模态间语义一致性
CLIP和CLAP分别已经学到了可靠的对齐的图像-文本和文本-音频表征。

我们利用CLIP和CLAP中这种内在的模态对齐性来生成与第i个文本语义一致的图像和音频特征,从而更好地量化对比表征空间中的modality gap以及更直接的挖掘非重叠模态间的关联性:

模态内语义完整性
不同表征空间对于数据的语义表达会有不同的倾向性,因此不同空间下的同一个文本也会不可避免的存在语义偏差和丢失。在连接表示空间时,这种语义偏差会被累积并且放大。

为了增强每个表征的语义完整性,我们提出将零均值高斯噪声添加到表征中,并将它们重新归一化为单位超球面上:

如图1 (c) 中所示,在对比表征空间中,每个表征可以看代表是在单位超球面上的一个点。添加高斯噪声并重新归一化则使表征能够代表了单位球面上的一个圆。
因为两个特征的空间距离越接近,其语义相似度也越高。所以圆内的特征都具有相似语义,圆所能表示的语义更加完整。
2. Inter-MCR的对齐
完成表征语义增强后,我们学习两个映射器 来分别将CLIP和CLAP表征重新映射到一个新的共享空间:

新空间需要确保来自不同空间的语义相似的表征彼此接近。
来源于同一文本的 (,) 是天然语义一致的,可以被看做真实标签对,而源自于 (,) 的 (,) 可以被视为伪标签对。
(,) 之间的语义高度一致,但从它们中学习到的连接对于音频-视觉来说是间接的。 而(,)对的语义一致性虽然不太可靠,但其更直接地有利于音频-视觉表征。
为了更全面地连接两个对比表征空间,我们同时对齐 (,) 和 (,):

3. Intra-MCR的对齐
除了空间之间的连接,对比表征空间内部还存在着modality gap的现象。即在对比表征空间中,不同模态的表征虽然语义对齐,但它们分布在完全不同的子空间中。这意味着从 (,) 学习到的更稳定的连接可能不能很好的被音频-视觉继承。

为了解决这个问题,我们提出重新对齐各个对比表征空间的不同模态表征。具体来说,我们去除对比损失函数中的负例排斥结构,来推导出用于减小modality gap的损失函数。典型的对比损失函数可以表述为:

我们去除其中负对排斥项,最终的公式可以被简化为:

实验

实验上,我们通过使用文本连接音频-文本空间(CLAP)和文本-视觉空间(CLIP)来获得音频-视觉表征,使用图像连接3D点云-图像空间(ULIP)和图像-文本空间(CLIP)来获得3D点云-文本表征。

在AVE和Flickr-SoundNet上的zero-shot 音频图像检索结果如下:
在MUSIC-Solo和VGGSS上的zero-shot 声源定位结果如下:
在Ex-VGGSS和Ex-FlickrNet上的zero-shot反事实音频图像识别结果如下:
在ModelNet40上的zero-shot 3D点云分类结果如下:
参考资料:
ttps://c-mcr.github.io/C-MCR/
CVPR / ICCV 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTANeurIPS 2023 | 从分布鲁棒优化角度理解对比学习的鲁棒性和温度系数的意义NeurIPS 2023 | 多模态基础大模型的高效微调NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习JMT 2023.08.27NeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路性能大涨20%!中科大「状态序列频域预测」方法:表征学习样本效率max|NeurIPS 2023 Spotlight北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023人脸编辑神器!浙大&腾讯提出FaceX:统一面部表征建立通用人脸编辑模型NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生NeurIPS上新 | 从扩散模型、脑电表征,到AI for Science,微软亚洲研究院精选论文NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调JMT 2023.08.29NeurIPS 2023 Spotlight | 面向通用决策场景的MCTS基准框架:LightZeroNeurIPS 2023 | 动态组合模型来应对数据分布的变化天各一方 (7)時代的車輪骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLMNeurIPS 2023 Spotlight | 通过贝叶斯隐式表征实现数据压缩骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLMNeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型共和党以腐败为由弹劾拜登是个笑话(古詩詞英譯) 枯樹賦 – 庾信 (段章)秋日里的第一顿火锅GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC【回家的路】除夕夜宴 (2023 Chinese New Year Gala)2023 环游波罗的海(4)ICCV 2023 | 浙大&阿里提出:基于Transformer的可泛化人体表征来了!秋思【一句话翻译】中译英,参考答案 09.22.2023.
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。