Redian新闻
>
北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

公众号新闻
AI4Happiness 投稿
量子位 | 公众号 QbitAI

北大联合腾讯打造了一个多模态15边形战士!

以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。

具体来说,研究人员提出了一个叫做LanguageBind的多模态预训练框架。

语言作为与其它模态之间的纽带,冻结语言编码器,然后用对比学习方法,将各个模态映射到一个共享的特征空间,实现多模态数据的语义对齐。

使用这种方法,模型在5个数据集上的性能拿下新SOTA,在15个zero-shot检索等任务中取得了显著的性能提升,全面超越ImageBind、OpenCLIP。

将各模态与语言绑定

LanguageBind包含三个部分:

多模态编码器(Multi-modal Encoders),语言编码器(Language Encoder),以及多模态联合学习(Multi-modal Joint Learning)。

先来看多模态编码器部分。

除了语言之外的其它模态,研究人员使用24层、1024维的视觉Transformer,具有14的Patch大小。编码器是从OpenCLIP-large初始化的。

深度红外被视为RGB图像,在通道维度上复制3次与RGB图像对齐。

按照ImageBind的方式,音频数据被转换为持续10秒(128个mel-bins)的频谱图,并进行重复和填充。

  • Patch masking

为了解决在编码器中处理所有Token的低效问题,研究人员将图像分成补丁,并通过Mask获取一小部分图片序列,按照MAE的方法进行。

  • LoRA fine-tuning

同时使用LoRA技术来加速微调。对于具有权重矩阵W0∈Rd×k的模态编码器,在学习新的权重矩阵BA时,保持权重矩阵W0不变。

  • Modality extending

将LanguageBind方法扩展到多个(N个)模态的第一步是将数据处理成令牌序列。随后,参数将从OpenCLIP进行初始化。然后通过令牌屏蔽和LoRA微调来训练不同模态的编码器,同时保持语言编码器冻结。最后,将该模态与语言特征空间对齐。

再来看看语言编码器以及多模态联合学习部分。

对于语言编码器,研究人员使用了一个12层的transformer模型,维度为768,初始化来源于OpenCLIP。

对于给定的文本,他们首先使用BPE分词器将单词分割成相对常见的子词。每个子词对应一个唯一的标记,这些标记在一个词嵌入层内嵌入。最终,这些标记被语言编码器编码,以获得文本对数:

其中L表示序列的长度。为了确保跨不同模态的对齐,研究人员采用了对比学习原则。

这种方法的目标是增加配对数据的相似性,将它们带到相同的语义空间,同时减小不配对数据的相似性。研究人员利用对比学习将各个模态与语言绑定在一起。

构建高质量数据集

此外,研究人员还创建了一个名为“VIDAL-10M”的高质量数据集,其中包含1000万个具有对齐视频-语言、红外-语言、深度-语言、音频-语言的数据对,是第一个具有深度和红外模态的大规模视频多模态数据集。

数据集构建方法如下:

VIDAL-10M 构建框架

第一步是生成搜索词数据库,这个过程中,研究人员设计了一种独特的搜索词获取策略,利用来自各种视觉任务数据集的文本数据,包括标签和标题,以构建具有丰富视觉概念和多样性的视频数据集。

第二步是从互联网收集相关视频和音频,并进行一系列过滤处理,以确保数据集的质量和准确性。

这个过程中,研究人员使用了多种过滤方法,包括基于文本的过滤、基于视觉与音频的过滤,以确保数据集中的视频和音频与搜索词相关且质量高。

第三步是进行红外和深度模态生成,以及多视角文本生成和增强

在空间信息增强方面,研究人员采用了OFA模型生成多个关键帧描述,以提升视频内容的空间表达质量。

同时,在时间信息增强方面,将视频内容、标题以及Hashtag标签输入到mPLUG-owl模型中,以获取更为精炼和丰富的时间维度描述。

最后,研究人员运用ChatGPT模型对文本描述进行进一步细化和增强。

综合而言,多视角文本增强涵盖了标题、标签、关键帧描述以及视频描述等多个组成部分,为视频内容提供了全面且详尽的描述。

多个测试拿下SOTA

在测试阶段,大量的实验验证了VIDAL-10M数据集和LanguageBind方法的有效性,在视频、音频以及其它模态理解任务中取得了显著的性能。

LanguageBind在四个数据集上都性能拿下SOTA。

在MSR-VTT上比InterVideo方法高出1.9%,在MSVD上比 InterVideo高出 8.8%,在DiDeMo上比InterVideo高出 6.3%,在ActivityNet上比InterVideo高出 4.4%。

值得注意的是,InterVideo采用了更广泛的训练数据,正表明LanguageBind的有效性。

Zero-Shot视频-文本检索结果

视频-语言、红外-语言、深度-语言和音频-语言Zero-Shot分类,在所有数据集上的准确率均优于ImageBind、OpenCLIP:

Zero-Shot音频-语言检索性能同样优越:

论文链接:https://arxiv.org/pdf/2310.01852.pdf

「量子位2023人工智能年度评选」企业申报倒计时!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!扫码参与评选 ⬇️

MEET 2024大会即将开启报名!点此了解详情


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国移民,EB1、EB2、EB3、EB4、EB5到底都是什么?OpenAI最新大模型曝光:剑指多模态,GPT-4之后最大升级Mrs. Lincoln's dressmaker & Miss Eliza’s English kitchenNeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调拳打苹果,脚踢英特尔?这次高通终于在PC领域硬起来了!听小孩弹女人弹朗朗弹王羽佳弹钢琴热贴把我老家拍的那么丑,必须来几张漂亮的&简易攻略谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类六边形塌房战士?他竟然又去撩骚女爱豆了“辱骂不断,拳打脚踢”重庆男子凌晨家暴妻子,9岁女儿的一句话,让全网泪目...CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!习近平莫名其妙视察东北,普京与金正恩会面海参崴,中俄朝可能结盟吗?大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品特价奶茶&晚餐"六边形战士"是顶尖美高密码?耶鲁爸爸揭秘美高录取背后的真相“他专挑我攻击!”中国留学生在澳洲八大校园内遇袭,被推倒和拳打脚踢!疑遭种族辱骂,“该死的猴子!”​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan多模态搜索算法如何让视频搜索更精准?腾讯独家揭秘,超详细六个单项五项第一!这是又一位“六边形战士”《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩OPPO新机来了,折叠屏中的“六边形战士”!《树梢上的芭蕾》&《爱情花园》从Agent到多模态,大模型想要什么?看电影孤注一掷 & 吃火锅【没听过的邓歌】之十二《追梦》& 邓丽君台北故居寻访之路 by 唐歌上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生[视听] 模块化的解码耳放一体机——XD05Pro,HIFI界最强的六边形战士吓人!澳洲各地超市员工频遭顾客暴力袭击!拳打脚踢、棍棒威胁,还有滑板车“爆头”…苹果和特斯拉是美国科技的半边天清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型职场“六边形战士”的真面目拳打苹果、脚踢英特尔,高通芯片才是 AI 的未来头显大升级,接入大模型,扎克伯格要脚踢苹果拳打OpenAI!6006 血壮山河之随枣会战 “和平运动 ” 6白牌,在腾讯打「爆」了智能汽车「六边形战士」的真面目骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。