Redian新闻
>
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

公众号新闻

机器之心报道

机器之心编辑部

性能优于规模更大的模型。

多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率。


最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。


具体来说,该研究提出了多模态模型 Mirasol3B。Mirasol3B 由时间同步模态(音频和视频)自回归组件,以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对齐,但是按顺序排列的。



论文地址:https://arxiv.org/abs/2311.05698


Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。


方法简介


Mirasol3B 是一个音频 - 视频 - 文本多模态模型,其中将自回归建模解耦成时间对齐模态(例如音频、视频)的自回归组件,以及针对非时间对齐的上下文模态(例如文本)的自回归组件。Mirasol3B 使用交叉注意力权重来协调这些组件的学习进程。这种解耦使得模型内部的参数分布更合理,也为模态(视频和音频)分配了足够的容量,并使得整体模型更加轻量。


如下图 1 所示,Mirasol3B 主要由两个学习组件组成:自回归组件,旨在处理(几乎)同步的多模态输入,例如视频 + 音频,并及时组合输入。




该研究还提出将时间对齐的模态分割成时间段,在时间段中学习音频 - 视频联合表征。具体来说,该研究提出了一种名为「Combiner」的模态联合特征学习机制。「Combiner」融合了同一时间段中的模态特征,产生了更紧凑的表征。


「Combiner」从原始的模态输入中提取初级的时空表示,捕捉视频的动态特性,并结合与其共时的音频特征,模型可以在不同的速率接收多模态输入,在处理较长的视频时表现良好。


「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动,并能够用于后续的自回归模型,学习长期依赖关系。



为了处理视频和音频信号,并适应更长的视频 / 音频输入,它们被分割成(在时间上大致同步)的小块,再通过「Combiner」学习联合视听表示。第二个组件处理上下文,或时间上未对齐的信号,如全局文本信息,这些信息通常仍然是连续的。它也是自回归的,并使用组合的潜在空间作为交叉注意力输入。


视频 + 音频学习组件有 3B 参数;没有音频的组件是 2.9B。多半参数用于音频 + 视频自回归模型。Mirasol3B 通常处理 128 帧的视频,也可以处理更长(例如 512 帧)的视频。


由于设计了分区和「Combiner」的模型架构,增加更多帧,或增加块的大小、数目等,只会使参数略有增加,解决了更长视频需要更多参数、更大的内存的问题。


实验及结果


该研究在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了测试评估。


在 VideoQA 数据集 MSRVTTQA 上的测试结果如下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及规模更大的模型,如 PaLI-X、Flamingo。



在长视频问答方面,该研究在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了测试评估,结果如下表 2 所示:



最后,该研究选择使用 KineticsSound、VGG-Sound、Epic-Sound 进行音频 - 视频基准测试,采用开放式生成评估,实验结果如下表 3 所示:



感兴趣的读者可以阅读论文原文,了解更多研究内容。




© THE END 

转载请联系本公众号获得授权

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞谷歌DeepMind科学家「被爆将离职创业」!曾参与AlphaGo、Alphafold工作,首轮融资或超2亿美元数学领域的“AlphaGo”:DeepMind最新AI模型,打破奥数天花板彭博推出全新基金经理工作台,丰富买方决策辅助解决方案ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势学习林黛玉经典语录(三)1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTAAI要从娃娃抓起!微软谷歌DeepMind推出AI入门课程,零基础进入AI行业让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!IT影响中国2023:锐捷AI-FlexiForce智算中心网络解决方案荣获影响力解决方案奖北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind《满庭芳 - 中秋荷塘》玩转围棋、国际象棋、扑克,DeepMind推出通用学习算法SoGUC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报2028年人类将迎来AGI:DeepMind联合创始人长文预测未来AI发展马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力彭博推出前台定价解决方案,提高固定收益交易效率卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞硬核观察 #1239 DeepMind 推出 “机器人宪法”AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6安谋科技“山海” S20F 初探:面向智能汽车 SoC 的安全解决方案谷歌DeepMind全新AI天气预报神器GraphCast登上Science!1分钟预测10天全球天气,碾压行业SOTA!第十二章 现代文明的意识形态 (2)打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题「线上分享」基于AMD MPSoC的AV over IP创新解决方案甜蜜的故乡-遥远的乡情月薪两万,互联网大厂疯抢AI数据标注员;iPhone16或推出AIGC功能;AMD推出AI芯片,对标英伟达H100丨AI周报《扫花游 - 听桂》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。