Redian新闻
>
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

公众号新闻



  新智元报道  

编辑:好困
【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。

最近,来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA,为alignment before projection提供了新颖的解决方案。
与以往的视觉语言大模型不同,Video-LLaVA关注的是提前将图片和视频特征绑定到统一个特征空间,使LLM能够从统一的视觉表示从学习模态的交互。
此外,为了提高计算效率,Video-LLaVA还联合了图片和视频进行训练和指令微调。
论文地址:https://arxiv.org/pdf/2310.01852.pdf
GitHub地址:https://github.com/PKU-YuanGroup/Video-LLaVA
Huggingface地址:https://huggingface.co/spaces/LanguageBind/Video-LLaVA

凭借强大的语言理解能力,ChatGPT这类的大语言模迅速在AI社区风靡。而如何让大语言模型同时理解图片和视频,也成为了大模型背景下的研究多模态融合的热点问题。

最近的工作将图片或视频通过几个全连接层映射成类似文本的token,让LLM涌现理解视觉信号的能力。
然而,图片和视频是分开用各自的编码器,这对LLM学习统一的视觉表征带来了挑战。并且通过几个映射层教会LLM同时处理图片和视频的性能往往不如视频专家模型如Video-ChatGPT。
对此,来自北大团队认为这种现象源于misalignment before projection。因为图片特征和视频特征在送入LLM之前就已经收敛到各自的特征域空间,这就给LLM学习它们之间的交互带来了挑战。
类似的现象如misalignment before fusion,也可以在早期的多模态融合工作被观察到,如ALBEF。

不同视觉语言大模型范式的比较


方法介绍

Video-LLaVA的方法简单有效,不需要额外自己预先训练图片和视频模态的编码器,而是巧妙地通过LanguageBind编码器来预先对齐图片和视频特征,形成统一的视觉表征。
具体来说,Video-LLaVA采用的图片和视频编码器通过共享一个语言特征空间,图像和视频表示最终融合成一个统一的视觉特征空间,称之为图像和视频的emergent alignment。
因此,Video-LlaVA通过LanguageBind预先对视觉输入进行对齐,以减小不同视觉信号表示之间的差距。统一的视觉表征经过共享的投影层后,输入到大语言模型中。
并且Video-LlaVA在训练过程中始终没有用到视频图片成对的数据,而是在训练后发现的LLM会惊人的涌现出同时理解图片和视频。
如下图所示,Video-LlaVA成功的识别出图片的自由女神像是近景且细腻的,而视频描述的是多角度的自由女神像,他们是来源于同一个地方。
Video-LLaVA采取两阶段的训练策略:
在视觉理解阶段,使用了一个558K个LAION-CC-SBU图像-文本对。视频-文本对是从Valley 提供的子集中获得的,总共有703k对,这些视频源自WebVid。
在指导微调阶段,团队从两个来源收集了指导性数据集,包括来自LLaVA的665k个图像-文本数据集,以及从Video-ChatGPT获得的包含100k个视频-文本数据集。
- 视觉理解阶段
在这个阶段,模型需要通过一个广泛的视觉-文本对数据集来获取解读视觉信号的能力。每个视觉信号对应一个回合的对话数据。
这个阶段的训练目标是原始的自回归损失,模型通过学习基本的视觉理解能力。在此过程中,冻结模型的其他参数。
- 指令微调阶段
在这个阶段,模型需要根据不同的指令提供相应的回复。这些指令通常涉及更复杂的视觉理解任务,而不仅仅是描述视觉信号。需要注意的是,对话数据包含多个回合。
如果涉及多轮对话,输入数据会将所有之前回合的对话与当前指令连接起来,作为本回合的输入。训练目标与前一阶段相同。
经过这个阶段,模型学会了根据不同的指令和请求生成相应的回复。在这个阶段,大语言模型也参与训练。

实验

- 视频理解能力
如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。
- 图片理解能力
该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:
- 预先对齐视觉输入
将图片编码器替换相同规模的MAE encoder。定义用MAE encoder是分隔的视觉表示,Languagebind是统一视觉表示(因为预先对齐了视觉表征),并且将MAE encoder和LanguageBind encoder在13个基准上进行对比,这其中包含9个图片理解基准和4个视频理解基准。
对于图片理解,统一视觉表示展现了强大的性能,它在5个图片问答数据集和4个基准工具箱上全面超过了分隔的视觉表示。
另外,我们注意到统一视觉表示在POPE,MMBench,LLaVA-Bench,MM-Vet这四个基准工具箱上的性能以巨大的优势超过。
这突出了预先对齐了视觉表征不仅在图片问答上提升了性能,还在图片理解的其他方面收益,如减小幻觉,提升OCR能力等。
由于替换图片编码器为MAE encoder,视频特征和图片特征在LLM初始学习视觉表示时不再统一。
在图6,相比于分隔视觉表示,联合视觉表示在4个视频问答数据集上全面提高了性能。
这些结果展现了预先对齐视觉表征表示能够帮助LLM进一步学习理解视频。
同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。
对于图片理解,Video-LLaVA在无法回答的和数字上的表现超过了LLaVA-1.5,这意味着联合训练视频使得在图片上的幻觉问题有所缓解,和对图片数字信号的理解能力增强。
相同的趋势在LLaVA-Bench上被观察到,Video数据显著提升了LLM在图片Complex reasoning,Conversation上的表现。
对于视频理解,团队在4个Video问答数据集上评估。
与没有图片参与训练的Video-LLaVA相比,有图片联合训练的模型在4个数据集上全面超过。
这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。
参考资料:
https://github.com/PKU-YuanGroup/ Video-LLaVA




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型唯老是尊——中国养老现状及探讨(一)扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略谷歌重磅新作PaLI-3:视觉语言新模型!更小、更快、更强视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24字节跳动李航:对语言大模型的若干观察和思考NeurIPS 2023 | 基于双重结构知识图的视觉语言模型高效迁移小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略四万字详解「AI对齐」:北大联合多个高校团队发布:AI对齐全面性综述AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug第十章第四节 海陆空三军和国民警卫队北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源语言大模型的进化轨迹顶会过了!大语言模型融合最新SOTA方案荡游威尼斯夏婳:两情难相知(十二)​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能回国大开眼界,这些东西你吃过吗?(图)刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友比利时王妃李然回广东省亲!北京语言大学毕业,2010年和查尔斯王子成婚马斯克回应比亚迪销量超越特斯拉,传支付宝再战社交,高通推出全新VR芯片,Pascal语言之父逝世,这就是今天的其他大新闻!清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新四万字详解AI对齐:北大联合多高校团队发布对齐全面性综述媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐[旅游] 旅行第15季085城 - 冰岛Keflavík小镇 蓝湖温泉 地热发电站谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强微调都不要了?3个样本、1个提示搞定LLM对齐,提示工程师:全都回来了1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。