Redian新闻
>
刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!

刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

在CVer微信公众号后台回复:视频LLaVA,可以下载本论文pdf和代码,学起来!

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中,该模型展现出了出色的性能,在多个评估榜单中名列前茅,尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注如何将LLM的输入统一起来,从而提升LLM在视觉理解方面的能力。

论文:https://arxiv.org/pdf/2311.10122
GitHub 地址:
https://github.com/PKU-YuanGroup/Video-LLaVA
Huggingface地址:
https://huggingface.co/spaces/LanguageBind/Video-LLaVA

图1 Video-LlaVA在图片,视频上的13个基准上达到先进的性能

具体来说,北京大学的研究人员提出了一种名为Video-LLaVA的解决方案。与以往的视觉语言大模型不同,Video-LLaVA的重点在于将图片和视频特征提前绑定到一个统一的特征空间中,以便语言模型能够从统一的视觉表示中学习模态之间的交互。为了提高计算效率,Video-LLaVA采用了联合图片和视频的训练和指令微调策略。这项工作为解决"投影前对齐"(alignment before projection)的问题提供了一种方法。研究人员希望更多的社区研究人员能够关注到通过优化视觉文本输入来提升语言模型的理解性能。方法介绍    

值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。

视觉理解阶段:在这个阶段,使用了558K个LAION-CC-SBU图像-文本对和Valley的子集中的视频-文本对。模型通过广泛的视觉-文本对数据集来学习解读视觉信号的能力。每个视觉信号对应一个对话回合的数据。训练目标是原始的自回归损失,模型专注于基本的视觉理解能力。其他参数在此阶段被冻结。   

指令微调阶段:在这个阶段,收集了来自LLaVA的665k个图像-文本数据集和来自Video-ChatGPT的100k个视频-文本数据集。模型根据不同的指令提供相应的回复。这些指令通常涉及更复杂的视觉理解任务。对话数据包含多个回合,如果涉及多轮对话,输入数据会将之前回合的对话与当前指令连接起来。训练目标与第一阶段相同。在这个阶段,大型语言模型也参与训练。

实验

视频理解能力实验。如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。

   

图片理解能力实验。该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:

为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。

研究结果显示,统一的视觉表示在图片理解方面展现出强大的性能。它在5个图片问答数据集和4个基准工具箱上都明显优于分离的视觉表示。此外,团队还发现,在POPE、MMBench、LLaVA-Bench和MM-Vet这四个基准工具箱上,统一的视觉表示相较于分离的视觉表示有着显著的优势。这凸显了预先对齐视觉表征的好处,它不仅提升了图片问答性能,还在其他图片理解任务中带来了诸如减小幻觉和提升OCR能力等方面的收益。   

通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

    

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。

通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题,并增强对图片中数字信号的理解能力。类似的趋势也在LLaVA-Bench基准测试上观察到,视频数据的引入显著提升了LLM在图片复杂推理和对话任务上的表现。这表明,视频数据的训练对于提升图片理解能力是有益的,它帮助模型更好地理解图片中的细节和上下文,并在复杂推理和对话方面表现更出色。

在视频理解方面,我们对4个视频问答数据集进行评估。与仅在视频数据上进行训练的Video-LLaVA模型相比,联合训练图片和视频的模型在这4个数据集上全面取得了更好的表现。这些结果表明,联合训练图片和视频能够促进LLM对视觉表示的理解能力。通过同时学习图片和视频的信息,模型能够更全面地理解和表示视觉内容,从而提高在视频问答任务上的性能。这证实了联合训练图片和视频的益处,对于增强LLM对视觉信息的理解具有积极的影响。

在CVer微信公众号后台回复:视频LLaVA,可以下载本论文pdf和代码,学起来!

CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!周兵:运用视频语言向世界讲好中国文化文明故事用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单我们的一年(21)辛苦抢来的营地,要不要珍惜?北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解比利时王妃李然回广东省亲!北京语言大学毕业,2010年和查尔斯王子成婚小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大冰雹和雷雨云ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法红色日记 打苇机 8.26-31扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成两情难相知(十五)复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型语言大模型的进化轨迹扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!字节跳动李航:对语言大模型的若干观察和思考刷新多个SOTA!Meta重磅新作AnyMAL:多模态版Llama2来了!视觉全新主干!中科院&华为提出VMamba:视觉状态空间模型“你”“我”“他”AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。