Redian新闻
>
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

AI能理解搞笑视频笑点在哪里了。

AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。

在投影之前对齐图像和视频表示

这项工作具体贡献如下:

  • Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。

  • Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中,将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的,该编码器将不同的模态映射到文本特征空间中,提供了一个统一的视觉表示。然后,统一的视觉表示经过共享的投影层和词嵌入层进行编码,以将统一的视觉表示映射给大型语言模型使用。

  • Video-LLaVA在视频上表现出色,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力,研究团队做了充分实验。

视频理解能力实验。

如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。

图片理解能力实验。

该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:

为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。

他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。

然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。

通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。

有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。

这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。

通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。

在视频理解方面,联合训练的也得到了明显的提升。

参考资料:
[1]
https://arxiv.org/abs/2311.10122
[2]https://github.com/PKU-YuanGroup/Video-LLaVA

「中国AIGC数据标注产业全景报告(量子位智库出品)」下载

大模型时代到来,以数据为中心的AI开发模式加速走向台前,数据的价值从未像今天这样被充分挖掘。数据标注,正迎来关键洗牌时刻。

量子位智库发布《中国AIGC数据标注产业全景报告》,点击可查看并下载完整报告>> 中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
修改LLaMA2-13B一个参数,语言能力全丧失,复旦等发现大模型新秘密美股这两天的大跌是对滞胀担忧的反应720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略《带节奏的英语课堂》第九课20B跨级挑战70B性能!国产开源大模型打造大模型新标杆李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了魔都夜景美不胜收费城日本花园,眼中小景最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型传字节成立AI应用新部门Flow;淘天集团筹建大模型团队;浪潮信息开源千亿级大模型丨AIGC大事日报免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!声网音视频底座:一个企业音视频系统的“DIY平台”|甲子光年小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品回乡小记(六)长安三万里顶会过了!大语言模型融合最新SOTA方案北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。