Redian新闻
>
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

AI能理解搞笑视频笑点在哪里了。

AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。

值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。

在投影之前对齐图像和视频表示

这项工作具体贡献如下:

  • Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。

  • Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中,将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的,该编码器将不同的模态映射到文本特征空间中,提供了一个统一的视觉表示。然后,统一的视觉表示经过共享的投影层和词嵌入层进行编码,以将统一的视觉表示映射给大型语言模型使用。

  • Video-LLaVA在视频上表现出色,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力,研究团队做了充分实验。

视频理解能力实验。

如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。

图片理解能力实验。

该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:

为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。

他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。

然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。

通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。

有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。

这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。

通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。

在视频理解方面,联合训练的也得到了明显的提升。

参考资料:
[1]
https://arxiv.org/abs/2311.10122
[2]https://github.com/PKU-YuanGroup/Video-LLaVA

「中国AIGC数据标注产业全景报告(量子位智库出品)」下载

大模型时代到来,以数据为中心的AI开发模式加速走向台前,数据的价值从未像今天这样被充分挖掘。数据标注,正迎来关键洗牌时刻。

量子位智库发布《中国AIGC数据标注产业全景报告》,点击可查看并下载完整报告>> 中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型!1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品传字节成立AI应用新部门Flow;淘天集团筹建大模型团队;浪潮信息开源千亿级大模型丨AIGC大事日报开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了回乡小记(六)长安三万里扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务美股这两天的大跌是对滞胀担忧的反应打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略声网音视频底座:一个企业音视频系统的“DIY平台”|甲子光年720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLPUC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型修改LLaMA2-13B一个参数,语言能力全丧失,复旦等发现大模型新秘密免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发顶会过了!大语言模型融合最新SOTA方案苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型20B跨级挑战70B性能!国产开源大模型打造大模型新标杆费城日本花园,眼中小景提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友魔都夜景美不胜收《带节奏的英语课堂》第九课人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。