Redian新闻
>
精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

公众号新闻
丰色 发自 凹非寺
量子位 | 公众号 QbitAI

字节&复旦大学多模态理解大模型来了:

可以精确定位到视频中特定事件的发生时间

比如在下面这个视频中:

狗子转身看镜头时的时间戳是多少?

什么时候用爪子推开滑板?

在这里,视频中的宝宝什么时候推起眼镜、舒展了一下身体?又是什么时候翻的书?

对于这样的问题,这个叫做LEGO的模型全都读得懂,并毫不犹豫给出正确答案。

看起来,有了这些研究成果,以后我们看视频查资料都要方便一大截咯?

可精确识别局部信息的多模态LLM来了

LEGO全称是一个语言增强的多模态grounding模型。

它主要解决的是多模态LLM跨多种模态进行细粒度理解的能力,此前业内的成果主要强调全局信息。

为了实现该目标,作者主要先从数据集下手,打造了一套用于模型训练的多模式、多粒度问答形式数据集(即将开源)

该数据集的构建涉及两个关键流程。

一是数据集转换(Dataset Conversion)

在这个阶段,作者的目的是构建用于模态对齐和细粒度对齐的基础多模态数据集。

由于数据集质量相对较低,主要通过转换公开数据集获得。

如下图上部分所示,他们向GPT-3.5提供任务描述以生成特定于任务的问题库,最终生成单轮对话格式的问答对。

生成的数据集会进行过滤以确保其质量。

其中对于图像模态,作者利用LLaVA-pretrain595K数据集进行模态对齐,细粒度对齐则使用特定数据集如RefCOCO。

视频模态用Valley-Pretrain-703K进行模态对齐,Charades-STA数据集用于细粒度对齐。

二是指令调整数据集生成(Instruction-tuning Dataset Generation)

这个数据集的目的是让模型更好地理解和遵循人类指令。

如上图下部分所示,作者也选择了公开可用的数据集(Flickr30K Entities、VCR、DiDeMo等)的子集进行人工注释,以创建上下文示例。它用于指导GPT-3.5在生成指令调整数据集时遵循类似的模式。

随后,特定任务的系统提示和随机选择的示例被输入到GPT-3.5中,以生成单轮或多轮对话。最后,进行数据过滤以确保数据集质量。

下面是经过三阶段训练产生的最终数据样本示例:

下面是LEGO模型的架构

每个模态的输入通过独立的编码器进行处理,提取特征,然后使用适配器将这些特征映射到LLM的嵌入空间。

图中演示的是视频和图像模式的两个示例,蓝色方框表示视频作为输入,而黄色方框表示图像作为输入。

由于其基于模块化设计和适配器的架构,LEGO可以无缝集成新的编码器,处理额外的模态,如点云和语音,主打一个好扩展。

最后,LEGO使用Vicuna1.5-7B作为基础语言模型,训练由三个阶段完成:多模态预训练,细粒度对齐调整和跨模式指令调整。

下面是实验评估:

图像任务中,LEGO模型和其他模型在REC任务中的性能如下表所示,可以看到它在所有数据集上都表现出了比较有竞争力的性能。

视频任务中,由于LEGO侧重对于整个视频的理解,相比VideoLLaMA、VideoChat和Valley这三个模型,性能表现相当优异:

更多能力展示

如上所说,LEGO的能力不仅在于视频定位,对图片、音频等多模态任务都很在行。

指的就是以下这些:

  • 图像内容解读

在这张风景图中,它准确给出了游玩风险提示。

在这个meme图中,它也准确发现这是一个炸鸡拼成的简单地图。

  • 视频内容概括简介

可以看到它能识别出非常细节的城市坐标和景点。

  • 音频解析

当然,这里测试的只是一个比较简单的纯雨声短音频。

  • 声音定位

给一段狗叫音频+一张狗狗奔跑的图像,它可以准确圈出声音来源在狗嘴部。

作者介绍

本文一共12位作者。

除了一作Zhaowei Li来自复旦大学,还有一位叫做的Dong Zhang的也来自这里。

其余均为字节跳动员工,通讯作者为Tao Wang。

论文地址: 
https://arxiv.org/abs/2401.06071

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
42、43、长篇民国小说《永泰里》第九章 欢迎“友”军(4)&(5)令地主最头疼的不是房客34、35 长篇民国小说《永泰里》第八章 国难当头(1)&(2)​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?40、41 长篇民国小说《永泰里》第九章 欢迎“友”军(2)&(3)无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法36、37、长篇民国小说《永泰里》第八章 国难当头(3)&(4)北大等提出MoE-LLaVA:将多模态大模型稀疏化AI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩台湾“蓝白”合谈成了,开创台湾新纪元!震惊!!!谷歌发布最强多模态大模型Gemini零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先6049 血壮山河 卢沟桥之变 18谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力44、45、 长篇民国小说《永泰里》第九章 欢迎“友”军(6)& (7)北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述世界顶尖多模态大模型开源!又是零一万物,又是李开复理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送红色日记 再添女孩 11.1-30横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLMAI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型咀外文嚼汉字(293)药草; 香草;“巴吉尔”,“罗勒”文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。