Redian新闻
>
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

科技
一个北大投稿 发送至 凹非寺
量子位 | 公众号 QbitAI

训完130亿参数通用视觉语言大模型,只需3天

北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。

利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销

具体而言,团队按照提出的新框架,训练了一个新的VLM:Chat-UniVi

Chat-UniVi能在混合图片和视频数据的情况下进行训练,并同时处理图片任务和视频理解任务。

以此为基础,Chat-UniVi在图片及视频上的17个基准上,都表现得还不错。

现在,项目已经在GitHub和抱抱脸上开源。

更多关于新方法和Chat-UniVi的详细信息,我们一起进一步来看看~

Chat-UniVi是什么?

了解基础信息后,我们详细地聊聊Chat-UniVi究竟是什么——

简单来说,Chat-UniVi是一个统一的多模态大型语言模型,可以同时理解图像和视频。

目前VLM运用的方法,偏图片理解的,往往使用大量视觉tokens来获得更精细的空间分辨率。

偏视频理解的方法,则常常选择牺牲每帧的空间分辨率,以输入更多帧来构建更精细的时间理解能力。

与它们不同,Chat-UniVi采用动态视觉token来统一表示图像和视频,动态token合并方法是无参数的,不需要额外训练。

而动态token的来源,是渐进地聚类视觉token。

为了获取这些动态的视觉token,研究人员基于最近邻的密度峰聚类算法,逐步对视觉token进行分组和合并。

其中,图片可以通过不同大小的视觉token进行建模。

举个🌰:

图中的羊就需要相对更多的视觉token进行细粒度表示;但背景里的雪山,一个视觉token就可以充分搞定建模。

至于视频,处理视频时,同样采用最近邻的密度峰聚类算法,以获取事件的帧集合。

Chat-UniVi会把它划分为多个关键事件,然后在事件内部拓展视觉token。

当然了,如果使用这种方法,更长的视频就会被分配到更多的视觉token,因此如果身处可变长度视频的情境下,这种方式比现有方式更有优势。

总而言之,这种图片和视频的统一表示,一边减少了视觉token的数量,一边又保持了模型的表达能力。

同时又由于视觉token数量的减少,利用这种方式训练模型和进行推理的成本,会大幅度降低——练一个具有130亿参数的VLM,只需要3天。

多提一嘴,为了进一步提升模型性能,团队还为LLM提供了一个多尺度表征。

多尺度表征的上层特征表示高级语义概念,而下层特征则强调了视觉细节的表示。

说到这,我们可以总结出Chat-UniVi的2大特点

第一,因为独特的建模方法,Chat-UniVi的训练数据集可以是图片与视频的混合版,并且无需任何修改,就可以直接应用在图片和视频任务上。

第二,多尺度表征能帮助Chat-UniVi对图片和视频进行更到位、更全面的理解。

这也导致了Chat-UniVi的任务适应性更强,包括使用高层次特征进行语义理解,以及利用低层次特征生成详细描述。

分两阶段训练

Chat-UniVi的训练分为两个阶段。

第一步是多模态预训练

在这个阶段,研究人员冻结了LLM和视觉编码器,同时只对投影矩阵进行训练。

这种训练策略使得模型能够有效地捕获视觉信息,而不会对LLM的性能造成任何明显的损害。

第二步是联合指令微调

在第二阶段,团队对整个模型进行了全参数微调,使用了一个包含图片和视频的混合数据集。

通过在混合数据集上进行联合训练,Chat-UniVi实现了对大量指令的卓越理解,并生成了更自然、更可靠的输出。

训练过程中,团队进行了如下实验:

图片理解实验

Chat-UniVi在使用更少的视觉标记的同时,性能表现也很不错。

7B参数的Chat-UniVi模型能达到13B大小LLaVA模型的性能水平。这证明了该方法的有效性。

视频理解实验

作为一个统一的VLM,Chat-UniVi超越了专门针对视频设计的方法,如VideoChat和Video-ChatGPT。

图片问答实验

Chat-UniVi在ScienceQA数据集上性能表现良好,其性能优于专门针对科学问答进行优化的LLaMA-SciTune模型。

视频问答实验

在所有数据集上,Chat-UniVi均表现优于最先进的方法,如VideoChat和Video-ChatGPT等。

幻觉实验

在幻觉评估方面,Chat-UniVi表现优于最近提出的最先进方法。

值得注意的是,作为一个7B模型,Chat-UniVi在性能上超越了13B参数大小的MiniGPT-4。

研究人员将这一成功归功于多尺度表征,这使得模型能够同时感知高级语义概念和低级视觉外观。

人工评测实验

同时,研究人员还进行了人工评估实验。

他们发现,基于Flamingo的方法在理解视频的能力上存在局限性。这种限制归因于它们使用Q-Former从不同长度的视频中提取固定数量的视觉标记,这阻碍了它们在建模时间理解方面的有效性。

相比之下,作为一个统一的模型,Chat-UniVi不仅优于基于Flamingo构建的方法,而且超越了专门为图片和视频设计的模型。

可视化

Chat-UniVi所采用的动态视觉token巧妙地概括了对象和背景。

这使得Chat-UniVi能够以有限数量的视觉token,同时建模图片理解所需的细粒度空间分辨率和视频理解所需的细粒度时间分辨率。

团队介绍

论文一作是北大信息工程学院博三学生金鹏

通讯作者袁粒,北大信息工程学院助理教授、博士生导师。

其研究方向为多模态深度学习和AI4S,其中AI4S方向主要研究深度学习解决化学生物中的重大问题。

此前网络大火的ChatExcel、ChatLaw等垂直领域大模型项目都出自袁粒团队。

arXiv:https://arxiv.org/pdf/2311.08046.pdf
Demo:https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub:https://github.com/PKU-YuanGroup/Chat-UniVi
抱抱脸:https://huggingface.co/Chat-UniVi

MEET 2024大会定档!

最新嘉宾阵容公布

12月14日,量子位「MEET2024智能未来大会」不容错过!点击报名线下现场

李培根院士、李开复博士及十余位AI各领域领先企业核心负责人已确认出席!戳此了解嘉宾详情:第二批嘉宾来袭!报名MEET2024的理由,今天又多了一个

< 左右滑动查看嘉宾海报 >

点击“预约”按钮,一键直达大会直播现场!


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟长篇小说《谷雨立夏间》10记忆中的惊叹号扶桑游记(一)【无人岛之行】低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?2023年冰岛之旅 (三)CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标世界顶尖多模态大模型开源!又是零一万物,又是李开复最强"全开源"多模态基础感知大模型APE发布!在160种测试集上取得强力结果!无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!Transformer王者归来!无需修改任何模块,时序预测全面领先正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能中秋的月北京内推 | 腾讯光子工作室群招聘多模态大模型方向实习生EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作长江颂媒体基础:打开多模态大模型的新思路​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。