Redian新闻
>
训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

公众号新闻

机器之心专栏

机器之心编辑部

北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。



  • 论文地址:https://arxiv.org/pdf/2311.08046.pdf
  • GitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniVi
  • Huggingface 地址:https://huggingface.co/Chat-UniVi
  • Demo 地址:https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

图 1 Chat-UniVi 在图片、视频上的 17 个基准上达到先进的性能

具体来说,北京大学和中山大学的研究人员提出了一种名为 Chat-UniVi 的统一的视觉语言方案,其能通过统一的视觉表征同时处理图片任务和视频任务。作为一个统一的视觉理解模型,Chat-UniVi 以更少的视觉 token 数量,超过了专门针对图片设计的多模态大模型和专门针对视频设计的多模态大模型。更值得注意的是,所提出的统一的视觉表征极大减少了输入视觉 token 的数量,大大降低了模型的训练和推理成本,使得训练一个具有 130 亿参数的通用视觉语言大模型只需要三天。


在介绍本文方法之前,我们先看一下 Demo 展示:




方法介绍

现有的多模态语言模型通常只专注于图片或视频输入。其中,专注于图片理解的方法通常使用大量的视觉 token 来获得更精细的空间分辨率。而专注于视频理解的方法往往会牺牲每帧的空间分辨率,以输入更多帧构建更精细的时间理解能力。

对此,研究人员提出使用一组动态视觉 token 统一表示图片和视频。如图 2 所示,图片可以通过不同大小的视觉 token 来建模。例如,主要对象 (即图 2 中的羊) 需要使用更多视觉 token 进行细粒度表示,而背景 (即雪山) 只需使用一个视觉 token 即可充分建模。对于视频来说,视频首先会被分成多个关键事件,随后视觉 token 会在事件内部进行拓展。这种图片和视频的统一表示大大减少了视觉 token 的数量,同时保持了模型的表达能力。值得注意的是,在该方法中,较长的视频被分配了更多的视觉 token。因此,比现有的方法更适合于具有可变长度视频的理解。

图 2 Chat-UniVi 提出的统一视觉表征

为了获得这些动态的视觉 token,研究人员基于最近邻的密度峰聚类算法,逐步对视觉 token 进行分组和合并。当涉及视频时,同样应用最近邻的密度峰聚类算法来获取事件的帧集合。为了进一步提升模型的性能,研究人员为 LLM 提供了一个多尺度表征,其中多尺度表征的上层特征表示高级语义概念,而下层特征强调视觉细节表示。

图 3 Chat-UniVi 整体框架图

Chat-UniVi 框架具有两个引人注目的优点:首先,其统一的图片和视频建模方法允许在图片和视频混合数据集上进行训练,而无需任何修改即可直接应用于图片和视频任务。其次,多尺度表征有助于对图片和视频的全面理解,使 Chat-UniVi 能够适应各种任务,包括使用高层次特征进行语义理解,使用低层次特征生成详细描述。

Chat-UniVi 的训练分为两个阶段:

(1)多模态预训练。在第一阶段,研究人员冻结 LLM 和视觉编码器的同时只训练投影矩阵。这种训练策略使模型能够有效地捕获视觉信息,而不会对 LLM 的性能造成任何明显的损害。
(2)联合指令微调。在第二阶段,研究人员在一个包含图片和视频的混合数据集上对整个模型进行了全参数微调。通过在混合数据集上的联合训练,Chat-UniVi 实现了对大量指令的卓越理解,并产生了更自然、更可靠的输出。

实验

图片理解实验。Chat-UniVi 使用更少的视觉 token,同时实现卓越的性能。值得注意的是,Chat-UniVi 模型在 7B 参数下,也能达到 LLaVA 模型 13B 参数下的性能水平,证明了该方法的有效性。


视频理解实验。Chat-UniVi 作为一个统一的视觉语言模型,超过了专门针对视频设计的方法,例如 VideoChat 和 Video-ChatGPT。


图片问答实验。Chat-UniVi 在 ScienceQA 数据集上获得了有竞争力的性能。值得注意的是,Chat-UniVi 优于专门针对科学问答进行优化的 LLaMA-SciTune 模型,充分体现了该方法的优越性。


视频问答实验。在所有数据集上,Chat-UniVi 都优于最先进的方法,例如 VideoChat 和 Video-ChatGPT。


幻觉实验。在幻觉评估上,Chat-UniVi 优于最近提出的最先进的方法。此外,研究人员发现多尺度表征提高了抵抗幻觉的能力。值得注意的是,作为 7B 模型,Chat-UniVi 甚至优于 13B 模型,如 MiniGPT4。研究人员将这一成功归功于多尺度表征,多尺度表征使模型能够同时感知高级语义概念和低级视觉外观。


人工评测实验。同时,研究人员也进行了人工评估实验。研究人员发现基于 Flamingo 的方法在理解视频的能力上存在局限性。这种限制归因于它们使用 Q-Former 从不同长度的视频中提取固定数量的视觉 token,这阻碍了它们在建模时间理解方面的有效性。相比之下,Chat-UniVi 作为一个统一的模型,不仅优于基于 Flamingo 构建的方法,而且超过了专门为图片和视频设计的模型。


可视化。Chat-UniVi 所使用的动态视觉 token 有效地概括了对象和背景。这使 Chat-UniVi 能够使用有限数量视觉 token 的同时构建图片理解所需的细粒度的空间分辨率和视频理解所需的细粒度时间分辨率。







© THE END 

转载请联系本公众号获得授权

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!夏婳:两情难相知(十七)研讨会预告!三位大咖将直播讲解大模型驱动的互联网视频理解与生成清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单【天与湖】 一组小诗 6​ICML 2023 | 港大提出创新时空图预训练架构,助力智慧城市多维任务学习画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成刷新多个SOTA!北大提出Video-LLaVA:超强视频语言大模型![旅游] 旅行第15季085城 - 冰岛Keflavík小镇 蓝湖温泉 地热发电站CVPR 2023 | MovieChat: 集成视觉模型和LLM的长视频理解新型框架浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型大嫂杨绒花(下)最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练现代文明的思维逻辑价值判断天玑9300拿下生成式AI最强移动芯,端侧支持330亿大模型,1秒内AI画图,全新全大核架构做底座线上|短视频理解兼职顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型[旅游] 旅行第15季088城 冰岛首都 Reykjavík 的冬天工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!赵丽颖突然官宣喜讯!全网炸了:10年了图片图片图片我们公开吧……ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-RiderAI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务AI,美丽新世界?养虎为患?深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐盘点大模型、多模态和视觉能投的会议期刊20万张图片训练出医用AI大模型,斯坦福团队整理16年来社交网络数据并建库,使用图像或文本即可检索类似病例
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。