Redian新闻
>
视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架

视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架

科学

©PaperWeekly 原创 · 作者 | 彭天硕

单位 | 武汉大学本科生

研究方向 | 多模态理解与生成


大型语言模型(LLMs)通过在大规模未注释文本语料库上执行自回归建模方法,展现出强大的感知和推理能力。然而,将自回归建模扩展到多模态场景以构建大型多模态模型(LMMs)时,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于进行分类损失计算。


在本文中,研究者首次成功地进行了采用统一目标的多模态自回归建模,并且进一步探讨了 LLMs 内部语义空间中视觉特征的分布以及使用文本嵌入来表示视觉信息的可能性。

论文题目:
Multi-modal Auto-regressive Modeling via Visual Words

论文地址:

https://export.arxiv.org/abs/2403.07720

代码地址:

https://github.com/pengts/VW-LMM

Hugging Face库:

https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-7b
https://huggingface.co/MYTH-Lab/VW-LMM-Mistral-7b
https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-pif-7b



动机

得益于在大规模未标记文本上执行自回归建模方法,大型语言模型(LLMs)能够从自然语言语料库中学习通用的语义信息和强大的推理能力。然而,对于将自回归建模扩展到多模态场景而言,存在一个很大的困难,即图像信息在 LMM 中被处理为连续的视觉嵌入,无法获得离散的监督标签用于分类损失计算。

▲ 图1:不同LMM方法对比


如图 1(a)所示,作为一种妥协的解决方案,主流的 LMM 选择仅计算多模态交织序列中的语言部分的损失,将视觉信息视作上下文提示。这种不公平对待缺乏利用 LLM 的推理能力学习不同模态信息的过程,严重限制了 LMM 的潜力。


图 1(b)展示的一类方法提出在训练阶段使用回归任务来预测下一个视觉特征的值,但其视觉和语言组件的不一致优化目标不利于统一的多模态自回归建模。


为了解决这一挑战,研究者提出了 VW-LMM(visual word large multi-modal model)。VW-LMM 引入了视觉词(visual words)的概念,用于构建视觉特征在LMM内部语义空间中的分布,为视觉建模(visual modeling)提供了监督信息。


如图 1(c)所示,借助视觉词,VW-LMM 可以在不进行任何特定架构修改的情况下,实现统一的多模态自回归建模训练。



方法
2.1 整体结构

▲ 图2:模型整体结构


如图 2 所示,VW-LMM 的架构包括五个组件:一个视觉编码器(visual encoder),一个多模态解码器(multi-modal decoder),一个用于视觉-语言投影的适配器(adapter),一个用于多模态建模的多模态建模头(multi-modal modeling head,下称 MM head),以及与之对应的用于视觉建模的 VM head。


嵌入层(embedding)可以被看作是多模态解码器的一部分。研究者使用预训练的 LLM 及其 LM head 初始化 VW-LMM 中的多模态解码器和 MM head。

2.2 多模态学习方法(multi-modal learning)

为了将 LLM 的强大的文本感知和推理能力扩展到处理多模态输入,现有多模态学习方法通常使用适配器结构将预训练的视觉主干编码的视觉特征投影至 LLM 的语义空间,并与文本嵌入一起构建多模态输入序列。


对于文本指令 text 和对应的图像 image,LMM 的输入构造如下:

▲ 图3:多模态输入序列构造


其中 表示 LLM 的词嵌入层(embedding layer),VE 表示视觉编码器(visual encoder),AD 表示适配器(adapter)。


假定 LLM 包含两个主要部件:大型解码器 和语言建模头 LM head,LMM 对多模态序列中语言部分的建模损失计算如下:

▲ 图4:语言建模损失


其中 是 LM head 的参数,集合 表示期望学习的文本输出对应的索引。


该损失也是主流 LMM 训练使用的唯一损失。

2.3 视觉词(visual words)

为了进一步加强视觉特征与文本嵌入之间的相关性,VW-LMM 使用 VM head 将视觉特征映射到模型词汇表上的概率分布,研究者称之为“视觉词”。对于给定的视觉特征 ,对应的视觉词表示如下:

▲ 图5:视觉词计算方式


其中 是 VM head 的参数。


VW-LMM 对多模态序列中语言部分的建模损失表示为:

▲ 图6:VW-LMM的语言建模损失


其中 是 MM head 的参数, 表示多模态解码器。


VW-LMM 对多模态序列中视觉部分的建模损失表示为:

▲ 图7:VW-LMM的视觉建模损失


集合 表示多模态序列中视觉信息对应的索引。

最终的优化目标为多模态建模损失

▲ 图8:VW-LMM的优化目标

2.4 伪图像特征(pseudo image features)

为了进一步探索视觉特征在 LMM 语义空间中的表现形式,研究者提出利用视觉词和词嵌入层来构建伪图像特征

▲ 图9:伪图像特征的构造


其中 表示 LMM 内部的词嵌入, 表示点积操作。


通过使用 代替 ,研究者在实验中探究了视觉词对视觉特征的表示情况。



实验

3.1 定量实验

▲ 表1:定量实验


VW-LMM 在 5 个视觉问答(visual question answering)和 4 个基准测试工具(benchmark toolkit)上取得比相同规模的模型更优秀的视觉-语言理解能力,凭借 7B 参数量赶超 13B 甚至更大规模的模型。更多结果在论文中提供。

3.2 消融实验

▲ 表2:消融实验


消融实验证明了通过视觉词实现统一的多模态自回归建模方法的有效性。


使用伪图像特征的模型仍然表现出有竞争力的视觉-语言理解能力,验证了使用视觉词构造视觉特征在 LMM 语义空间中分布的有效性。

3.3 定性实验

▲ 图10:定性实验


对于图像中的每个图块,研究者选择其对应视觉词中概率最高的标记在图10中进行展示。结果表明,视觉词成功地实现了视觉特征向文本语义空间的转换。详细分析在论文中提供。



总结

本研究首次实现了具有统一目标的多模态自回归建模,通过视觉词表示视觉特征在 LMM 内部语义空间的分布,从而构建了用于视觉建模的监督标签。此外,研究者还通过实验验证了视觉词对视觉信息的表示以及使用文本嵌入表示视觉信息的可行性。


结果表明,视觉词成功实现了视觉空间到语言空间的语义转换,并有效地增强了模型的视觉-语言理解能力。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT北大等提出MoE-LLaVA:将多模态大模型稀疏化背景提升学员|喜报!新国立、康奈尔、港大、哥大、约翰霍普金斯、港科大、华威、圣路易斯华盛顿offer来了!CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!最强开源多模态生成模型MM-Interleaved:首创特征同步器西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMICVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型《扫花游 - 听雪》产量超153g/L,上海交大许平、陶飞开发新型工程菌株可在60℃高温下高效合成乳酸简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法共和党人在做逆淘汰蚂蚁提出自适应训练框架AntDT,有效解决工业级分布式训练快慢机的利器AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑大模型在开放智能体场景中能意识到风险威胁吗?上海交大发布R-Judge安全评测上海交大蚂蚁集团:2023中国居民投资理财行为调研报告【七律】銀婚贈友人Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架Mamba视觉新主干!悉尼大学&商汤提出LocalMamba:新的视觉状态空间模型最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTA逛台北的年货大街(多图)联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型有些科技已经死透了,但还活在语言和图标里CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解【一对一介绍】年入150万+,86年男生,上海交大硕士,已购房购车,高1718B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare与美丽一生同学的通信上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。