Redian新闻
>
ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务

ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务

公众号新闻


©作者 | 机器之心编辑部
来源 | 机器之心

动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。


当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。但你是否想过,如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上,就可以轻松理解海量的图像与视频,并辅助创作图文并茂的内容。近期,来自快手和北大合作的最新多模态大模型 LaVIT, 正在让这个想法逐步变为现实。

 


论文标题:
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

论文地址:

https://arxiv.org/abs/2309.04669

代码模型地址:

https://github.com/jy0205/LaVIT


模型总览
LaVIT 作为一个新型的通用多模态基础模型,可以像语言模型那样,既能够理解也能生成视觉内容。LaVIT 继承了大语言模型成功的训练范式,即以自回归的方式预测下一个图像或文本 token。在训练完成后,其可以充当一个多模态通用接口,无需进一步的微调,就可以执行多模态理解和生成任务。例如,LaVIT 具有以下的能力:

实现高质量文本到图像的生成:LaVIT 能够根据给定的文本提示生成高质量、多种纵横比和高美感的图像。其图像生成能力与最先进的图像生成模型(如 Parti、SDXL 和 DALLE-3)相媲美。




根据多模态提示进行图像生成:由于在 LaVIT 中,图像和文本都被统一表示为离散化的 token,因此其可以接受多种模态组合(例如文本、图像 + 文本、图像 + 图像)作为提示,生成相应的图像,而无需进行任何微调。

 



理解图像内容并回答问题:在给定输入图像的情况下,LaVIT 能够阅读图像内容并理解其语义。例如,模型可以为输入的图像提供 caption 并回答相应的问题。


 


方法概览
LaVIT 的模型结构如下图所示,其整个优化过程包括两个阶段:

▲ 图:LaVIT 模型的整体架构


阶段 1: 动态视觉分词器

为了能够像自然语言一样理解和生成视觉内容,LaVIT 引入了一个设计良好的视觉分词器,用于将视觉内容(连续信号)转换为像文本一样的 token 序列,就像 LLM 能够理解的外语一样。作者认为,为了实现统一视觉和语言的建模,该视觉分词器 (Tokenizer) 应该具有以下两个特性:

1. 离散化视觉 token 应该被表示为像文本一样的离散化形式。这样对于两种模态采用统一的表示形式,有利于 LaVIT 在一个统一的自回归生成式训练框架下,使用相同的分类损失进行多模态建模优化。

2. 动态与文本 token 不同的是,图像 patch 之间有着显著的相互依赖性,这使得从其他图像 patch 中推断另一个 patch 相对简单。因此,这种依赖性会降低原本 LLM 的 next-token prediction 优化目标的有效性。LaVIT 提出通过使用 token merging 来降低视觉 patch 之间的冗余性,其根据不同图像语义复杂度的不同,编码出动态的视觉 token 数量。这样对于复杂程度不同的图像,采用动态的 token 编码也进一步提高了预训练的效率,避免了冗余的 token 计算。

下图是 LaVIT 所提出的视觉分词器结构:
 

▲ 图:(a) 动态视觉 token 生成器 (b) token 合并器

该动态视觉分词器包括 token 选择器和 token 合并器。如图所示, token 选择器用来选择最具信息的图像区块,而 token 合并器则将那些 uninformative 的视觉块的信息压缩到保留下的 token 上,实现对冗余 token 的 merging。整个动态视觉分词器则通过最大限度地重构输入图像的语义进行训练。

Token 选择器

Token 选择器接收 N 个图像区块级的特征作为输入,其目标是评估每个图像区块的重要性并选择信息量最高的区块,以充分代表整个图像的语义。为实现这一目标,采用轻量级模块,由多个 MLP 层组成,用于预测分布 π。通过从分布 π 中采样,生成一个二进制决策 mask,用于指示是否保留相应的图像区块。

Token 合并器

Token 合并器据生成的决策掩码,将 N 个图像区块划分为保留 X_r 和舍弃 X_d 两组。与直接丢弃 X_d 不同,token 合并器可以最大限度地保留输入图像的详细语义。token 合并器由 L 个堆叠的块组成,每个块包括因果自注意力层、交叉注意力层和前馈层。

因果自注意力层中, X_r 中的每个 token 只关注其前面的 token,以确保与 LLM 中的文本 token 形式一致。与双向自注意相比,这种策略表现更好。交叉注意力层将保留的 token X_r 作为 query,并根据它们在语义上的相似性合并 X_d 中的 token。

阶段 2: 统一的生成式预训练

经过视觉分词器处理后的视觉 token 与文本 token 相连接形成多模态序列作为训练时的输入。为了区分两种模态,作者在图像 token 序列的开头和结尾插入了特殊 token :[IMG] 和 [/IMG],用于表示视觉内容的开始和结束。为了能够生成文本和图像,LaVIT 采用两种图文连接形式:[image, text] 和 [text; image]。

对于这些多模态输入序列,LaVIT 采用统一的、自回归方式来直接最大化每个多模态序列的似然性进行预训练。这样在表示空间和训练方式上的完全统一,有助于 LLM 更好地学习多模态交互和对齐。在预训练完成后,LaVIT 具有感知图像的能力,可以像处理文本一样理解和生成图像。


实验

零样本多模态理解

LaVIT 在图像字幕生成(NoCaps、Flickr30k)和视觉问答(VQAv2、OKVQA、GQA、VizWiz)等零样本多模态理解任务上取得了领先的性能。
 

▲ 表1. 零样本的多模态理解任务评估


零样本多模态生成

在这个实验中,由于所提出的视觉 tokenizer 能够将图像表示为离散化 token,LaVIT 具有通过自回归生成类似文本的视觉 token 来合成图像的能力。作者对模型进行了零样本文本条件下的图像合成性能的定量评估,比较结果如表 2 所示。
 

▲ 表2. 不同模型的零样本文本到图像生成性能
从表中可以看出,LaVIT 的表现优于所有其他多模态语言模型。与 Emu 相比,LaVIT 在更小的 LLM 模型上取得了进一步改进,展现了出色的视觉 - 语言对齐能力。此外,LaVIT 在使用更少的训练数据的情况下,实现了与最先进的文本到图像专家 Parti 可比的性能。

多模态提示图像生成

LaVIT 能够在无需进行任何微调的情况下,无缝地接受多种模态组合作为提示,生成相应的图像,而无需进行任何微调。LaVIT 生成的图像能够准确反映给定多模态提示的风格和语义。而且它可以通过输入的多模态提示修改原始输入图像。在没有额外微调的下游数据的情况下,传统的图像生成模型如 Stable Diffusion 无法达到这种能力。

 

▲ 多模态图像生成结果的示例
定性分析

如下图所示,LaVIT 的动态分词器可以根据图像内容动态选择最具信息量的图像块,学习到的代码本可以产生具有高层语义的视觉编码。
 

▲ 动态视觉分词器(左)和学习到的 codebook(右)的可视化

总结

LaVIT 的出现为多模态任务的处理又提供了一种创新范式,通过使用动态视觉分词器将视觉和语言表示为统一的离散 token 表示,继承了 LLM 成功的自回归生成学习范式。通过在统一生成目标下进行优化,LaVIT 可以将图像视为一种外语,像文本一样理解和生成它们。这一方法的成功为未来多模态研究的发展方向提供了新的启示,利用 LLM 强大的推理能力,实现更智能、更全面的多模态理解和生成打开新的可能性。


更多阅读





#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2024 | OCTAVIUS: 通过MoE缓解MLLM任务间的干扰最强开源多模态生成模型MM-Interleaved:首创特征同步器LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗Runner’s Tradition——2024 Opening最强开源多模态生成模型MM-Interleaved:首创特征同步器,刷新多项SOTANew Year's fireworks 2024 LIVE: NYC's Times Square ball drop马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力ICLR 2024 | 根据压缩比率控制生成样本难度,NUS等提出首个无损数据集蒸馏方法【美坛综艺秀假日篇】Best wishes for 2024!​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan龙行龘(dá)龘(dá)!2024央视春晚宣布→LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med张郎郎:关于文革中的“一打三反”运动 (恐怖岁月)智谱AI推出新一代基座模型GLM-4,发起大模型开源基金大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!张郎郎:宁静的地平线2024 rav4 油车 le四驱微软亚研院段楠团队开展视觉内容生成研究,助力解决多模态生成式AI核心难题杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生关于 RAG、AI Agent、多模态,我们的理解与探索智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent多模态融合再度领跑ICLR 2024!这56种创新SOTA方案必看刚从NIH拿了45万研究经费龙行龘(dá)龘(dá)!Strong start 2024张郎郎:找哥哥GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评(古詩英譯)春江花月夜(其一)– 楊廣龙行龘(dá)龘(dá)!这些三叠字怎么念?巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7BICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。