Redian新闻
>
DreamLLM:多功能多模态大型语言模型,你的DreamLLM~

DreamLLM:多功能多模态大型语言模型,你的DreamLLM~

科技

深度学习自然语言处理 原创
作者:wkk

今天为大家介绍西安交大,清华大学、华中科大联合MEGVII Technology的一篇关于多模态LLM学习框架的论文,名为DREAMLLM。

  • 论文:DreamLLM: Synergistic Multimodal Comprehension and Creation
  • 论文链接:https://arxiv.org/abs/2309.11499
  • GitHub:https://github.com/RunpeiDong/DreamLLM
进NLP群—>加入NLP交流群

摘要

DREAMLLM是一个学习框架,实现了通用的多模态大型语言模型(Multimodal Large Language Models,MLLMs),该模型利用了多模态理解和创造之间经常被忽视的协同作用。DREAMLLM的运作遵循两个基本原则:一是在原始多模态空间中通过直接采样对语言和图像后验进行生成建模有助于获取更彻底的多模态理解。二是促进了原始、交错文档的生成,对文本和图像内容以及非结构化布局进行建模,使得模型能够有效地学习所有条件、边际和联合多模式分布。

简介

在多模态任务中,内容理解和创作是机器智能的终极目标之一。为此,多模式大语言模型成功进入视觉领域。MLLMs在多模态理解能力方面取得了前所未有的进展。通常通过将图像作为多模式输入来增强LLM,以促进语言输出的多模式理解。其目的是通过语言后验来捕捉多模式的条件分布或边际分布。然而,涉及生成图像、文本或两者的多模式创作,需要一个通用的生成模型来同时学习语言和图像后验,而这一点目前尚未得到充分的探索。最近,一些工作显示出使用MLLMs的条件图像生成的成功。如下图所示,

由于固有的模态缺口,如CLIP语义主要关注模态共享信息,往往忽略了可以增强多模态理解的模态特定知识。因此,这些研究并没有充分认识到多模式创造和理解之间潜在的学习协同作用,只显示出创造力的微小提高,并且在多模式理解方面仍然存在不足。

创新点:DREAMLLM以统一的自回归方式生成原始语言和图像输入,本质上实现了交错生成。

知识背景

  • Autoregressive Generative Modeling:自回归生成建模
  • Diffusion Model:扩散模型

MLLMs具体做法:现有策略会导致MLLMs出现语义减少的问题,偏离其原始输出空间,为了避免,提出了替代学习方法如下图所示,即DREAMLLM模型框架。

DREAMLLM架构

DREAMLLM框架如上图所示,使用交错的文档用作输入,解码以产生输出。文本和图像都被编码成用于MLLM输入的顺序的、离散的token嵌入。特殊的<dream>标记可以预测在哪里生成图像。随后,一系列dream查询被输入到MLLM中,捕获整体历史语义。图像由stable diffusion图像解码器以查询的语义为条件进行合成。然后将合成的图像反馈到MLLM中用于随后的理解。

其中MLLM是基于在shareGPT上训练的LLama的Vicuna,采用CLIP-Large作为图像编码器,为了合成图像使用Stable Diffusion作为图像解码器。

模型训练

模型训练分为对齐训练、I-GPT预训练和监督微调。

实验结果

  • 多模态理解:多模式理解使人类能够与以单词和视觉内容为条件的主体进行互动。本文评估了DREAMLLM在几个基准上的多模式视觉和语言能力。此外,对最近开发的MMBench和MM-Vet基准进行了零样本评估,以评估模型在复杂多模式任务中的性能。发现,DREAMLLM在所有基准测试中都优于其他MLLM。值得注意的是,DREAMLLM-7B在图像合成能力方面大大超过了并发MLLMs,与Emu-13B相比,VQAv2的精度提高了16.6。在MMBench和MMVet等综合基准测试中,DREAMLLM与所有7B同行相比都取得了最先进的性能。

  • 条件文本图像合成:条件文本图像合成是创造性内容生成最常用的技术之一,它通过自由形式的语言生成遵循人类描述的图像。其结果如上表所示。结果显示:DREAMLLM 在阶段I对齐后显示出比Stable Diffusion基线显着提高FID,在 MS-COCO 和 LN-COCO 上分别将分数分别降低了 3.67 和 11.83。此外,预训练和监督微调后实现了 3.97 和 13.73 的 FID 改进。LN-COCO 的实质性改进强调了 DREAMLLM 在处理长上下文信息方面的卓越性能。与之前的专家模型相比,DREAMLLM 基于 SD 图像解码器提供了有竞争力的结果。DREAMLLM 始终优于基于并发 MLLM 的图像合成方法。

  • 多模态联合创建于比较:分别进行了自由形式的交错文档创建、图片质量和人工评估三个实验。实验结果表明:DREAMLLM可以根据给定的指令生成有意义的响应。系统可以通过预测所提出的令牌在任何指定位置自主创建图像,从而消除了对额外人工干预的需要。DREAMLLM生成的图像准确地对应于相关文本。证明了所提方法的有效性。

总结

本文介绍了一个名为DREAMLLM的学习框架,它能够同时实现多模态理解和创作。DREAMLLM具有两个基本原则:第一个原则是通过在原始多模态空间中进行直接采样,生成语言和图像后验概率的生成建模。第二个原则是促进生成原始、交错文档,模拟文本和图像内容以及无结构的布局,使DREAMLLM能够有效地学习所有条件、边际和联合多模态分布。实验结果表明,DREAMLLM是第一个能够生成自由形式交错内容的MLLM,并具有卓越的性能。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《灵魂的哀伤吟游·亨特篇之三》SafetyBench:通过单选题评估大型语言模型安全性阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」刘知远等众多机构提出ToolLLM:促进大型语言模型掌握16000+真实世界的APIs超越 GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型 Gorilla《灵魂的哀伤吟游·米莱斯篇之一》华为提出QA-LoRA:让微调大型语言模型‘轻装上阵’Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调晨跑长篇小说《如絮》第一百六十六章 哈尔滨-1968-1969年 2 人圆北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型字节李航等发表最新《可信赖的大型语言模型》综述,提出七大维度实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了为期五年,Ginkgo牵手谷歌开发新型大型语言模型,助力药物发现和生物安全领域AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队学术成果 | EMNLP2023:MMEdit——如何编辑多模态大语言模型?OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线中文版开源Llama 2同时有了语言、多模态大模型,完全可商用EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?从感知到理解-融合语言模型的多模态大模型研究大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型吴恩达力赞!哈佛、MIT学者用下棋证明:大型语言模型确实「理解」了世界大型语言模型与知识图谱:机遇与挑战破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型反贼给大外宣的工作指导挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标【限时】10场大型语言模型前沿技术分享文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型《大型语言模型对齐》综述,76页pdf
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。