Redian新闻
>
腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态

腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态

科技


近期,来自腾讯 AI Lab、都柏林城市大学和莫纳什大学的研究人员发布了名为 Macaw-LLM 的研究成果。这项技术将大型语言模型与不同模态对齐和绑定,以实现跨模态指令跟随的能力。Macaw-LLM 能够执行复杂任务,如生成详细的图像描述、根据视频编写故事,以及回答与音频相关的问题。它可以同时接收多模态输入,并自然地组合它们的语义。

项目主页:
https://github.com/lyuchenyang/Macaw-LLM

论文链接:

https://arxiv.org/abs/2306.09093

视频链接:

https://www.youtube.com/watch?v=O7ZO0a8geM0


在这项工作中,我们提出了一种名为 Macaw-LLM 的多模态指令调优语言模型。它集成了图像、视频、音频和文本等四种不同的模态于一个模型之中。我们提出了一种新的对齐方法,将多模态特征与语言模型的嵌入进行对齐,从而产生与语言模型文本特征更接近的对齐特征,并能够自然地注入到语言模型的输入序列中。


为了解决当前多模态数据集主要强调特定任务类型的限制,我们还创建了 Macaw-LLM 指令数据集。该数据集涵盖了各种不同类型的指令任务,并结合了多种数据模态,使其更加多样化,更适合用于多模态指令调优语言模型。




方法


如图所示,Macaw-LLM 包含以下三个主要模块:


  • 模态模块:现有的语言模型主要专注于处理文本信息。为了融合视觉和音频等额外的模态数据,我们在 Macaw-LLM 中集成了额外的模态编码器。这样的增强使得 Macaw-LLM 能够有效处理多个模态。
  • 对齐模块:由于每个模态编码器是独立训练的,不同模态的学习表示可能不直接兼容。为了解决这个问题,我们提出了对齐模块,将不同模态的表示统一起来,实现多模态信息的有效整合。
  • 认知模块:在 Macaw-LLM 中,我们利用预训练的语言模型作为我们的认知模块,它构成了 Macaw-LLM 的基础。值得注意的是,认知模块也充当了我们方法中的文本模态编码器。




模态模块


现有的语言模型在处理文本信息方面非常强大,但通常仅限于文本信息的处理。在本节中,我们将描述如何对不同模态的信息进行编码。


  • 视觉模态编码器:OpenAI 提出的 CLIP 模型通过直接从与图像相关的未处理文本数据中学习,实现了更广泛的监督。在 Macaw-LLM 中,我们利用了 CLIP-ViT-B/16 的能力来编码视觉信息,包括图像和视频帧。
  • 音频模态编码器:OpenAI 提出了名为 Whisper 的多语言语音识别模型,该模型在大规模音频数据集上进行弱监督训练。在 Macaw-LLM 中,我们利用了 Whisper-base 的强大能力来编码音频信号,从而从音频数据中提取有意义的表示。
  • 文本模态编码器:语言模型通常在大规模文本语料库上进行预训练,因此指令调优的语言模型可以自然地处理文本信息。在这项工作中,我们将 LLaMA-7B 作为 Macaw-LLM 的基础。




对齐模块


模态编码器通常是分别训练的,这可能导致不同编码器生成的表示存在潜在差异。因此,将这些独立表示在一个共同的空间中进行对齐变得至关重要。在本节中,我们将概述我们用于对齐这些表示的方法。


利用 Transformer 中的 attention 机制,Macaw-LLM 的模态对齐分为以下几个步骤:


1. 编码:通过使用预训练模型 CLIP 和 Whisper,我们首先对多模态特征进行编码;


2. 转换:为了减少计算成本和前缀中的 token 数量,我们采用一维卷积层来压缩多模态特征的长度为一个较小且固定的值。随后,我们使用线性层来调整特征的隐藏大小,使其与 LLMs 的 embedding 的大小一致。


3. 对齐:每个模态编码器都是独立训练的,导致不同模态之间具有不同的表示。为了建立一个共同的表示空间,有必要对这些表示进行模态间的对齐。在本工作中,我们将转换后的视觉和音频模态表示视为 LLM(认知模块)的 “soft token”,因此我们提出使用注意力机制将视觉和音频表示与文本 embedding 空间进行对齐。


4. 集成:我们将对齐后的多模态 soft tokens 拼接到文本指令的 embedding 之前。




一站式微调


以往的多模态实践通常采用两步训练的方法,第一步专注于训练投射层以将多模态特征与文本特征对齐,而第二步则涉及对 LLMs 进行一般指令微调。相比之下,我们的方法通过采用一站式指令微调方法,直接微调所有模型参数,简化了适应过程,确保了模态之间的一致对齐,并消除了多步微调过程中可能出现的错误传播风险。




Macaw-LLM指令数据集


目前的多模态数据集主要强调特定任务类型,导致任务多样性有限。此外,这些数据集中的目标文本往往与人类编写的文本风格缺乏适当的对齐,使得在此类数据上微调的模型难以有效地遵循人类指为了解决这些限制,我们利用了当前 LLMs(如GPT-3.5-Turbo)出色的生成能力来构建我们的指令数据集。

如图所示,为了生成该数据集,我们以图像或视频的标题形式作为提示。为了优化生成过程并提高效率,我们一次性生成 10 个指令-响应对。对于图像标题数据,我们使用了 MS COCO 数据集。该数据集包含 328,000 张带有标题的图像。我们从该数据集中随机选择了 10,000 张图像及其相应的标题来创建我们的数据集。我们还从 Charades 和 AVSD 两个数据集中整合了视频标题数据。这些数据集共包含 9,848 个带有标题的视频,我们将其用于创建我们的视频数据集。

我们最终基于 COCO 图像标题获得约 69,000 个样本,以及基于 Charades 和 AVSD 视频标题获得约 50,000 个样本。


我们当前的数据集侧重于单轮对话,但我们意识到包括多轮对话和扩展数据集以涵盖更广泛的多模态内容的重要性。为了解决这个问题,我们正在积极将多轮对话纳入和丰富数据集,以增强其丰富性。




生成样例


图像:

视频:

视频+音频:




总结


在本文中,我们提出了 Macaw-LLM,一种多模态指令调优的 LLM,支持四种不同的模态:图像、视频、音频和文本。除了标准的模态模块和认知模块,我们提出了一种新颖的方法,将不同模态编码器生成的表示对齐到一个共享空间中。与以往方法不同,我们的方法将表示对齐和指令调优合并为一步,减少了多步微调过程中潜在的错误传播。此外,我们使用 GPT-3.5-Turbo 构建了一个大规模的多模态 Macaw-LLM 指令数据集。


不可否认,我们的工作目前存在一些缺陷,例如仅支持单轮对话、缺乏对 Macaw-LLM 的全面评估,以及可能存在的幻觉(hallucination)问题。我们将在未来的工作中努力解决这些问题。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了多模态大语言模型综述来啦!一文带你理清多模态关键技术中文版开源Llama 2同时有了语言、多模态大模型,完全可商用GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新​中科大和腾讯发布首篇《多模态大语言模型综述》微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入周润发上海和香港街头晨跑画面引热议,两种不同的待遇,两种不同的人生用语言建模世界:UC伯克利多模态世界模型利用语言预测未来愚不可及的,是自己对自己吼“你是个中国人”。有点像“受鲁迅思想影响”,怨谁?GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成「AI专家」贾斯汀·卡塞尔:语言模型更像“鹦鹉学舌”,下一步人工智能浪潮是多模态AI训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索儿子大了不由娘与刘源的一面之缘从感知到理解-融合语言模型的多模态大模型研究智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」学习生成式大语言模型,东北大学自然语言处理实验室有一堂课剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家LaVIN—多模态对话模型的高效指令微调四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入《梦想如此美丽》&《因为爱你》周润发上海和香港街头晨跑画面流出,两种不同的待遇,两种不同的人生…娘亲舅大 (一)华阳刘三姐率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。