Redian新闻
>
LaVIN—多模态对话模型的高效指令微调

LaVIN—多模态对话模型的高效指令微调

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | Smarter

论文地址:https://arxiv.org/pdf/2305.15023.pdf

代码地址:https://github.com/luogen1996/LaVIN

将大语言模型适配到多模态指令上通常需要花费大量的训练时间。BLIP2和mini-GPT4都需要大量的图文样本对来进行预训练。同时,LLaVA需要微调整个大语言模型。这些方案都大大增加了多模态适配的成本,同时容易造成大语言模型文本能力的下降。

本文提出了一种高效的混合模态指令微调方案,实现了大语言模型对文本指令和文本+图像指令的快速适配。基于该方案,本文提出了一个新的多模态大模型(LaVIN-7B, LaVIN-13B), 它具有以下优点:

  • 参数高效 (3~5M的训练参数)

  • 训练高效 (在多模态科学问答数据集上,最快只要微调1.4小时)

  • 性能优异 (比LLaMA-Adapter提升了快六个点!)

  • 支持纯文本和文本加图像的指令对话

网络结构和训练

如上图所示,LaVIN基于LLaMA来进行微调,整体结构非常简洁。

  • 端到端联合优化架构。CLIP的backbone直接接到LLaMA,没有其它复杂的设计。整个CLIP和LLM是完全冻住的,通过加入adapter来进行训练。同时,通过在CLIP中插入了adapter,使得整个模型能够被端到端优化。相比于LLaVA,这种端到端优化节省了CLIP和LLM之间对齐的预训练过程。

  • 多模态动态推理。在大语言模型中,本文设计了一个新的模块叫Mixture-of-modality adapter。这个模块能够根据输入指令的模态来切换adapter的推理路径。通过这种方式,能够实现两种模态训练时的解耦。简单来说,当输入文本指令时,模型会使用一组adapter路径来进行适配。当输入的是图像+文本指令时,模型会切换到另外一组adapter路径来进行推理。

  • 多模态混合训练。在训练过程中,LaVIN直接将纯文本数据和图文数据混合,直接打包成batch进行训练。除此之外,没有额外的优化过程和其他复杂的设计。

尽管LaVIN的设计和训练非常简单,但是得益于整个模型的联合优化、动态推理以及多模态混合训练。LaVIN的实际性能能够比肩LLaVA。LaVIN在多模态科学问答上,LaVIN 达到了90.8的性能,相比于LLaMA-Adapter提升了将近六个点,和LLaVA(90.9)也非常接近。在经过大约200k条GPT3+4的指令数据微调之后,LaVIN能进行高质量的文本对话以及图文对话。除此之外,这种基于adapter的范式还有非常大的优化空间,文中的训练时间和速度几乎没有采用任何优化策略。在加入QLoRA等量化训练策略之后,LaVIN的训练成本可能会再次降低一个量级。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
早春的声音像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统VPGTrans:10% 的成本定制你自己的类 GPT-4 多模态对话模型VPGTrans: 用10%的成本定制一个你自己的GPT4多模态对话模型对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话符尧:过去三个月,LLaMA系模型发展如何?指令微调的核心问题又是什么?多模态大语言模型综述来啦!一文带你理清多模态关键技术赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChatAlpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了VPGTrans: 用10%的成本定制一个你自己的GPT-4多模态对话模型他们开源了GitHub上最火的双语对话模型,还说AI胡说八道不需要被纠正训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态加州圣卡塔利娜岛(Santa Catalina Island),街景抢拍腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态从此告别繁琐的模型微调,LLM-Adapters助力NLP任务快速高效微调!中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发前總統川普被起訴多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构中文医学大模型“本草”(原名华驼):医学知识增强在中文大型语言模型指令微调上的初步探索征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力新泽西州印度教寺庙,精湛工艺批判中共的王剑,传播中共的仇恨思维首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl率先开放语音、视频等多模态对话能力,这家中国公司又比OpenAI走快了一步中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」多模态大模型的下一站在哪里?LaVIN-lite:单张消费级显卡微调多模态大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。