Redian新闻
>
威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

公众号新闻



  新智元报道  

编辑:拉燕
【新智元导读】微软&哥大联合发表视觉指令微调论文,LLaVA出炉!

视觉指令微调火了。
这篇论文名为Visual Instruction Tuning,由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品。
作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。
同时,研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。

讲解

那么LLaVA的功能究竟是什么呢?如果一头扎进论文,不熟悉的朋友可能会有些陌生。
我们先看看LLaVA自己怎么说。
以上回答生成自LLaVA的Chatbot,我输入的问题是,LLaVA的功能是什么,用户该如何利用它?
回答如下:
LLaVA是一个大语言和视觉助手,在UW Madison WAIV实验室经受的训练。LLaVA被设计出来的目的,就是帮助用户处理各类任务,方法则是借助自然语言理解的能力和视觉内容分析的能力。
LLaVA的主要功能包括:
· 以文本为基础的任务:LLaVA可以处理并分析文本,允许用户问问题,LLaVA可以和用户交谈,或者完成用户输入的任务,比如说提炼文件概要,情感分析,实体识别等等。
· 以图像为基础的任务:LLaVA可以分析图像,描述图像,进行物体识别,分析理解场景。
用户如果想更好地应用LLaVA,可以直接和LLaVA进行交谈,就像和人类之间对话一样。尽可能多的提供细节,LLaVA就会生成出一个更完善的答案。
同时应该记住,说到底LLaVA是一个机器学习模型,是一个AI工具。只要是工具,就有其限制。LLaVA不一定每一次都能完美地回答用户输入的问题。
当然,LLaVA也在不断学习和完善,其功能也会越来越强大。
总的来说,从LLaVA的回答中可以看出,在Chatbot这方面,和GPT的功能差不了太多。但是LLaVA可以处理一些有关图像的任务。

表现出彩


研究人员在Arxiv的论文中详细介绍了LLaVA的技术细节。
要知道使用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令微调,提高了新任务的零点能力,但这个想法在多模态领域的探索较少。
在论文中,研究人员首次尝试使用仅有语言的GPT-4来生成多模态语言图像的指令跟随数据。
通过对这种生成的数据进行指令调整,研究人员引入了LLaVA:这是一个大型语言和视觉助手,是一个端到端的训练有素的大型多模态模型,它连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。
早期实验表明,LLaVA展示了令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上都能输出多模态GPT-4的表现,在合成的多模态指令跟随数据集上与GPT-4相比,获得了85.1%的相对分数。
当对Science杂志进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确性。
研究人员公开了GPT-4生成的视觉指令调整的数据、模型和代码库。

多模态模型


首先厘清定义。
大型多模态模型指的就是一种基于机器学习技术的模型,能够处理和分析多种输入类型,如文本和图像。
这些模型设计用于处理更广泛的任务,并且能够理解不同形式的数据。通过将文本和图像作为输入,这些模型可以提高理解和编解释的能力,从而生成更准确和相关的回答。
人类通过视觉和语言等多种渠道与世界互动,因为每个单独的渠道在代表和传达某些世界概念方面都有独特的优势,从而有利于更好地理解世界。
而人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态的视觉和语言指令,与人类的意图一致,完成各种真实世界的任务。
因此,开发者社区见证了对开发语言增强的基础视觉模型的新兴趣,在开放世界的视觉理解方面具有强大的能力,如分类、检测、分割、描述,以及视觉生成和编辑。
在这些功能中,每个任务都由一个单一的大型视觉模型独立解决,在模型设计中隐含考虑了任务指令。
此外,语言只被用来描述图像内容。虽然这允许语言在将视觉信号映射到语言语义方面发挥重要作用——这是人类交流的常见渠道。但这会导致模型通常具有固定的界面,互动性和对用户指令的适应性有限。
而大型语言模型(LLM)表明,语言可以发挥更广泛的作用:通用助手的通用界面,各种任务指令可以明确地用语言表示,并引导端到端训练有素的神经助手切换到感兴趣的任务来解决它。
例如,最近ChatGPT和GPT-4的成功,证明了这种LLM在遵循人类指令方面的能力,并激发了人们对开发开源LLM的巨大兴趣。
LLaMA就是一个开源的LLM,其性能与GPT-3相当。正在进行的工作利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力,与专有LLM相比,报告了令人印象深刻的性能。重要的是,这一行的工作是纯文本的。
在本文中,研究人员提出了视觉指令调整,这是将指令调整扩展到多模态空间的首次尝试,它为建立一个通用的视觉助手铺平了道路。具体来说,论文的主要内容包括:

多模态的指令跟随数据。一个关键的挑战是缺乏视觉语言指令-跟随数据。我们提出了一个数据改革的观点和管道,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令-跟随格式。

大型多模态模型。研究人员开发了一个大型多模态模型(LMM),通过连接CLIP的开放集视觉编码器和语言解码器LaMA,并在生成的教学视觉——语言数据上对它们进行端到端的微调。实证研究验证了使用生成的数据进行LMM指令调谐的有效性,并为建立一个通用的指令跟随的视觉代理提出了实用的建议。通过GPT 4,研究小组在Science QA多模态推理数据集上取得了最先进的性能。

开源。研究小组向公众发开了以下内容:生成的多模态指令数据、用于数据生成和模型训练的代码库、模型检查点,以及一个视觉聊天演示。

成果展示


可以看到,LLaVA能处理各类问题,且生成的回答既全面又富有逻辑。
LLaVA表现出一些接近GPT-4水平的多模态能力,在视觉聊天方面,GPT-4相对评分85%。
而在推理问答方面,LLaVA甚至达到了新SoTA——92.53%,击败多模态思维链。
参考资料:
https://llava-vl.github.io/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……中山大学HCP实验室新突破:用因果范式再升级多模态大模型独家 | 多模态大模型初创企业“智子引擎”,近日完成千万元天使轮融资追赶GPT-4的多模态大模型对比分析多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构可商用多语言聊天LLM开源,性能直逼GPT-4汤面中的法拉利 - TWNRM !融资千万,结盟软通动力,人大多模态大模型元乘象正在圈地大B市场|甲子光年军旅故事原创系列(45)花生米像什么?有没有欺骗 或 被欺骗过Nature子刊|威大华人团队全新多模态数据分析及生成方法JAMIE,大幅提升细胞类型、功能预测能力达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型训练开销骤减,10%成本定制专属类GPT-4多模态大模型《卖给洋人》《卖博士》的特色专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始微软:多模态大模型GPT-4就在下周,撞车百度?阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl硬核课程全网首发!高级人工智能:多模态大模型LLM与AIGC前沿技术实战独家 | 多模态大模型初创企业「智子引擎」,近日完成千万元天使轮融资专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型VPGTrans: 10%的成本定制你自己的类GPT-4多模态大模型lāo dao?láo dao!多模态大模型向前,机器人领域的新机遇在哪里?中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型多模态大模型的下一站在哪里?好玩!GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?Meta版ChatGPT惨遭“开源”?最新大模型LLaMA被泄露,已在GitHub收获7k+星
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。