Redian新闻
>
媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA

媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA

公众号新闻

机器之心报道

编辑:蛋酱、小舟


多模态大模型落地的风,最终还是刮了起来。


十几天前,OpenAI 为 ChatGPT 添加了图像识别功能,允许用户使用上传一张或多张图像配合进行对话。从 OpenAI 自己公开的简短文档,我们得知, ChatGPT 识图功能的背后是一个名为 GPT-4V 的新款大模型。


实际上,这一能力在半年前 GPT-4 发布之时就已存在,但一直未对普通用户公开。在 AI 领域,多模态大模型 早已成为公认的趋势,也被认为是通用 AI 助手的关键模块。


鉴于 OpenAI 对「闭源」的坚持,很多研究者也率先一步推出了自己的多模态大模型研究成果。比如两大代表作「LLaVA」和「MiniGPT-4」,都在自然指令跟踪和视觉推理能力方面展示了令人印象深刻的结果。


今年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。


如今,这一成果迎来重磅升级:LLaVA-1.5 已正式发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。



  • 论文地址:https://browse.arxiv.org/pdf/2310.03744.pdf

  • Demo 地址:https://llava.hliu.cc/


仅使用 120 万公开数据,LLaVA-1.5 在单个 8-A100 节点上用不到 1 天的时间就完成了训练。



在论文中,研究者介绍了两项简单的改进:一个 MLP 跨模态连接器,以及合并 VQA 等学术任务相关数据。与 LLaVA 一起使用时,这两项改进带来了更好的多模态理解能力。


相比于 InstructBLIP 或 Qwen-VL 在数亿甚至数十亿的图像文本配对数据上训练专门设计的视觉重采样器,LLaVA 使用了最简单的架构设计,只需要在 600K 个图像 - 文本对上训练一个简单的全连接投影层。



和 GPT-4V 比,能不能打?


在读论文之前,我们先来看看 LLaVA-1.5 的识别能力如何,能不能与 GPT-4V 相较量。


命题一:将杂货转换为 JSON


指令:需要识别所有水果(仅水果),然后为每种水果创建一个具有名称属性和营养属性的对象,营养属性包括估计热量、碳水化合物、脂肪和蛋白质属性。


LLaVA-1.5 的回答结果:



GPT-4V 的回答结果:



命题二:从简化的草图识别电影名称


指令:这个图讲的是哪部电影?注:我改了角色的名字,让识别变得更难。


LLaVA-1.5 的回答结果:



GPT-4V 的回答结果:



论文细节


LLaVA 在视觉推理方面表现出值得称赞的能力,在现实生活中的视觉指令任务的各种基准上超越了多个最新模型,而仅在通常需要简短答案的学术基准上有所欠缺。研究团队认为后者归因于 LLaVA 没有像其他方法那样在大规模数据上进行预训练。


具体来说,该研究首先在下表 1 中选择的三个数据集上分析了扩展数据、模型和输入图像分辨率的影响;然后在表 2 中的 12 个不同基准上进行比较实验。实验结果表明,LLaVA 架构对于视觉指令调整而言功能强大且数据高效,并且使用比所有其他方法少得多的计算和训练数据实现了最佳性能。




响应格式 prompt


该研究发现:InstructBLIP 等方法无法在短格式和长格式 VQA 之间取得平衡主要有两点原因:


首先,给 LLM 的 prompt 在响应格式上不明确。例如,「Q:{问题} A:{答案} 」这样的 prompt 并不能清楚地阐明所需的输出格式。即使对于自然的视觉对话,也可能使 LLM 过度适合给出简短的答案。


其次,没有对 LLM 进行微调。例如,InstructBLIP 需要 Qformer 的视觉输出 token 来控制 LLM 的输出长度(长格式 / 短格式),但由于其容量有限,Qformer 可能缺乏正确执行此操作的能力。


为了解决这个问题,该研究提出使用一个明确指定输出格式的「响应格式 prompt」,例如当需要模型给出简短回答时,在 VQA 问题的末尾加一句:「使用单个词语或短语回答问题」。



该研究通过实验表明:当 LLM 使用此类 prompt 进行微调时,LLaVA 能够根据用户的指令适当调整输出格式,并且不需要使用 ChatGPT 对 VQA 数据进行额外处理。



此外,该研究还发现,与原始模型相比,通过双层 MLP 提高视觉 - 语言连接器的表征能力可以提高 LLaVA 的多模态能力。并且,该研究还面向学术任务扩展了数据,包括额外的面向学术任务的 VQA 数据集,用于 VQA、OCR 和区域级感知,以增强模型的多模态能力。




感兴趣的读者可以阅读论文原文,了解更多研究内容。


参考链接:

https://twitter.com/rowancheung/status/1710736745904721955

https://twitter.com/imhaotian/status/1710192818159763842




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞吹尽黄沙不见金(七十四):暗示GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVistaUNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻碾压Llama2!微软13亿参数phi-1.5,单个A100训练,刷新SOTA超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能上海立法规划:涉数据流通交易、健康医疗数据、跨境数据、数字化转型等项目| 2023-2027年最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了《天凉好个秋》&《江南烟雨路》双重国籍的退休生活融资25亿、对标GPT-4V,适配国产芯……关于通用大模型的未来,智谱全交待了微软发布 166 页 GPT-4V 测评报告,ChatGPT 的高阶用法都在这|Hunt Good 周报178页,128个案例,GPT-4V医疗领域全面测评,离临床应用与实际决策尚有距离比Siri更懂iPhone!GPT-4V可“操作”手机完成任意指令,无需训练ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上实锤!村上春树、史蒂芬·金盗版书成训练数据,AI 巨头无一幸免GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC5133 血壮山河之武汉会战 信罗战役 6武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了荣耀全新“钱包折叠屏”发布!颜值超高、8.6mm刷新手机轻薄纪录,仅5999元起边跑外卖边上大学!他30天内完成落户、入学……挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标1个token终结LLM数字编码难题!九大机构联合发布xVal:训练集没有的数字也能预测!他刚在我们去的冰川失踪去世了最短 3 天内完成接入!腾讯云向量数据库正式对外全量开放公测刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。