Redian新闻
>
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

公众号新闻
机器之心报道
机器之心编辑部


去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。


现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。



  • demo 地址:https://llava.hliu.cc/

  • 项目地址:https://github.com/haotian-liu/LLaVA


与 LLaVA-1.5 相比,LLaVA-1.6 有如下几个改进:


  • 将输入图像分辨率提升 4 倍,支持三种宽高比,最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。

  • 通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。

  • 更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。

  • 使用 SGLang 进行高效部署和推理。


图源:https://twitter.com/imhaotian/status/1752621754273472927


LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率,它复用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调优样本。最大的 34B 模型使用 32 个 A100 在大约 1 天内完成了训练。LLaVA-1.6 使用 130 万个数据样本,计算 / 训练数据成本约为其他方法的 100-1000 分之一。



与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。



值得一提的是,LLaVA-1.6 展现出强大的零样本(zero-shot)中文能力,它在多模态基准 MMBench-CN 上取得了 SOTA 性能。


方法改进


动态高分辨率


研究团队以高分辨率设计 LLaVA-1.6 模型,旨在保持其数据效率。当提供高分辨率图像和保留细节的表征时,模型感知图像中复杂细节的能力会显著提高。它减少了面对低分辨率图像时的模型幻觉,即猜测想象的视觉内容。



数据混合


高质量的用户指令数据。该研究对高质量视觉指令遵循数据的定义取决于两个主要标准:首先,任务指令的多样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。

因此,该研究考虑了两个数据源:


现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);

为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。


多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。


研究团队还表示除了 Vicuna-1.5(7B 和 13B),还考虑采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能够支持更广泛的用户和更多的场景。



参考链接:https://llava-vl.github.io/blog/2024-01-30-llava-1-6/




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
聊儿点闲嗑,本轮H-1B注册窗口延期关闭,关闭后你会or能做些什么?独家对话CEO,解密华强北Vision Pro,最难“山寨”的苹果产品!马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-42024年全球最强护照排名揭晓!这6国并列第1!澳洲护照太强了,可畅游189个目的地China Clamps Down on Drug Price Differences Across Provinces带你去阳明山看芒草(多图)女士买Iphone15 pro max,什么颜色好呀雷军不再主讲小米手机发布会/《崩坏:星穹铁道》将登陆Vision Pro/Gemini Pro现已支持中文Eddie bauer好多裤子有60%off,买了他家Guide Pro Lined pants首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下为啥我的iphone 12 pro max 只能支撑半天?GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报资金经理、交易经理、网络顾问、新媒体运营... ... 一大波岗位“职”等你来!停更,网红,exposure,人设,标签,骗子中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-20.01元体验机会 | 自信表达,勇于沟通,提高语言表达能力的小班直播课3月限时特惠Roborock 石头吸尘器黑五价回归!S8 pro ultra $1199, Qrevo $769《木棉红》&《好好》MicroCinema与CCEdit:让文生视频兼具创造性与可控性32岁华裔亿万富翁登上Vogue!新郎新娘背景太强了!太强了!一个注解解决数据脱敏问题吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了湖南大学聂舟团队Angew |工程化Anti-CRISPR蛋白创建CRISPR-Cas蛋白开关用于激活型基因编辑和病毒蛋白酶检测刷个B站的功夫就能把Python学了,哈佛这门线上课程,太强了!一个超级大国的道义形象,在他的笔下瞬间崩塌小红书推出新框架:负样本也能提升大模型的推理能力暴风雪预警&Snow Emergency:本周二波士顿地区预计有20-30cm降雪!Snow Emergency今晚10点生效!德银2023薪金曝光,最高的Banker能拿到1400万欧元!!!​前谷歌大佬离职创业,不到一年造出GPT3.5和Gemini Pro,惨痛忠告:GPU简直菜鸡,就像是买彩票!今日最佳:共情能力太强了。AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid我,花三万买苹果Vision Pro,头和眼球快撑不住英伟达的VoxFormer太强了!刷个B站的功夫就把Python入门了,哈佛的线上课程,太强了!吕洪来谈科学养生之九:科学养生需要克服陋习、养成好的生活习惯曾赶超Gucci,4年销售额增长21倍,如今中国内地仅剩2家门店,昔日潮牌顶流怎么了?马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。