Redian新闻
>
上海AI Lab开源首个可替代GPT-4V的多模态大模型

上海AI Lab开源首个可替代GPT-4V的多模态大模型

科技
 夕小瑶科技说 原创
 作者 | 任同学

与开源和闭源模型相比,InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。

上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM),旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。


论文称,InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型,特别是在与 OCR 相关的数据集中。

论文用下面一张图非常生动地展示了他们为 达到 AGI 星球 所做的努力:


图中主要涉及 InternVL 的三个改进:(1)强视觉编码器:为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略,提高了其视觉理解能力,并使其可以在不同的LLM中迁移和重用。(2)动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为1到40个448×448像素的图块,最高支持4K分辨率输入。(3)高质量的双语数据集:收集了高质量的双语数据集,涵盖常见场景、文档图像,并用英文和中文问答对进行注释,显着提高了 OCR 和中文相关任务的性能。


总体的结构则是采用与流行的多模态大模型类似的 ViT-MLP-LLM 架构,通过MLP映射器将预训练好的InternViT-6B与InternLM2-20b结合在一起。同时还使用一个简单的Pixel Shuffle 技巧将视觉标记的数量减少到四分之一。

对于动态高分辨率,研究人员则是从预定义的比例中动态匹配最佳宽高比,将图像划分为448×448像素大小的块,并为全局上下文创建缩略图。该方法最大限度地减少了纵横比失真,并在训练期间适应不同的分辨率。

▲图4.动态分辨率。

在训练过程中,视觉标记的数量范围为 256 到 3,328。在测试过程中,图块数量最多可以增加到 40 个,从而产生 10,496 个视觉标记,从而实现最高4K分辨率的输入。

论文中也提供了模型在预训练和微调阶段使用的各类任务以及对应的数据集,并且都是公开数据集。为了构建大规模 OCR 数据集,研究人员还利用 PaddleOCR 对 Wukong 数据集的图像执行中文 OCR,对 LAION-COCO 数据集的图像执行英文 OCR。

▲图5.(a) 预训练阶段使用的数据集
▲图5.(b) 微调阶段使用的数据集。

而InternVL 1.5 的具体性能表现如何?如下图所示,InternVL 1.5 在大多数基准测试中都表现出领先的性能!

▲图6.在 16 个多模式基准上与 SoTA 模型进行比较。

TextMonkey、DocOwl-1.5 和 LLaVA-NeXT 等其他开源模型相比,InternVL 1.5 在这些基准测试中显着缩小了与专有模型的差距。

然而,虽然 InternVL 1.5 超越了 MM1,并且在 MMMU 上与 Gemini Pro 1.0 相当,但它比其前身 InternVL 1.2 略有下降。作者也对此进行了分析,并称这可以被认为是适当的降低,且可以归因于语言模型规模较小,这种现象也可以在下图中的 MMT-Bench 结果中观察到。

▲图7. 在ConvBench和MMT-Bench上与SoTA模型的比较。

针对InternVL在不同分辨率下的性能,研究人员也进行了实验。论文称,尽管在训练期间仅使用 1 到 12 个图块,但可以在测试期间将零样本任务扩展到 40 个图块(即,4K分辨率)。

但是作者也发现并不是所有任务都需要高分辨率,从图8来看,与 OCR 相关的任务(例如 DocVQA、InfoVQA、TextVQA 和 OCRBench)受益于分辨率的提高,而 AI2D、MMMU、MMBench 和 HallusionBench 等任务在更高分辨率下表现出轻微下降。

▲图8.不同图像分辨率下 InternVL 1.5 性能的比较。X 轴代表图块数量,Y 轴代表基准性能。最高值及其相应的图块数量会突出显示。

总体而言,InternVL 1.5 对动态分辨率表现出很强的鲁棒性。它可以根据每项任务的具体要求调整分辨率,确保在高分辨率有利的情况下实现最佳性能,在不利于高分辨率的情况下节省资源。

为了充分践行自己对标 GPT-4V的目标,论文中的 General QA、OCR-related QA、科学理解、中国传统文化、目标定位、多图像对话的示例上均与 GPT-4V进行对比,蓝色字体显示出色的答案,而红色字体显示错误的答案。

为了方便读者阅读,(如果非中文)下面的蓝色(或红色)字体的部分均进行中文翻译。

▲General QA 的示例。
▲OCR-related QA 示例。
▲科学理解的例子。
▲中国传统文化的范例。蓝色突出显示了出色的答案
▲目标定位的示例。
▲多图像对话示例。

最后,我们也可以在官方demo中进行试玩:

https://internvl.opengvlab.com

不得不说,这个效果真的很惊喜!不过也存在一些问题,比如说当用 InternVL 1.5 的 arxiv 首页询问的时候,它居然杜撰了自己的作者!看来多模态大模型上的幻觉问题也要赶紧着手研究了~

参考资料

[1]https://arxiv.org/abs/2312.14238
[2]https://github.com/OpenGVLab/InternVL
[3]https://internvl.opengvlab.com
[4]https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座护肤;锻炼;英语说车;何赛飞谈原生家庭时落泪AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!中国移动千亿多模态大模型发布,「九天-九九」风趣畅聊堪比GPT-4o北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!你认识“滇”字吗?元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!《每当我看到月亮》&《海与天》多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet年轻一代, 学习中文很有必要完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”清华开源全球首个基于U-ViT的多模态扩散大模型UniDiffuser未央播报 | 央行进一步推动优化支付服务工作 OpenAI发布多模态大模型GPT-4o超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4V国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4V国产端侧小模型超越 GPT-4V,「多模态」能力飞升8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquareGLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级个人感慨之112 关心孟子
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。