面壁发布多模态小钢炮仅仅 8B 参数规模，超越 GPT-4V 和 Gemini Pro

公众号新闻

2024-05-21 02:05

面壁小钢炮 MiniCPM 系列，再次推出最强端侧多模态模型 MiniCPM-Llama3-V 2.5，且支持 30+ 多种语言：

最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V
OCR 能力 SOTA！9 倍像素更清晰，难图长图长文本精准识别
图像编码快 150 倍！首次端侧系统级多模态加速

MiniCPM 是以「以小博大」著称的旗舰端侧模型，也不断推新端侧多模态能力天花板—— MiniCPM-Llama3-V 2.5 实现了「以最小参数，撬动最强性能」的最佳平衡点。

OpenCompass 榜单变化显示小参数、高性能模型成为趋势

随着大模型参数愈益降低、端侧算力愈益增强，高性能端侧模型势头强劲。而手机、PC等智能终端设备因其高频的影像视觉处理需求，对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。

从面壁「小钢炮」三月三级跳的迅猛进化来看，推动推理成本大幅降低、大模型高效落地，胜利在望！

➤ MiniCPM-Llama3-V 2.5 开源地址：

🔗 https://github.com/OpenBMB/MiniCPM-V

➤ MiniCPM 系列开源地址：

🔗 https://github.com/OpenBMB/MiniCPM

➤ Hugging Face 下载地址：

🔗 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

OCR 能力SOTA+最强端侧多模态，8B端侧模型，超越GPT-4V，Gemini Pro

这一次，MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级，贡献了惊艳的 OCR（光学字符识别）SOTA 成绩，以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。

模型雷达图显示 MiniCPM-Llama3-V 2.5 综合能力水平全面优秀

在综合评测权威平台 OpenCompass 上，MiniCPM-Llama3-V 2.5 以小博大，综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

OCR（光学字符识别）是多模态大模型最重要的能力之一，也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5 在 OCR 综合能⼒权威榜单 OCRBench 上，越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型，实现了性能 SOTA。

在评估多模态大模型性能可靠性的重要指标——幻觉能力上，MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型（注：目标幻觉率应为 0）。

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上，MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro，这对 8B 模型而言难能可贵。

👇🏻

榜单成绩

OpenCompass | OCRBench | Object HalBench | RealWorldQA

快150倍！首次端侧系统级多模态加速，支持 30+预言，拥抱开源社区

首次进行端侧系统加速，MiniCPM-Llama3-V 2.5 已高效部署手机。

在图像编码方面，面壁首次整合 NPU 和 CPU 加速框架，并结合显存管理、编译优化技术，在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面，目前开源社区的报告结果中，Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下，相比之下，多模态大模型的端侧运行面临着更大的效率挑战，经过 CPU、编译优化、显存管理等优化方式，我们将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

目前，语言模型的图像编码加速也在进行中，更灵敏互动体验即将到来。