Redian新闻
>
面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro

面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro

公众号新闻

面壁小钢炮 MiniCPM 系列,再次推出最强端侧多模态模型 MiniCPM-Llama3-V 2.5,且支持 30+ 多种语言:
  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V
  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别
  • 图像编码快 150 倍!首次端侧系统级多模态加速

MiniCPM  是以「以小博大」著称的旗舰端侧模型,也不断推新端侧多模态能力天花板—— MiniCPM-Llama3-V 2.5 实现了「以最小参数,撬动最强性能」的最佳平衡点。

OpenCompass 榜单变化显示小参数、高性能模型成为趋势


随着大模型参数愈益降低、端侧算力愈益增强,高性能端侧模型势头强劲。而手机、PC等智能终端设备因其高频的影像视觉处理需求,对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。
从面壁「小钢炮」三月三级跳的迅猛进化来看,推动推理成本大幅降低、大模型高效落地,胜利在望!

 ➤  MiniCPM-Llama3-V 2.5 开源地址:

🔗 https://github.com/OpenBMB/MiniCPM-V

 ➤  MiniCPM 系列开源地址:

🔗 https://github.com/OpenBMB/MiniCPM

 ➤  Hugging Face 下载地址:

🔗 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

1

OCR 能力SOTA+最强端侧多模态,8B端侧模型,超越GPT-4V,Gemini Pro

这一次,MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的  OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。

模型雷达图显示 MiniCPM-Llama3-V 2.5 综合能力水平全面优秀
在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。
OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5  在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。
在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。
在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。
👇🏻
榜单成绩
OpenCompass | OCRBench | Object HalBench | RealWorldQA

1

  快150倍!首次端侧系统级多模态加速,支持 30+预言,拥抱开源社区

首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 已高效部署手机。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,我们将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。

此处 GIF 为 2 倍速,我们正进一步加速优化中
有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。
基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。
现在,上百个国家的几十亿人口,终于可以自如使用母语和端侧大模型交流,不再游离于前沿科技发展的主线,也因此享有更多AI应用落地、生活品质提升与参与科技角逐的可能性。真正让更多人享受大模型的乐趣!
多语言案例展示(语言加速工作正在进行,此处为2倍速)
多语言版本 LLaVABench 评测结果,MiniCPM-Llama3-V 2.5 对话能力更胜一筹
1
   9倍像素更清晰,难图长图长文本精准识别

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现!

面壁自研高清图像高效编码技术,我们可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、甚至「有点变态」的 1:9 极限比例图像,突破了传统技术仅能识别 20 万像素小图的瓶颈。

此前,MiniCPM-V 系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。

技术升级, MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破。可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,堪称大模型中的“小福尔摩斯”。

复杂推理能力使得模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

比如给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计,令人会心一笑。

把同样的问题抛给GPT-4 V ,结果并不理想。

另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系 ,还能给出清晰易懂的解释说明。

给妈妈转发一张亚洲饮食金字塔图,但她读不懂英文?MiniCPM-Llama3-V 2.5 凭借出色的推理能力,不仅深入理解分析图像里的饮食类型和分布,还能洞察背后的营养均衡需求,进行智能化搭配组合,直接一次性用中文推荐出满满一周的三餐食谱。

全文OCR能力方面,结构化信息提取能力的提升,对于长图长文本的精准识别大有帮助。

例如输入一张包含稠密信息的长文长图,MiniCPM-Llama3-V 2.5 一字不差地识别出了全文。


再给一张要翻阅好几屏的图文复杂交错的长图难图长文本,MiniCPM-Llama3-V 2.5 也能精准给出正确的回答。

再输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出。

最后,面壁是开源社区的热心贡献者,也是受益者。本次 MiniCPM-Llama3-V 2.5 的飞跃表现依托于面壁团队对多模态技术的创新打磨,更离不开 Llama3-8B-Instruct 作为基座模型的性能基础。
感谢世界优秀同行的卓越工作,令我们站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科学无垠之处。
我们也将持续回报社区,开源更多优秀模型、数据、infra 工具等,将开源开放的星火播撒世界协作创新之苍穹。
 ➤  MiniCPM-Llama3-V 2.5 开源地址:
🔗 https://github.com/OpenBMB/MiniCPM-V
 ➤  MiniCPM 系列开源地址:
🔗 https://github.com/OpenBMB/MiniCPM
 ➤  Hugging Face 下载地址:
🔗 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
点个在看,再走吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生快手上线自研文生图大模型“可图”,参数规模达十亿级一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4VGLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级未央播报 | 央行进一步推动优化支付服务工作 OpenAI发布多模态大模型GPT-4o刚看了这介绍,很期待iPhone 16 Pro,想入可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA《路口》巴郞未央播报 | 中国10亿参数规模以上大模型数量已超100个 Swift将推出央行数字货币互联平台统一所有模态的3D范式来了!Any2Point:仅需训练1%的参数量,超越SOTA!Roborock S8 pro ultra 拖地吸尘器好价$999.99回归, 买新款S8 MaxV 也有好deal微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!掀翻 GPT-4V 的国产「小钢炮」,可能会是华为小米们对抗 AI iPhone 的关键武器回国杂记(2306)回国后最先与老同事欢聚一堂GPTGPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程?国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键《拾梦初衷》巴郞国产端侧小模型超越 GPT-4V,「多模态」能力飞升GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4美股基本面 - 2024_03_22 * 晨报 * 美银:美联储会议前夕美股遭遇大规模资金外流。英镑兑美元跌至一个月低点 围绕上海AI Lab开源首个可替代GPT-4V的多模态大模型AI早知道|月之暗面回应Kimi推出付费方案;面壁智能推出多模态模型字节跳动大模型首次全员亮相:一口气9个,价格低99%,没有参数规模和榜单分数果家今天发布M4芯片加持,再次“史上最强 iPad Pro”。还有新iPad air和pencil pro。买买买!37、长篇家庭伦理小说《嫁接 下》第十三章 问题男生(1)爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!一夜掀翻 GPT-4V 的国产「小钢炮」,可能会是华为小米们对抗 AI iPhone 的关键武器手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据李彦宏称百度11%搜索结果由AI生成/iPhone 16 Pro Max电池密度或提升/智源研究院发布多模型评估结果参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?我的手机是iPhone 15 Pro Max,电脑是MacBook Pro M3 Max。手表是apple watch。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。