Redian新闻
>
面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!

公众号新闻
整理 | 褚杏娟

5 月 20 日,面壁智能小钢炮 MiniCPM 系列推出端侧多模态模型 MiniCPM-Llama3-V 2.5 并开源。据悉,该模型且支持 30+ 多种语言,并且具有以下特性:

  • 最强端侧多模态综合性能:超越多模态巨无霸 Gemini Pro 、GPT-4V;

  • OCR 能力 SOTA!9 倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快 150 倍!首次端侧系统级多模态加速。

MiniCPM-Llama3-V 2.5 开源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM 系列开源地址: 

https://github.com/OpenBMB/MiniCPM

Hugging Face 下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

8 B 端侧模型,
超越 GPT-4V、Gemini Pro

MiniCPM-Llama3-V 2.5 以 8B 端侧模型参数量级,贡献了惊艳的  OCR(光学字符识别)SOTA 成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。

模型雷达图

在综合评测权威平台 OpenCompass 上,MiniCPM-Llama3-V 2.5 以小博大,综合性能超越多模态“巨无霸” GPT-4V 和 Gemini Pro。

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。新一代 MiniCPM-Llama3-V 2.5  在 OCR 综合能⼒权威榜单 OCRBench 上,越级超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等标杆模型,实现了性能 SOTA。

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5 在 Object HalBench 榜单上超越了 GPT-4V 等众多模型(注:目标幻觉率应为 0)。

在旨在评估多模态模型的基本现实世界空间理解能力的 RealWorldQA 榜单上,MiniCPM-Llama3-V 2.5 再次超越 GPT-4V 和 Gemini Pro,这对 8B 模型而言难能可贵。

榜单成绩:OpenCompass | OCRBench | Object HalBench | RealWorldQA

快 150 倍!首次端侧系统级多模态加速

面壁智能首次进行端侧系统加速,MiniCPM-Llama3-V 2.5 目前已可以高效部署在手机端。

在图像编码方面,面壁首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在 MiniCPM-Llama3-V 2.5 图像编码方面实现了 150 倍加速提升。

在语言模型推理方面,目前开源社区的报告结果中,Llama 3 语言模型在手机端侧的解码速度在 0.5 token/s 上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过 CPU、编译优化、显存管理等优化方式,将 MiniCPM-Llama3-V 2.5 在手机端的语言解码速度提升到 3-4 token/s。

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5 可支持 30+ 多种语言,包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

多语言版本 LLaVABench 评测结果

9 倍像素更清晰,
难图长图长文本精准识别

OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5 对于难图、长图、长文本的精准识别,再度带来出众表现。

面壁自研了高清图像高效编码技术,可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比,包括 1:9 极限比例,突破了传统技术仅能识别 20 万像素小图的瓶颈。

另外,MiniCPM-Llama3-V 2.5 在复杂推理能力上进一步突破:可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题。该模型不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

比如,给定一张充满繁密字迹的建筑风景图,人眼难以辨别,但 MiniCPM-Llama3-V 2.5 能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计:

把同样的问题抛给 GPT-4 V ,结果并不理想:

另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5 不仅能够看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明:

全文 OCR 能力方面,输入一张手机拍摄的火车票,MiniCPM-Llama3-V 2.5 也能准确提取信息,给出无误的"json"格式输出:

 报告推荐

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI 应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国 AGI 市场发展研究报告 2024》,欢迎大家扫码关注「AI 前线」公众号,回复「AGI」领取。

活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。目前会议进入 9 折购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。


今日荐文


26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


OpenAI 联创 Ilya 离职内幕曝光;微软中国AI团队集体打包去美国?最新回应;华为回应大模型发布会演示造假 | AI周报


AICon 2024 重磅开幕!60 余位大咖干货集结:20 年来云首次革命性变化、大模型才刚刚开始……


老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

你也「在看」吗?👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型今日arXiv最热NLP大模型论文:超越GPT-4,清华发布网页导航智能体AutoWebGLM国产端侧小模型超越 GPT-4V,「多模态」能力飞升面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B完全开源!谢赛宁发布最新SOTA多模态模型Cambrian-1,“不与GPT-4V媲美”梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级斯坦福某 AI 团队抄袭面壁智能开源大模型/董明珠称「打工人要休闲可以辞职」/百度被《时代》周刊评为全球领导者对话面壁智能刘知远:大模型将有新的「摩尔定律」,AGI 时代的智能终端未必是手机26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare我的手机是iPhone 15 Pro Max,电脑是MacBook Pro M3 Max。手表是apple watch。我的家世首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!AI早知道|月之暗面回应Kimi推出付费方案;面壁智能推出多模态模型刚看了这介绍,很期待iPhone 16 Pro,想入国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座【詩評】红玫寂无主上海AI Lab开源首个可替代GPT-4V的多模态大模型Roborock S8 pro ultra 拖地吸尘器好价$999.99回归, 买新款S8 MaxV 也有好deal安谋科技杨磊:抢占端侧大模型部署制高点,NPU将为端侧提供关键动力丨GenAICon 2024人大系多模态模型迈向AGI:首次实现自主更新,写真视频生成力压Sora编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon阿里发布大模型发布图结构长文本处理智能体,超越GPT-4-128k可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术GPT斯坦福团队抄袭国产大模型,面壁智能创始人:受到国际认可/百度被《时代》周刊评为全球领导者/特斯拉回应「单踏板模式被禁」传言大雪纷飞果家今天发布M4芯片加持,再次“史上最强 iPad Pro”。还有新iPad air和pencil pro。买买买!上海生死签证:十七岁犹太少年与何凤山多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro余承东谈智选车:卖 30 万元以下都亏损/面壁智能 CEO 谈 Apple 智能/特斯拉 FSD 将在上海落地试点多幸运,我有个我们AGI 加速降临!人大系多模态模型首次实现自主更新,写真视频生成力压 Sora
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。