国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
新智元报道
新智元报道
【新智元导读】杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍。这是国产头部大模型公司献给开发者们最浪漫的520礼物。
拳打GPT-4V,脚踢Gemini Pro,仅仅8B参数就能击败多模态大模型王者。
今天,这个全球最强端侧多模态模型彻底「杀疯了」!
众所周知,端侧模型是AI发展的大趋势——从微软、谷歌再到苹果和英特尔,全球科技巨头都在争抢在PC和手机等端侧场景的AI落地。
但万万没想到的是,端侧模型的性能竟然可以这么猛,进化速度竟然可以这么快!
更令人惊喜的是,它不是来自国外大厂,而是出自国内大模型研发实力最头部的公司面壁智能——他们最新打造了面壁小钢炮MiniCPM-Llama3-V 2.5。
而且,选择在今天520这个特殊的日子推出,据说是送给开源社区的情人节礼物,简直浪漫的不像个科技公司~
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
那么这个小钢炮究竟有多强?何以能担当得起全球最强端侧多模态模型的称号?
总结来讲,MiniCPM-Llama3-V 2.5不仅支持30+多种语言,而且还具备:
最强端侧多模态综合性能:超越多模态巨无霸Gemini Pro、GPT-4V;
OCR能力SOTA!9倍像素更清晰,难图长图长文本精准识别;
图像编码快150倍!首次端侧系统级多模态加速。
下面这张图反映了在全球范围内,小参数、高性能的多模态大模型已经成为趋势;
而其中最亮眼的一颗星正是面壁小钢炮MiniCPM-Llama3-V 2.5。
MiniCPM-Llama3-V 2.5用实力证明了——模型不是只有「参数越大才能性能越好」,而是可以用最小参数撬动最强性能!
另外随着大模型参数愈益降低、端侧算力愈益增强,高性能端侧模型势头强劲。
而手机、PC等智能终端设备因其高频的影像视觉处理需求,对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。
从面壁「小钢炮」三月三级跳的迅猛进化来看,推动推理成本大幅降低、大模型高效落地,胜利在望。
OCR能力SOTA+最强端侧多模态
8B端侧模型,超越GPT-4V、Gemini Pro
这一次,MiniCPM-Llama3-V 2.5以8B端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。
模型雷达图,MiniCPM-Llama3-V 2.5综合能力水平全面优秀
在综合评测权威平台OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,综合性能超越多模态巨无霸GPT-4V和Gemini Pro。
OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。
新一代MiniCPM-Llama3-V 2.5 在OCR综合能⼒权威榜单OCRBench上,越级超越了Claude 3V Opus、Gemini Pro等标杆模型,实现了性能SOTA。
在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜单上超越了GPT-4V等众多模型(注:目标幻觉率应为0)。
在评估多模态模型的基本现实世界空间理解能力的RealWorldQA榜单上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,这对8B模型而言难能可贵。
快150倍!首次端侧系统级加速
支持30+多语言,拥抱世界开源社区
(此处GIF为2倍速演示,面壁正进一步加速优化中)
多语言案例展示(语言加速工作正在进行,此处为2倍速)
9倍像素更清晰
难图长图长文本精准识别
OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V 2.5对于难图、长图、长文本的精准识别,再度带来出众表现!
面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至「有点变态」的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。
此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。
技术升级,MiniCPM-Llama3-V 2.5在复杂推理能力上进一步突破。可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,堪称大模型中的「小福尔摩斯」。
复杂推理能力使得模型不仅能理解单的文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。
比如给定一张充满繁密字迹的建筑风景图,难以人眼辨别,但MiniCPM-Llama3-V 2.5能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计,令人会心一笑。
把同样的问题抛给GPT-4V,结果并不理想。
另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V 2.5不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明。
给妈妈转发一张亚洲饮食金字塔图,但她读不懂英文?
MiniCPM-Llama3-V 2.5凭借出色的推理能力,不仅深入理解分析图像里的饮食类型和分布,还能洞察背后的营养均衡需求,进行智能化搭配组合,直接一次性用中文推荐出满满一周的三餐食谱。
全文OCR能力方面,结构化信息提取能力的提升,对于长图长文本的精准识别大有帮助。
例如输入一张包含稠密信息的长文长图,MiniCPM-Llama3-V 2.5一字不差地识别出了全文。
再给一张要翻阅好几屏的图文复杂交错的长图难图长文本,MiniCPM-Llama3-V 2.5 也能精准给出正确的回答。
微信扫码关注该文公众号作者