Redian新闻
>
2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源

科技

机器之心报道

编辑:泽南

千元机也能本地运行。

在大模型不断向着大体量方向前进的同时,最近一段时间,人们在优化和部署方面也取得了成果。


2 月 1 日,面壁智能联合清华 NLP 实验室在北京正式发布了旗舰端侧大模型「面壁 MiniCPM」。新一代大模型被称为「性能小钢炮」,直接拥抱终端部署,同时也具有同量级最强的多模态能力。


面壁智能本次提出的 MiniCPM 2B 参数量仅有 20 亿,使用 1T token 的精选数据训练。这是一个参数量上与 2018 年 BERT 同级的模型,面壁智能在其之上实现了极致的性能优化与成本控制,让该模型可以「越级打怪」。


面壁智能联合创始人、CEO 李大海将新模型与业内知名开源大模型 Mistral-7B 进行了对比,在多项主流评测榜单上,MiniCPM 2B 的性能全面超越了后者。



与微软近期提出的「小模型」Phi-2 相比,MiniCPM 也有很大优势。



李大海表示,面壁智能的新模型还能越级实现 13B、30B 甚至 40B 模型的能力。在最接近用户体验的评测榜单 MT-Bench 上,MiniCPM 取得了 7 分的成绩(GPT-4-Turbo 为 9 分)。



在现场,面壁智能也演示了 MiniCPM 的实际应用效果。虽然参数量不大,但该模型可以实现文本翻译、角色扮演等诸多大模型应有的能力,并拥有丰富的知识,难度较高的代码解释任务也不在话下。



因为能够部署在端侧,在面临一些突发事件时,MiniCPM 也可以给人们提供及时帮助:



最近,各家手机厂商纷纷提出了端侧大模型,在把大语言模型压缩到较小体量之后,我们就能用它连接更多场景,在算力、内存受限的情况下获得更高程度的智能。相比之下,面壁智能提出的新技术更加轻便,可适用于更低配置,或较早期型号的手机。


据面壁智能介绍,MiniCPM 端侧模型经历了 Int4 量化后压缩了 75% 体量,只占用 2G 内存,与此同时性能几乎没有损失,因此已在各类常见型号的手机上实现了跑通。



因为支持移动端 CPU 的推理,MiniCPM 可以很大程度上节约使用成本。面壁智能为我们算了一笔账:一台搭载骁龙 855 的手机使用 MiniCPM,一块钱电费可处理 170 万 token,这个价格仅为云端运行的 Mistral-Medium 的 1%。


除了端侧模型,面壁智能还展示了其在多模态大模型方面的探索,并开源了 12B 参数量的 OmniLMM。在发布会上,面壁智能演示了 Gemini 发布时同款的石头剪刀布 demo。用英文向 AI 提问:我正在玩什么游戏?大模型会回答:石头剪子布。



与此同时,OmniLMM 也可以认出人类的手势,还能告诉你如果要赢应该出什么。


OmniLMM 还可以理解很多图片中的信息并进行推理,如地标建筑、电视台的台标、人们组织的活动等内容。



看来,我们距离真正多模态的大模型,以及新形态的应用已经不远了。


面壁智能大模型极致性能的背后,源于该公司长期以来的技术积累。自 2021 年,面壁智能就构建了高效的技术栈,集中在 Infra、算法和数据方法论三个方向。其中,自研的 BMTrain 高效训练框架至关重要。



在算法层面上,面壁智能也积累了模型沙盒体系,把大模型从炼丹提升到了实验科学的程度,在理论上不断寻找超参数和规模的最优解,如最优的 batch size、所有尺寸模型通用的超参数配置。


目前,面壁智能已积累了大量高质量的数据。在昨天的发布后,面壁智能开源了自身的新一代大模型系列(包含 MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4),以及训练 MiniCPM 两个阶段的数据配方以供行业参考。


开源地址(含技术报告):


MiniCPM GitHub:https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub:https://github.com/OpenBMB/OmniLMM


面壁智能源于清华 NLP 实验室,是在国内较早开展大模型研究的团队之一,其在 2018 年发布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能,去年经历了两轮融资,其推出的应用面壁露卡也拿到了网信办第二批大模型备案。


目前,面壁智能已经组建起 100 余人的科研团队,其中 80% 人员来自清北,平均年龄 28 岁。



面壁智能正在构建大模型 + Agent 的双引擎战略,希望能构建出更小规模、更快速度、更低成本的解决方案。


今年,面壁智能还将加快速度迭代新技术。「我们会在春节之后不断发布 MiniCPM 的新版本,性能还会进一步提升。我们要给大家春节的休息时间,」刘知远表示。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%章诒和:谁是文化界的告密者?32K上下文,Mistral 7B v0.2 基模型突然开源了首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法WHEN A ChILD IS BORN大模型「瘦身」进手机,面壁智能发布性能小钢炮 MiniCPM20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光大模型应用,最重要的是逻辑推理能力|面壁智能李大海@MEET2024首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生好吃的清水生煎包 — 皮酥、面软,汁浓、肉香今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%一位逝者生前写给自己的一封信世界顶尖多模态大模型开源!又是零一万物,又是李开复全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B杀疯了的开源专家模型 Mixtral 8x7B 论文公开啦!【往事追忆】:“大饼、油条、豆腐浆”以及“柯湘头”(上)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。