Redian新闻
>
20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐

20亿参数模型要“干掉”Llama13B,面壁智能:老子打的就是精锐

科技

国内最早一批大模型研究者们建立的AI公司面壁智能,2月1日发布了一款“实验性”十足,但野心巨大的端侧“小参数”模型——MiniCPM-2B。
训练一些参数较小(一般指70亿参数以下)的大语言模型,让它们可以在端侧本地运行并同样实现强大的功能,是近来大模型领域的一个重要课题。微软推出了Phi2,谷歌的Gemini系列里专门开发了小尺寸的版本Nano,而有“欧洲OpenAI”之称的Mistral推出的mistral 7B,更是大受开源社区欢迎。
而现在面壁想用自己的方法,用MiniCPM来挑战一下它们的天花板。


高性能,低成本

“Mistral的mistral 7B在开源社区受到极大关注并且下载量也很大,它用70亿参数的模型战胜了130亿参数的模型,我们也想体现我们的效率,而我们要用20亿参数的模型干掉LLaMA130亿参数的的模型。”面壁智能CTO贾国洋在发布模型时说。
打的就是精锐。
那么这个以小搏大的模型表现如何?话不多说,先来看看它和对手们的对比情况。
根据其Github页面总结:
  • 经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
  • 经过 DPO 后,MiniCPM 在当前最接近用户体感的评测集 MTBench上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。
这是MiniCPM-2B与同尺寸模型的性能评分对比图。
而在一系列的评分对比中,在使用DPO完成偏好对齐后,MiniCPM-2B模型在更接近人们日常使用体感的MT-Bench上的分数甚至还可以超过包括Llama2-70B-Chat在内的大模型。
不过在技术报告中,面壁智能也强调,这部分的评分中因为部分学习数据可能会让模型表现有利于MTBench的评测,例如让模型的生成风格更受GPT-4 Evaluator的喜欢,因此“希望研究者冷静看待榜单上的评测结果。例如,我们认为作为一个2B的小模型,可能在很多任务上仍然是弱于Llama2-70B-Chat的”。
评分感受还是比较抽象,我们看一看它的一些具体的能力展示。
代码生成能力:
数学能力:
加入了多语言干扰后的翻译表现:
而且,此次面壁智能还把多模态版本的MiniCPM-V 部署在手机,首次跑通了多模态大模型在手机上的部署。面壁智能展示了一个端侧模型离线状态下,用户在偏远山上想要识别一个蘑菇是否有毒的场景。
另外,在达到这些效果的同时,它的成本也控制在很低的水平。发布会上,面壁智能CEO李大海表示,一张1080/2080可高效参数微调,一张3090/4090可全参数微调,一台机器可持续训练 MiniCPM,二次开发成本较低。
“我们看中了端侧模型的另外一点就是成本。成本决定大模型的利润率,2023年我们做非常多商业化实验的时候,看到很多应用场景下的客户都会非常关注模型的成本,虽然千亿模型效果很好,但是当它真的要大规模部署的时候,其实还是有很多的障碍。而在端上模型当中,从成本角度让推理成本实现断崖式下跌,甚至可以实现CPU推理,进而实现成本更低。”他说。
“规模飙升的技术竞赛中,成本是大模型隐形竞争力,人们需要省钱大模型。”


把训练模型变成实验科学

为什么能实现上面提到的这些成绩?面对这个问题,面壁智能的团队非常自信。

在发布会上,硅星人/品玩CEO骆轶航和面壁智能技术核心团队做了对话
“我们没有追赶谁,我们一直是领先的。”面壁智能的联合创始人,清华大学长聘副教授刘知远对我说。
“尤其在Scaling的方面。”他的研究方向从深度学习、BERT、大模型到Agent,都在今天大模型的发展方向上。
据他透露,Mistral也经常联系他们和他们讨论面壁提出的许多研究方法。
在此次模型开发过程中,面壁智能胡声鼎是那个掌勺者。“开发模型就像做菜,这是我们的三星大厨。”刘知远介绍。
胡声鼎同时也是清华大学计算机系博士,他在技术博客和当天的分享中简单介绍了模型背后的一些技术亮点。
总体上,它体现出一种把模型训练科学化,变成某种实验科学的思路。
最重要的一个体现是模型沙盒。
简单说,就是在一些更小的参数,比如0.009B(也就是900万参数)的模型上做沙盒实验,并且是大量的实验,然后通过试验结果,研究出在学习率、Batchsize以及超参数稳定的最佳“配方”,然后预估并使用到真正要训练的更大规模参数的模型上。这理论上避免了诸如每次训练模型都要重新进行超参数调整等在成本和技术上都不太现实的做法。
这个实验的过程事实上也是面壁智能做出技术路线判断的过程。
它首先是一系列具体的判断:
比如模型最关键的超参数——学习率并不会因为规模扩大而大幅度改变,比如在损失函数与token数变化的研究上,挑战了OpenAI提出的不消耗过多步数的策略,转而追求最少token量;比如在学习率调度器上推翻了现在最主流的Cosine LRS,提出了在学习过程中初期表现略差于Cosine LRS但后期会实现“反超”从而整体更优的WSD调度器。

图源:MiniCPM技术博客
而且,让我觉得最有意思的是,面壁的一系列实验不只是研究某个单点的最优解,它还带来了一个新的可能:用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去,是不是其实可以比训练一个更大的模型效果更好?它带来的答案会直接决定你的技术方向。
根据实验,面壁智能团队表示,2B的MiniCPM的持续训练后可以接近甚至超过9B的Chinchilla Optimal 模型。
在这些具体判断之上,则是更“终局”的判断——大模型最终变成今天这个样子,很大程度就是OpenAI当初对GPT路线的“赌注”决定的,面壁的一系列研究和技术布局背后也有这个对AGI的它自己的赌注。
“我从技术角度来看,大模型的技术路线大方向已经确定了。就是一个纯data driven的方案,而预训练也好,这些都是它对应的具体方法。而这个和2023年之前大家一致认为的方案是非常不一样的。我们在2022年底之前一直以为自然语言处理的解决还需要十几年的时间,它需要把更多外部的知识放到模型,才能掌握常识知识。”刘知远对我说。
“但ChatGPT让我们发现它已经可以非常好地把常识学到,这个对于我来讲是一次非常大的教育。所以ChatGPT的出现意味着2023年整个自然语言处理领域进入到了打扫战场的状态——核心问题已经解决差不多了,剩下的都是怎么让它变得更高效。”
他认为接下来的六七年时间一个非常重要的竞争优势,就在于一个团队有没有足够强的技术上的原创探索能力。
“世界上从来没有人探索出来过把2B模型达到这么一个水平,今天我们可以达到,大家可以沿着这个方向跑,但我们可以比他们跑得更快,做更多的新的问题。这个至少是我们未来五六年里面我们的护城河,它不是单独的东西,而是我们强大的产研的团队,非常完美的清华大学自然语言处理实验室跟面壁智能联合的机制。”
此次发布的MiniCPM-2B也是一个系列模型的主力,面壁智能也对这系列模型做了全面的开源。
  • 基于MiniCPM-2B的指令微调与人类偏好对MiniCPM-2B-SFT/DPO。
  • 基于MiniCPM-2B的多模态模型MiniCPM-V,能力超越基于Phi-2的同参数级别多模态模型。
  • MiniCPM-2B-SFT/DPO的Int4量化版MiniCPM-2B-SFT/DPO-Int4
  • 基于MLC-LLM、LLMFarm开发的MiniCPM手机端程序,文本及多模态模型均可在手机端进行推理。
想要体验这些模型的开发者可以去以下链接下载体验:
https://github.com/OpenBMB/MiniCPM
技术博客的更多细节可以在此找到:
https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a


欢迎加入这个星球,见证硅基时代发展↓

点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
家居修理系列:保温篇(3)地下室供暖管道的保暖当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报大模型「瘦身」进手机,面壁智能发布性能小钢炮 MiniCPM微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相大模型应用,最重要的是逻辑推理能力|面壁智能李大海@MEET2024活久见的导游未央播报 | 中国10亿参数规模以上大模型数量已超100个 Swift将推出央行数字货币互联平台6062 血壮山河之随枣会战 第三章 16傅盛的AI大课(4):企业专用大模型,百亿参数就够了新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题世界第一餐---麦当劳快餐开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有76、长篇民国小说《永泰里》第十五章 黄雀在后(6)全球最强开源模型一夜易主,1320亿参数推理飙升2倍拆掉英伟达护城河,细节曝光!世界最快超算用3072块AMD GPU训完超万亿参数LLM清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!支持百亿参数大模型、卢伟冰现场官宣小米首发,高通骁龙8s Gen3发布告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩全球最强开源模型一夜易主,1320亿参数推理飙升2倍!马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星傅盛揭穿OpenAI「阳谋」,引130万人围观!百亿参数模型帮老板打王者,一张3060就能跑英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选2亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」“干掉他们,就没人管我”,河南18岁高中生,花60万雇凶杀父弑姐号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。