20亿参数模型要“干掉”Llama13B，面壁智能：老子打的就是精锐

2024-02-02 04:02

国内最早一批大模型研究者们建立的AI公司面壁智能，2月1日发布了一款“实验性”十足，但野心巨大的端侧“小参数”模型——MiniCPM-2B。

训练一些参数较小（一般指70亿参数以下）的大语言模型，让它们可以在端侧本地运行并同样实现强大的功能，是近来大模型领域的一个重要课题。微软推出了Phi2，谷歌的Gemini系列里专门开发了小尺寸的版本Nano，而有“欧洲OpenAI”之称的Mistral推出的mistral 7B，更是大受开源社区欢迎。

而现在面壁想用自己的方法，用MiniCPM来挑战一下它们的天花板。

高性能，低成本

“Mistral的mistral 7B在开源社区受到极大关注并且下载量也很大，它用70亿参数的模型战胜了130亿参数的模型，我们也想体现我们的效率，而我们要用20亿参数的模型干掉LLaMA130亿参数的的模型。”面壁智能CTO贾国洋在发布模型时说。

打的就是精锐。

那么这个以小搏大的模型表现如何？话不多说，先来看看它和对手们的对比情况。

根据其Github页面总结：

经过 SFT 后，MiniCPM 在公开综合性评测集上，MiniCPM 与 Mistral-7B相近（中文、数学、代码能力更优），整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
经过 DPO 后，MiniCPM 在当前最接近用户体感的评测集 MTBench上，MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。

这是MiniCPM-2B与同尺寸模型的性能评分对比图。

而在一系列的评分对比中，在使用DPO完成偏好对齐后，MiniCPM-2B模型在更接近人们日常使用体感的MT-Bench上的分数甚至还可以超过包括Llama2-70B-Chat在内的大模型。

不过在技术报告中，面壁智能也强调，这部分的评分中因为部分学习数据可能会让模型表现有利于MTBench的评测，例如让模型的生成风格更受GPT-4 Evaluator的喜欢，因此“希望研究者冷静看待榜单上的评测结果。例如，我们认为作为一个2B的小模型，可能在很多任务上仍然是弱于Llama2-70B-Chat的”。

评分感受还是比较抽象，我们看一看它的一些具体的能力展示。

代码生成能力：

数学能力：

加入了多语言干扰后的翻译表现：

而且，此次面壁智能还把多模态版本的MiniCPM-V 部署在手机，首次跑通了多模态大模型在手机上的部署。面壁智能展示了一个端侧模型离线状态下，用户在偏远山上想要识别一个蘑菇是否有毒的场景。

另外，在达到这些效果的同时，它的成本也控制在很低的水平。发布会上，面壁智能CEO李大海表示，一张1080/2080可高效参数微调，一张3090/4090可全参数微调，一台机器可持续训练 MiniCPM，二次开发成本较低。

“我们看中了端侧模型的另外一点就是成本。成本决定大模型的利润率，2023年我们做非常多商业化实验的时候，看到很多应用场景下的客户都会非常关注模型的成本，虽然千亿模型效果很好，但是当它真的要大规模部署的时候，其实还是有很多的障碍。而在端上模型当中，从成本角度让推理成本实现断崖式下跌，甚至可以实现CPU推理，进而实现成本更低。”他说。

“规模飙升的技术竞赛中，成本是大模型隐形竞争力，人们需要省钱大模型。”

把训练模型变成实验科学

为什么能实现上面提到的这些成绩？面对这个问题，面壁智能的团队非常自信。

在发布会上，硅星人/品玩CEO骆轶航和面壁智能技术核心团队做了对话

“我们没有追赶谁，我们一直是领先的。”面壁智能的联合创始人，清华大学长聘副教授刘知远对我说。

“尤其在Scaling的方面。”他的研究方向从深度学习、BERT、大模型到Agent，都在今天大模型的发展方向上。

据他透露，Mistral也经常联系他们和他们讨论面壁提出的许多研究方法。

在此次模型开发过程中，面壁智能胡声鼎是那个掌勺者。“开发模型就像做菜，这是我们的三星大厨。”刘知远介绍。

胡声鼎同时也是清华大学计算机系博士，他在技术博客和当天的分享中简单介绍了模型背后的一些技术亮点。

总体上，它体现出一种把模型训练科学化，变成某种实验科学的思路。

最重要的一个体现是模型沙盒。

简单说，就是在一些更小的参数，比如0.009B（也就是900万参数）的模型上做沙盒实验，并且是大量的实验，然后通过试验结果，研究出在学习率、Batchsize以及超参数稳定的最佳“配方”，然后预估并使用到真正要训练的更大规模参数的模型上。这理论上避免了诸如每次训练模型都要重新进行超参数调整等在成本和技术上都不太现实的做法。

这个实验的过程事实上也是面壁智能做出技术路线判断的过程。

它首先是一系列具体的判断：

比如模型最关键的超参数——学习率并不会因为规模扩大而大幅度改变，比如在损失函数与token数变化的研究上，挑战了OpenAI提出的不消耗过多步数的策略，转而追求最少token量；比如在学习率调度器上推翻了现在最主流的Cosine LRS，提出了在学习过程中初期表现略差于Cosine LRS但后期会实现“反超”从而整体更优的WSD调度器。

图源：MiniCPM技术博客

而且，让我觉得最有意思的是，面壁的一系列实验不只是研究某个单点的最优解，它还带来了一个新的可能：用实验的方式来真实解答一个问题——当你对一个固定大小的模型不停的训练下去，是不是其实可以比训练一个更大的模型效果更好？它带来的答案会直接决定你的技术方向。

根据实验，面壁智能团队表示，2B的MiniCPM的持续训练后可以接近甚至超过9B的Chinchilla Optimal 模型。

在这些具体判断之上，则是更“终局”的判断——大模型最终变成今天这个样子，很大程度就是OpenAI当初对GPT路线的“赌注”决定的，面壁的一系列研究和技术布局背后也有这个对AGI的它自己的赌注。

“我从技术角度来看，大模型的技术路线大方向已经确定了。就是一个纯data driven的方案，而预训练也好，这些都是它对应的具体方法。而这个和2023年之前大家一致认为的方案是非常不一样的。我们在2022年底之前一直以为自然语言处理的解决还需要十几年的时间，它需要把更多外部的知识放到模型，才能掌握常识知识。”刘知远对我说。

“但ChatGPT让我们发现它已经可以非常好地把常识学到，这个对于我来讲是一次非常大的教育。所以ChatGPT的出现意味着2023年整个自然语言处理领域进入到了打扫战场的状态——核心问题已经解决差不多了，剩下的都是怎么让它变得更高效。”

他认为接下来的六七年时间一个非常重要的竞争优势，就在于一个团队有没有足够强的技术上的原创探索能力。

“世界上从来没有人探索出来过把2B模型达到这么一个水平，今天我们可以达到，大家可以沿着这个方向跑，但我们可以比他们跑得更快，做更多的新的问题。这个至少是我们未来五六年里面我们的护城河，它不是单独的东西，而是我们强大的产研的团队，非常完美的清华大学自然语言处理实验室跟面壁智能联合的机制。”

此次发布的MiniCPM-2B也是一个系列模型的主力，面壁智能也对这系列模型做了全面的开源。