专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
作者丨赖文昕、王悦
编辑丨陈彩娴
2月1日,刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。
MiniCPM 2B 有着当之无愧的「小钢炮」称号,其炸裂的点在于,从规模大小和性能来看,仅用2B 规模和1T tokens精选数据,便已在多项主流评测榜单、中英文平均成绩中超越被称为“欧洲最佳大模型”的Mistral-7B。
在与其他同等规模大模型的对比中,面壁MiniCPM表现依旧领先,大幅超越了 Llama2-7B, Mistral7B,Gemini Nano,Qwen-1.8B等一众模型,甚至还能越级比肩 Llama2-13B、Falcon 40B和Cohere 54B此类比自己庞大数十倍规模的模型。
可以说,面壁智能这次扔出的“2B小钢炮”,炸出了超越Mistral-7B发布的效果,展示了端侧大语言模型的无限潜力
针对面壁智能本次发布的大模型成果,AI 科技评论独家对话面壁智能 CTO 曾国洋后发现,面壁这个刚成立一年的团队背后,是国内顶尖 AI 科学家更深厚的探索和积累。
端侧、高效、以小搏大——这是面壁智能 CTO 曾国洋给出了面壁智能发布大模型的关键词。
其中「高效」二字,是刻在面壁智能骨子里的基因,不仅体现在训练和推理上,也体现在参数上——用更小的参数达到更好效果。更多关于面壁智能团队背后的故事,欢迎添加作者:s1060788086、anna042023 来聊。
Mistral-7B 用 7B 的参数量战胜了 13B 参数量的模型。「为了展现面壁的效率,我们做到了用 2B 干掉Llama 的 13B,高下立见。」
在过去的几个月里,面壁智能团队做了上千次实验、模型的沙盒,去搜索各种各样的训练技巧、超参数等。找到了训练大模型最优秀的一组参数,并使用找到的这组参数训练了一个2B模型作为验证,最终得到了MiniCPM模型。从实际效果来看,确实也取得了比较好的效果,在 11 项主流测评榜单、中英文平均成绩中超越Mistral-7B:
在 与国内外同尺寸模型的性能对比上,MiniCPM-2B 的评分同样处于领先位置。
面壁智能之所以能做到在小尺寸模型技术的竞技场上“以小博大”,首先是因为具有全流程高效的 Infra,为大模型创业打好了地基。其全流程优化加速工具套件平台面壁ModelForce由训练框架BMTrain、推理框架BMINF、压缩框架BMCook和微调框架BMTune构成,能降低90%的训练成本,让推理加速10倍。
再者,面壁「模型沙盒」让大模型和小模型形成良性循环、高效训模。小模型预测大模型性能,大小模型共享超参数方案,以实现部分调整接近Cerebras-GPT的超参稳定模型规模扩增,达成最优Batchsize、学习率。另外固定模型倍增上限,使模型训练随时可以叫停,获得阶段最优的模型增长倍数。
在数据方面,面壁团队形成从数据治理到多维评测的闭环,牵引模型版本快速迭代,堪称现代化「数据工厂」。
在具体应用方面,面壁MiniCPM在语言、代码及多模态上均表现优秀。面壁MiniCPM具有更全面的通用与中文能力,Chat模型对答如流,在和人评最接近的MT-Bench指标中获得高分。面壁MiniCPM还能够自己编写自己的代码,其编程能力超越Mistral。另外,面壁MiniCPM创新实现了首批多模态上手机,具有当下同量级模型的最强多模态能力。
在模型发布会现场,面壁智能 CEO 李大海也现场演示了 MiniCPM-2B 的具体能力。在对话能力层面, MiniCPM-2B 的反应速度和真人反应的速度不相上下:
在模型门普遍的短板推理能力上,MiniCPM-2B 也能解决相对复杂的问题:
代码生成能力同样丝毫不逊色:
「小钢炮」性能突破至此,但其意义远不止表面上模型能力的提升,它更使得普通的、配置本身不高的端侧设备拥有搭载更强大模型的能力,拓展了大模型的应用边界和应用空间。
大模型时代,AI native 是必然的趋势。面壁智能在 MiniCPM-2B 的性能水到渠成后,选择用最小的规模,做最强的 AI。面壁智能还把多模态版本的MiniCPM-V 部署在手机,首批跑通了多模态大模型在手机上的部署。
更重要的是,端侧模型有很强的商业意义。它使得在端侧做应用这件事从不可能变成了可能。另外在端上,在智能终端上全天候的特性,让很多应用变得更加落地。
除了小钢炮之外,多模态大模型表现得同样吸睛,“面壁OmniLMM”跻身开源社区最强多模态模型之列,同规模能力领先。
发布会上,李大海同样现场展示了端侧模型在离线状态下的多模态问答能力:
12B 多模态交互问答的石头、剪刀、布案例验证下来,模型回答十分准确:
综合性能有较大优势的前提下,面壁 MiniCPM 的成本不升反降。
省钱也是小钢炮的核心优势之一,能够以极低的成本支持CPU推理,1元即可使用 1,700,000 tokens。团队内部更用「废卡拯救计划」调侃他们对显卡的极致使用能力,仅以 1 张卡全参数微调,消费级显卡也能训练大模型。
面壁MiniCPM量化版,在大小上压缩了75%,但性能基本无损耗,并且跑通国际主流手机与终端CPU芯片,发布多年以上的老机型也无压力。
基于足够强的大模型性能,面壁智能也推出了「大模型+ Agent」双引擎战略,目前做了些探索性的工作 XAgent、ChatDev 和 AgentVerse 等,目前还在寻求 Agent 更好的落地形式。
“我们没有追赶谁,在技术上我们一直是领先的。”面壁智能的联合创始人、清华大学长聘副教授刘知远在发布会上如是说到。
面壁科研团队由刘知远带领,一共发生过4次重要的技术方向推动,且纷纷经过了历史的考验:涉及到从深度学习、BERT、大模型到Agent的几次技术转型。
刘知远团队属于清华大学自然语言处理实验室 THUNLP,从 2018 年BERT轰动面世后便开始研究预训练语言模型, 并于2019 年推出世界第一个知识指导的预训练语言模型“ERNIE”,也是2020 年 6 月 GPT-3 推出后国内第一批大模型的忠实拥趸研究者。
2020 年刘知远团队参与智源悟道大模型项目,负责悟道中的“文源”,主要研究中文大模型,先后推出二十亿参数大模型 CPM 1.0 与千亿参数大模型 CPM 2.0。
2022年,刘知远团队将高性能计算与大模型相结合的方法发表于 Nature子刊《Nature Communications》,是国内最早在大模型训练中引入分布式加速算法的团队之一。
面壁团队虽然成立不久,但其中核心成员是身经百战。从最开始的 CPM 1、2、3 到 CPM-Ant 、CPM-Bee 、CPM-Cricket,然后到最近的MiniCPM,面壁团队的核心成员都参与其中,其实MiniCPM可以看做CPM-D的中间实验版本。
曾国洋告诉 AI 科技评论,除了现在能发布的训得不错的模型之外,背后也训崩了很多模型。
「我们之前其实也经常走弯路,大模型训练其实是非常需要积累的。我一直觉得大家都清楚大模型训练的那些技术点,但是实际上真正去操作的时候有很多不好用技术来表达出来的内容,反而会成为训练大模型成功的重要因素,包括在训练过程中对各种意外的处理,对数据模型训练的认知等,这些就是我们在过程中持续积累到的东西,更像是一种经验性的能力。」
面壁团队所积累的处理异常的经验、数据的选择认知——这些是看不到的东西才是内功,需要在大模型当中持续发力的,才能构成真正意义上的壁垒。
被称为面壁团队中的「模型料理三星主厨」胡声鼎在发布会上说到:即使把「如何训好大模型的步骤」一步一步写下来,别的团队也不一定能做出来了,这其中更多的是一种经验。这好比,能拿到米其林三星主厨的菜谱也不一定能做得了三星大厨。
除了长期积累下来的经验,面壁智能团队自然也开创了新技术,其中比较关键的是WSD的调度器看,它相对cosine调度器有一定的优势,不只是让模型持续地训练。并且,面壁团队已经探索到这种调度器全局最优和局部最优的阶段分开了,分开之后可以探索局部最优的阶段吸收更好的。
其实,于面壁团队而言,无论是研发大模型还是小模型,两者差别并不大,无非是启动「1000亿」和「20亿」参数的区别而已。
这次发布2B模型,是验证面壁「模型沙盒」成千次实验的结果,相比于主流优秀方案做了很多改进,包括超参的调整方案,使得不需要在大模型上调优可以获得优秀的大模型,再比如改训练方案等。靠着踩1000次坑再爬起来总结经验的品质,面壁团队打磨出了其他团队不具备的能力
大模型在国内起步的早期阶段,曾国洋曾经连续几个月工作都不觉疲惫,「因为我很相信 AGI 会实现」。
面壁智能团队对 AGI 有很大的愿景。刘知远也表示,实现 AGI 需要我们做什么,我们就做什么。
AI 科技评论:「高效」是面壁团队的基因或追求吗?
曾国洋:我们确实在「高效」这方面一直都有所追求,包括在比较早的时候其实就开始做很多 Infra的工作,算是追求高效的体现吧。因为面壁也是比较早开始做大模型的一家公司,大模型之前在国内也是走过一些弯路,就包括大家其实就是在卷模型的参数量等。2021 年那段时间国内都卷得很疯狂,但卷完之后大家发现参数量能训到再大其实也没有意义,因为没办法让它有效落地。
所以对于大模型落地来说,效率是很关键的问题,需要控制成本来达到更好的效果,这样才能去扩展大模型的应用边界。换句话说,大模型的应用边界可以理解为它创造的价值减去它的成本。所以在这个过程中我们追求效率,就是为了追求让成本更低,创造的价值更多,扩展大模型的应用边界。
AI 科技评论:为什么会让面壁MiniCPM最开始的路径选择就是在端侧应用?
曾国洋:一方面是我们想要在小规模模型上验证『模型沙盒』得到的最优参数,另一方面是因为前段时间端侧模型也受到了很多媒体的报道和关注。我们发现2B模型正好能够跑在各种端侧设备上。其实2B模型本身其实是对我们在模型训练这一侧技术的验证,验证了用之前研究的技术来训一个模型确实能训好。然后正好也赶上了这个时间点,所以就想能不能让大模型真的在手机上跑起来,迸发出一些新的、有趣的应用案例。
AI 科技评论:2B模型已经能够满足或者集成想要的效果的话,是不是没有必要再做大了?
曾国洋:其实我们想是走两端。一个是我们做小规模模型,它其实能做更快的技术验证,成本更低。同时我们在更大的模型这一端,会把效率拉到极致,即扩大模型参数量,然后在大家都可以接受的成本下,看模型能达到的性能效果的上限,这其实是一个比较偏两端的方案。
AI 科技评论:在未来研究大模型用「以小博大」的方式会是一种趋势吗?
曾国洋:我觉得其实各家肯定都在做以小博大的事。因为我们在这方面做得非常突出,所以才做出这个效果。换句话来说,大家都会做大模型的效率优化,即达到同样的效果,要让模型规模更小,成本更低,这其实是大家都在做的事。
我觉得我们和其他人都会在这条线上持续发力。这一次的2B模型告诉我们,现在大模型还有很多没有挖掘的潜力,包括现在还没有充分达到2B模型的极限。也许在未来一到两年左右的时间,我们就有机会能够看到一个能在终端设备上跑起来、对标现在像 GPT 3.5 Turbo 这样水平的模型。
因为我们做了非常多实验,发现可以探索的东西还非常多,做一些探索就能看到模型效果、效率在持续提升。同时也能感受到,现在在端侧上,包括各大手机厂商其实也开始重视大模型能否运行在手机或终端上。未来一到两年我们在模型侧会继续发力,在硬件上也会持续更新迭代,所以我还是对这个事还是挺乐观的。
AI 科技评论:这些有待挖掘的潜力会体现在哪里呢?
曾国洋:这么多年我也训了挺多模型的,能很明显感受到,虽然模型规模一直没有特别大的变化,但在效果上是在飞速提升的。比如我们在 2020 年底时训练的第一个版本的模型 CPM 1,它其实和今天的 Mini CPM 的参数量差不多,但是从使用的感受上来说, Mini CPM就能感受到明显的提升。
在模型训练技术这一侧持续挖掘的话,我觉得还有更大的一些提升空间。包括我们现在做一些像Int4之类的量化,会发现就算把它从 16 bit 变成4 bit,效果都不会下降,也能看出里边肯定有一些水分之类的还没有完全榨干的东西。从这里我也能感受到,模型其实还有很多可以挖掘的潜力,包括我们去做模型预训练和在数据上的一些技术。
AI 科技评论:最开始的悟道模型,您从最初就参与了吗?
曾国洋:对,我特别早就参与了。其实说实话我觉得我真正被大模型吸引是在完成 CPM 1 的训练之后,当时我第一次感受到我是真正在做一个有智能的东西。虽然之前我也做过 CV 领域和NLP 领域,但那时候大家很多工作都是一些偏认知、识别的东西,但是大模型是真正有创造力。我当时就感觉它才是有智慧的东西。
AI 科技评论:您遇到过哪个非技术的难题让您印象深刻的吗?
曾国洋:模型训练里大家最容易遇到的问题是 loss 不收敛,容易训着训着就飞掉的问题。很多人看到 loss 飞掉会去反思,想去积累各种经验。但我们因为训崩过太多模型,在这个过程发现了其实往往不会是一种原因导致的,而是有可能是好几种不同意外、缺陷导致了同样的结果,很难用一种固定的手段去修掉,因为造成loss 飞掉的原因是多种多样的。
针对这些原因,我们得一个个去排查,才能找到根本原因。只有把根治了,才能让这个问题真的修好。但从之前一些公开的经验表明,大家遇到这些问题,通常都会比较笼统的说,跳过一段数据或者改一下训练learning rate 等等比较表面的操作。但更根本的其实得靠在这个过程中持续的积累,包括我昨天想了一个对模型的优化,模型崩掉就说明这个优化大概率是行不通的。
在这些看不到地方里,我们积累下来很多经验,就像走在路上摔了一跤,可能是因为鞋带松了,可能是因为地上有个坑,也可能是踩香蕉皮了,只有都踩过之后才知道,原来有这么多方法能让人摔跤。
AI 科技评论:面壁MiniCPM作为端侧大模型,具有什么独到优势?
曾国洋:一个模型的能力更强,能发挥的价值也会更高。我们在2B模型上做出能比肩Mistral-7B的效果,其实也能很大程度扩展模型的应用边界。Mistral-7B这样的模型在之前是必须在 GPU、云端上跑的,这样其实也限制了它在实际应用中范围,因为用户没有 GPU等设备,就可能跑不起来。
而对于一个2B模型来说,它是没有这些问题的,甚至能跑在手机上。2B模型也许以后就能直接内嵌在手机或者打包到各个应用里,以一种更轻便的方法能跑在更多的设备上,不用考虑用户到底有没有 GPU 这样的设备,因为都是能运行的。这样我们就能让大模型有更广阔的实际应用的空间。
我以前用Mistral-7B这类模型去做了一个应用,需要自己部署服务器才能让用户连上,才能发挥大模型的能力。而现在我可以把这个2B模型打包到我的应用 APP 里,直接发布到用户的手机上,用户都不用联网就能直接访问,大大节约了作为一个大模型应用开发者的成本,另一方面也能让模型在更多的场景被使用到,比如手机、汽车、音箱等,让万物都拥有智能,且是在非常低功耗的芯片上。这也是「Internet of Agents」的概念,发挥群体协作和更强大的智能。
AI 科技评论:为什么面壁会对Agent如此重视?
曾国洋:我们的认知是,一方面我们在降低大模型的成本,训练 Mini CPM,另一方面我们也在扩展它能力的边界和创造的价值。Agent 的技术是一个能让模型创造更多价值的一个技术,所以我们非常看重它。
大模型其实像人的大脑,有智能的决策、认知、判断能力,但只有大脑的话,它能做的事还不够。而Agent的技术相当于给它接上了双手,让它能使用外部工具和知识,并且我觉得将来Agent 还会继续发展,让模型能够像人一样真正地思考,接受反馈,自我进化,甚至能实现Agent之间更好的协作。这其实是我们对于Agent 这条路线未来的展望,我们觉得这是一条非常有前景的路线,因此我们目前在Agent 方面做了非常多的探索和研究,同时也发出了很多声音。
但毕竟Agent 是新的技术,所以目前还没办法说有一个非常清晰的规划,或者很笃定说这个技术一定这样做就成了,只是我们相信往这个方向做一定是对的。
AI 科技评论:面壁智能拥有全产品线,涵盖模型层的AI Infra+大模型,Agent智能体,以及基于「大模型 + Agent 」的上层应用。,在这其中是否会有侧重点?
曾国洋:其实虽然说这是几个产品线,但在我心里是一条线。Infra 支撑我们的模型能更快、更好、更强地训练,模型的能力又更好地支撑了Agent的技术,Agent技术就像模型能力的放大器一样,能够让模型发挥更大的价值。同时Infra 又能让模型成本更低,能运行在更多设备上,有更大空间,所以它们在我心中就是在一条线上。这也是我们对于「高效」的追求,在全链路上都是高效的,整个优化目标是为了让效率更高,让大模型应用空间更广。
本文作者:s1060788086、anna042023,欢迎添加微信,交流认知,互通有无。
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者