26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要
作者|褚杏娟
“尽管有所谓的‘百模大战’,但实际上,国内真正能够成功训练大模型并掌握相关技术的团队并不多。”面壁智能 CTO 曾国洋说道,“不是简单地训练出一个模型就意味着掌握了全部技术。”
面壁智能起于一群学术极客。2021 年,清华大学计算机系长聘副教授刘知远的牵头成立了面壁智能成立,团队成员主要来自清华大学 NLP 实验室,而曾国洋成为这家初创公司的技术 1 号位。
曾国洋如今更以“天才少年”的形象被人熟知:8 岁学编程、高中去旷视实习、大二加入清华 NLP 实验室。人们通常很难将眼前这个 98 年的少年,跟“BMTrain、BMInf 主要作者”“OpenBMB 开源社区发起人”“当红大模型创业公司 CTO”等联系在一起,但 26 岁的他确实已经被推到了大模型时代的舞台中央。
2022 年 8 月,面壁智能开始公司化运作。直到去年年初,面壁智能只有 10 个人不到。当时的曾国洋依然活跃在编程一线。
作为程序员的曾国洋,是早期第一批申请试用 GitHub Copilot 的用户之一。他把 AI 看成是合作伙伴:AI 辅助程序员完成某些任务,而程序员则可以专注于更具创造性和战略性的工作。
“我很喜欢能够帮助加速编程的工具,”曾国洋说道,“我们不应该简单地认为只要代码被写出来,程序员的工作就完成了。编写代码只是程序员工作的一部分,如何将想法架构化以及合理划分模块并确保它们之间的有效协作等,都是程序员工作中相当重要的一部分。”
去年 5 月份后,面壁智能的规模越来越大,内部也设立了数据处理、模型训练、模型评测、算法、Infra、运维等不同的团队,以便更好地训练大模型。他的工作重心逐渐转为保证组织的有效协作。
在此期间,面壁智能迎来了许多对通用人工智能(AGI)充满激情和信仰的年轻人,“他们对 AGI 有浓厚的兴趣和追求,甚至愿意降薪过来。”
但在爆火之前,大模型并没有被广泛关注和应用,因此有相关经验的人才很少。这意味着几乎所有人都是从头开始学习和探索大模型。因此,团队在招揽新人时并不把大模型经验放在首位,而是更看重候选人的学习意愿、对新技术的热情、以及创新和解决问题的能力。
如今,面壁智能已经拥有超 100 人的科研团队,平均年龄 28 岁。这支团队的“清北”含量 80%,此外还有来自阿里、字节、百度等一线公司的骨干。
面壁智能没有给技术团队设立严格遵循 KPI 的管理形式,也没有在每一个非常具体的时间点设定明确规划,只是制定了一个大概的发展节奏和方向,因为合作的都是顶尖聪明的同事,而聪明人是会自己给自己定目标的。“我们要做的不是个人明星,而是明星团队,让聪明人能更好地合作、互相创造价值,一起创造更伟大的价值。”
面壁智能倾向“小而美”的技术团队。曾国洋强调,“小而美”并不是说团队规模小,而是指团队能够保持高效、灵活和创新的状态,成员能够频繁交流、头脑风暴,共同推动项目发展。对于技术创业公司来说,这样的团队更加敏捷和灵活,更容易产生新的思想和创新。每个成员能充分发挥自己的专长和创造力,同时快速响应市场变化和技术演变。
大模型团队的研发速度可以用争分夺秒来形容。面壁智能团队之前以两周为单位的内部迭代频率已经成为过去式,如今的节奏已经将近一周一迭代了。不断演进期间,也让面壁智能对自己做的事情有了更深入的思考。
国内庞大的市场规模为大模型创业提供了巨大的发展机遇,但 OpenAI 等国外公司的频繁迭代,确实也给了国内公司很大的技术压力。时至今日,很多公司的大模型发布出来时,都是对标的 OpenAI。
不过,曾国洋表示,“我们并不过分担忧落后的问题。”他分享了一段自己的经历:
ChatGPT 刚刚发布时,大家都赞叹它强大能力并讨论需要投入多少资源才能追赶上。后来,我自己投入了一些资金,买了几百条数据训练我们的模型。那次训练完测试后,我感受到了 ChatGPT 的那种效果。这个瞬间让我意识到,我们离它实际上并没有想象中那么遥远。
这个经历不仅让我自己感到振奋,也给了我们团队巨大的信心和动力。它证明了我们的努力和方向是正确的,只要我们继续坚持,完全有可能达到甚至超越行业领先者。
曾国洋有作为技术人的自信和思考。
“我们将 OpenAI 的成就和国际市场的竞争态势当作一种衡量自己的标杆,但不会盲目跟随。我们清楚地认识到,OpenAI 的技术路线可能并不适合我们,我们需要根据自己的实际情况和优势来制定发展策略。”曾国洋说道。
回顾 2023 年,面壁智能一直略显低调地走在大模型潮头:当年 5 月,发布了百亿参数的 CPM-Bee 大模型;年中,推出了千亿参数多模态模型 CPM-Cricket,综合能力对标 GPT-3.5、超越 LLaMA 2。
但在 2021 年、2022 年,国内在大模型上进行了大量探索,但最终都没有出现一个像 ChatGPT 的突破性应用。这让面壁智能的技术团队意识到,一味地追求模型参数量行不通,训练出一个大模型也不是最难的部分,更难的是如何突破模型的智能极限,在用同等参数、同等数据量情况下,更快速低成本地跑出更好的模型性能。
在曾国洋看来,未来大模型的发展应该朝着高效率的方向发展:大模型要为用户带来更大的价值和更广阔的商业空间,而这主要取决于模型创造的价值和创造这一价值所需的成本。
今年 2 月份推出的 MiniCPM 模型就是面壁智能对大模型高效探索的样板间。发布会上,面壁智能 CEO 李大海提出了要“以小搏大”,曾国洋也表示 MiniCPM 用 2B 干掉 LLaMA 的 13B。这意味着,面壁智能正式进入小尺寸端侧模型的竞技场,并且还将其完全开源,以帮助大模型行业整体技术发展。
起初,端侧模型并不在团队计划中,但是在测试中发现并验证了这么高性能的模型可以在手机上顺畅运行,这给团队打开了新世界的大门:一旦模型能够在手机上运行,他们就能在端侧探索出更多应用场景,如汽车、VR、智能家居场景等。
端侧模型的优势在于,不需要频繁与云端服务器通信,因此处理速度更快;在本地设备上运行,不需要消耗大量的网络带宽和云计算资源,具有成本优势;可以在没有网络连接的情况下仍然发挥作用,这意味着其可以在各种环境下稳定运行。
端侧小模型的性能天花板也远未达到。在模型的极致效率方面,通过模型压缩、量化、剪枝等,性能可以进一步优化。其次,端侧设备本身也存在优化空间,硬件制造商可以考虑如何在硬件设计上更好地支持大模型运行。
“我有预感,像 GPT-3.5 这样高水平的模型,可能在一两年内就能在移动设备,比如手机上,完全运行起来。”曾国洋说道。
在面壁智能看来,大小模型的技术有互相打通、增进提升之处。面壁 MiniCPM 基座模型、多模态模型等“小钢炮”系列领先的端侧模型,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,来实现高效、低成本的模型训练与应用。
变化,是大模型创业公司时刻要面对的问题。就像曾国洋常常被问到:Transformer 会不会突然被新的技术取代,从而让之前的投入都白费?
曾国洋对技术的快速变化并不过分担忧。“技术的发展是一个循序渐进的过程,不可能一夜之间出现一个全新的技术彻底颠覆现有的一切,而我们对此毫无准备。”在制定研发路径时,团队也是根据技术发展趋势和团队正在进行的工作,逐步调整目标和方向的。
对于市面上时不时蹦出来的热点模型或产品,曾国洋也表现得很冷静。
以 Sora 为例,曾国洋认为这显示出人们对创意性工作的兴趣,但对于是否跟随这一技术路线则需慎重。
“对于创业公司来说,需要格外考量战略目标与投入成本。即使是资金充裕的大公司,虽然有能力进行,但产出并不总是明确,短期内可能无法快速为大众提供实质性的服务。”曾国洋说道,面壁智能致力于将技术更好融入到实际产品和解决方案中。
对于前段时间刷屏的月之暗面 Kimi,曾国洋则一方面表示肯定,“Kimi 用户的增长迅速,表明它成功地解决了一些用户的痛点”,另一方面也反思自己,“可能没有充分利用我们在某些方面的先发优势。”
他特别提到了去年 5 月份面壁智能推出的一项读论文功能,虽然早就有了类似产品,但当时很可惜没有深入挖掘和清晰传达该功能可以解决的痛点。
但曾国洋强调,面壁智能的战略不会因为市场上的其他产品而改变。“我们一直在寻找大模型技术在普通人生活中的应用,并努力解决实际问题,而不仅仅是提供通用的解决方案。”
最近,李彦宏“开源模型会越来越落后”的观点也引起了很大的争议,有人“力挺”、有人“怒怼”。
对于面壁智能来说,开源是成立之初就做好的选择。正如李大海所说的:“我们一直是开源的受益者,所以也希望做出自己的贡献。并且,一款拥有良好口碑的开源模型,一定是经受住了方方面面的反复检验,在模型性能、体验等综合表现方面,拥有远超过 PPT 成绩的行业认可度。对于我们研发团队,一方面是 360 度无死角的考核压力,另一方面在挑战成功后也会有巨大的成就感。”
曾国洋坦诚,开源模型要追赶闭源模型确实会面临一定的挑战。这是因为在技术快速发展的过程中,闭源模型可能会因为有更好的知识产权保护和商业秘密而获得一定的优势。这种情况下,开源模型需要同时关注技术创新和与闭源模型保持竞争力。
但技术发展进入瓶颈期,那么开源和闭源模型可能就会在技术水平上趋于一致。在这种情况下,开源模型由于其开放性和社区的支持,会有更多的机会迎头赶上,甚至超越闭源模型。另外,开源模型的发展速度也取决于社区和市场的支持程度。如果有更多的个人和组织支持,那么开源生态的发展自然会更快。
此外也很重要的一点是,开源本身在技术影响力的建设方面是特别重要的,可以更好地让大众体验团队的技术实力,从而在人才吸引力和市场信心提升方面取得更强的竞争优势。
对于以科研人员为核心创始团队的大模型创业公司来说,在战略、产品、经营等方面需要更强的专业管理者。2023 年,时任知乎 CTO 的李大海加入面壁成为 CEO,面壁向更为成熟的大模型商业公司迈下重要一步。
今年 4 月,面壁智能又完成了新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。除了通过融资获取资金外,面壁智能目前已经能够通过提供服务和产品实现一定的收入。
面壁智能是国内最早探索 Agent 的大模型公司之一。对于 Agent,每个公司、每个人的理解都不一样。在面壁智能看来,Agent 的边界还未被定义。“模型是底座是一切应用的基础,然后 Agent 是支撑应用很重要的中间层,”李大海认为,无论 to B 还是 to C,本质上都是“大模型 + Agent 的上层应用”。
曾国洋认为,Agent 实际上是介于纯大模型和通用人工智能(AGI)之间的一个中间状态或节点。Agent 的模型能力必须足够强大,才能有足够的智能理解和处理请求和执行任务。Agent 还需要与外部系统和接口进行交互,来不断拓展能力边界。同时,还能够调用已有的知识库来提供检索和回答服务。
而对于大模型领域,李大海曾表示,大模型应用可能会百花齐放,然而通用千亿大模型不会太多,可能只有极少数的几家公司能够最终突出重围。这基本也是行业的共识,基座模型的角逐注定是千军万马过独木桥。
那么,大模型公司做应用是对应用侧公司的一种降维打击吗?
曾国洋坦言,大模型公司由于其先进的技术和强大的数据处理能力,可能会对那些依赖传统技术或缺乏足够技术储备的应用公司产生影响。如果应用公司的技术壁垒不够坚固,就可能会在大模型技术的快速发展和迭代中受到冲击。例如 Jasper AI 这样的 AI 内容提供商可能会因为 OpenAI 发布了新的 ChatGPT 版本而受到影响。
然而,他也表示,应用公司也有自己的竞争优势,比如对特定市场的深入理解、强大的客户关系和品牌忠诚度等,这些都是他们的“护城河”。
2024 年,行业更加重视应用落地是当前的大趋势,因为目前模型已经基本可用了。李大海判断,从今年开始,大模型厂商会开始出现分层。但这个分层不是因为市场,更多是因为技术门槛:大家需要更强的模型、更高效率的推理,更好的 Agent 等,但不是每家公司都能跟得上这样的技术要求。
“大模型是一个行业级别的机会,哪怕不做基座大模型,做应用层也有非常多的空间。但不是每家公司都能够持续做基座大模型的训练,期间有些公司可能就会转型做其他的事情。能活下来的公司一定是技术和产品市场能力都很强的选手。”李大海表示。
对于未来的大模型应用,曾国洋提出了一种分工模式:一些简单的、重复性的任务由小型的、特定领域的模型来处理;而更复杂的、需要高级认知能力的思考任务则可能由大型通用模型来完成。
最初,人们普遍认为 AI 会先替代那些繁琐的工作,从而让人类有更多的时间从事创造性的工作。但现实情况似乎相反,AI 开始在创作领域发挥作用,而人类仍然在处理日常的工作任务。
但曾国洋观察,大模型简化、加速开发任务是正在发生的事情。在创建大模型应用企业的交流中,技术人员并不需要掌握大量的编程代码,更重要的是他们对最终产品的理解能力。
“对于想要有效利用大模型的人来说,掌握大量的编程能力并不是必需的。更重要的是能够将自己的思维方式与模型同步,确保模型理解并执行自己的想法。”曾国洋说道,“让模型理解你的想法是一种独特的体验,它要求用户对模型的运作方式有一定的了解,并且能够清晰地表达自己的概念和目标。”对于其他公司来说,大模型技术会以不同形式的工具、功能出现。
面壁智能的目标是实现通用人工智能,团队为此有一个清晰的路线图,包括在文本模态上要达到的效果、未来向多模态和具身智能的转变等规划。2024 年,面壁智能将继续专注于模型的研发和优化。而面壁智能的选择能否助其顺利发展、实现自己的 AGI 理想,还需要时间来回答。
Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~
叮咚!微软邀请你来参会啦!
5 月 17 日,Azure OpenAI Day 将落地成都!来自微软的数位技术大咖将带你一站式了解 Sora、GPT-4 Vision 及 Azure OpenAI 等热门议题的最新进展!席位有限,速来抢位!
扫码或点击「阅读原文」,立即报名~
今日荐文
逃离 Windows!德国又宣布迁移到 Linux,涉及数万系统、3 万余人,官员吐苦水:Windows 对硬件要求太高了
大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?
国内大模型五虎融资仅是巨头零花钱?谷歌、微软、Meta:每季度拿不出100亿美元别玩AI
总市值近45亿港币,AIGC第一股出门问问流血上市!首日破发开跌超21%
曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报
你也「在看」吗?👇
微信扫码关注该文公众号作者