Redian新闻
>
26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要

26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要

科技
出品|InfQ 《大模型领航者》
访谈主持|霍太稳,极客邦科技创始人兼 CEO
访谈嘉宾|曾国洋,面壁智能 CTO

作者|褚杏娟

“尽管有所谓的‘百模大战’,但实际上,国内真正能够成功训练大模型并掌握相关技术的团队并不多。”面壁智能 CTO 曾国洋说道,“不是简单地训练出一个模型就意味着掌握了全部技术。”

面壁智能起于一群学术极客。2021 年,清华大学计算机系长聘副教授刘知远的牵头成立了面壁智能成立,团队成员主要来自清华大学 NLP 实验室,而曾国洋成为这家初创公司的技术 1 号位。

曾国洋如今更以“天才少年”的形象被人熟知:8 岁学编程、高中去旷视实习、大二加入清华 NLP 实验室。人们通常很难将眼前这个 98 年的少年,跟“BMTrain、BMInf 主要作者”“OpenBMB 开源社区发起人”“当红大模型创业公司 CTO”等联系在一起,但 26 岁的他确实已经被推到了大模型时代的舞台中央。

从自己 coding 到看别人 coding

2022 年 8 月,面壁智能开始公司化运作。直到去年年初,面壁智能只有 10 个人不到。当时的曾国洋依然活跃在编程一线。

作为程序员的曾国洋,是早期第一批申请试用 GitHub Copilot 的用户之一。他把 AI 看成是合作伙伴:AI 辅助程序员完成某些任务,而程序员则可以专注于更具创造性和战略性的工作。

“我很喜欢能够帮助加速编程的工具,”曾国洋说道,“我们不应该简单地认为只要代码被写出来,程序员的工作就完成了。编写代码只是程序员工作的一部分,如何将想法架构化以及合理划分模块并确保它们之间的有效协作等,都是程序员工作中相当重要的一部分。”

去年 5 月份后,面壁智能的规模越来越大,内部也设立了数据处理、模型训练、模型评测、算法、Infra、运维等不同的团队,以便更好地训练大模型。他的工作重心逐渐转为保证组织的有效协作。

在此期间,面壁智能迎来了许多对通用人工智能(AGI)充满激情和信仰的年轻人,“他们对 AGI 有浓厚的兴趣和追求,甚至愿意降薪过来。”

但在爆火之前,大模型并没有被广泛关注和应用,因此有相关经验的人才很少。这意味着几乎所有人都是从头开始学习和探索大模型。因此,团队在招揽新人时并不把大模型经验放在首位,而是更看重候选人的学习意愿、对新技术的热情、以及创新和解决问题的能力。

如今,面壁智能已经拥有超 100 人的科研团队,平均年龄 28 岁。这支团队的“清北”含量 80%,此外还有来自阿里、字节、百度等一线公司的骨干。

面壁智能没有给技术团队设立严格遵循 KPI 的管理形式,也没有在每一个非常具体的时间点设定明确规划,只是制定了一个大概的发展节奏和方向,因为合作的都是顶尖聪明的同事,而聪明人是会自己给自己定目标的。“我们要做的不是个人明星,而是明星团队,让聪明人能更好地合作、互相创造价值,一起创造更伟大的价值。”

面壁智能倾向“小而美”的技术团队。曾国洋强调,“小而美”并不是说团队规模小,而是指团队能够保持高效、灵活和创新的状态,成员能够频繁交流、头脑风暴,共同推动项目发展。对于技术创业公司来说,这样的团队更加敏捷和灵活,更容易产生新的思想和创新。每个成员能充分发挥自己的专长和创造力,同时快速响应市场变化和技术演变。

大模型团队的研发速度可以用争分夺秒来形容。面壁智能团队之前以两周为单位的内部迭代频率已经成为过去式,如今的节奏已经将近一周一迭代了。不断演进期间,也让面壁智能对自己做的事情有了更深入的思考。

不再一味追求参数

国内庞大的市场规模为大模型创业提供了巨大的发展机遇,但 OpenAI 等国外公司的频繁迭代,确实也给了国内公司很大的技术压力。时至今日,很多公司的大模型发布出来时,都是对标的 OpenAI。

不过,曾国洋表示,“我们并不过分担忧落后的问题。”他分享了一段自己的经历:

ChatGPT 刚刚发布时,大家都赞叹它强大能力并讨论需要投入多少资源才能追赶上。后来,我自己投入了一些资金,买了几百条数据训练我们的模型。那次训练完测试后,我感受到了 ChatGPT 的那种效果。这个瞬间让我意识到,我们离它实际上并没有想象中那么遥远。

这个经历不仅让我自己感到振奋,也给了我们团队巨大的信心和动力。它证明了我们的努力和方向是正确的,只要我们继续坚持,完全有可能达到甚至超越行业领先者。

曾国洋有作为技术人的自信和思考。

“我们将 OpenAI 的成就和国际市场的竞争态势当作一种衡量自己的标杆,但不会盲目跟随。我们清楚地认识到,OpenAI 的技术路线可能并不适合我们,我们需要根据自己的实际情况和优势来制定发展策略。”曾国洋说道。

回顾 2023 年,面壁智能一直略显低调地走在大模型潮头:当年 5 月,发布了百亿参数的 CPM-Bee 大模型;年中,推出了千亿参数多模态模型 CPM-Cricket,综合能力对标 GPT-3.5、超越 LLaMA 2。

但在 2021 年、2022 年,国内在大模型上进行了大量探索,但最终都没有出现一个像 ChatGPT 的突破性应用。这让面壁智能的技术团队意识到,一味地追求模型参数量行不通,训练出一个大模型也不是最难的部分,更难的是如何突破模型的智能极限,在用同等参数、同等数据量情况下,更快速低成本地跑出更好的模型性能。

在曾国洋看来,未来大模型的发展应该朝着高效率的方向发展:大模型要为用户带来更大的价值和更广阔的商业空间,而这主要取决于模型创造的价值和创造这一价值所需的成本。

今年 2 月份推出的 MiniCPM 模型就是面壁智能对大模型高效探索的样板间。发布会上,面壁智能 CEO 李大海提出了要“以小搏大”,曾国洋也表示 MiniCPM 用 2B 干掉 LLaMA 的 13B。这意味着,面壁智能正式进入小尺寸端侧模型的竞技场,并且还将其完全开源,以帮助大模型行业整体技术发展。

起初,端侧模型并不在团队计划中,但是在测试中发现并验证了这么高性能的模型可以在手机上顺畅运行,这给团队打开了新世界的大门:一旦模型能够在手机上运行,他们就能在端侧探索出更多应用场景,如汽车、VR、智能家居场景等。

端侧模型的优势在于,不需要频繁与云端服务器通信,因此处理速度更快;在本地设备上运行,不需要消耗大量的网络带宽和云计算资源,具有成本优势;可以在没有网络连接的情况下仍然发挥作用,这意味着其可以在各种环境下稳定运行。

端侧小模型的性能天花板也远未达到。在模型的极致效率方面,通过模型压缩、量化、剪枝等,性能可以进一步优化。其次,端侧设备本身也存在优化空间,硬件制造商可以考虑如何在硬件设计上更好地支持大模型运行。

“我有预感,像 GPT-3.5 这样高水平的模型,可能在一两年内就能在移动设备,比如手机上,完全运行起来。”曾国洋说道。

在面壁智能看来,大小模型的技术有互相打通、增进提升之处。面壁 MiniCPM 基座模型、多模态模型等“小钢炮”系列领先的端侧模型,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,来实现高效、低成本的模型训练与应用。

“不会因别人而改变”

变化,是大模型创业公司时刻要面对的问题。就像曾国洋常常被问到:Transformer 会不会突然被新的技术取代,从而让之前的投入都白费?

曾国洋对技术的快速变化并不过分担忧。“技术的发展是一个循序渐进的过程,不可能一夜之间出现一个全新的技术彻底颠覆现有的一切,而我们对此毫无准备。”在制定研发路径时,团队也是根据技术发展趋势和团队正在进行的工作,逐步调整目标和方向的。

对于市面上时不时蹦出来的热点模型或产品,曾国洋也表现得很冷静。

以 Sora 为例,曾国洋认为这显示出人们对创意性工作的兴趣,但对于是否跟随这一技术路线则需慎重。

“对于创业公司来说,需要格外考量战略目标与投入成本。即使是资金充裕的大公司,虽然有能力进行,但产出并不总是明确,短期内可能无法快速为大众提供实质性的服务。”曾国洋说道,面壁智能致力于将技术更好融入到实际产品和解决方案中。

对于前段时间刷屏的月之暗面 Kimi,曾国洋则一方面表示肯定,“Kimi 用户的增长迅速,表明它成功地解决了一些用户的痛点”,另一方面也反思自己,“可能没有充分利用我们在某些方面的先发优势。”

他特别提到了去年 5 月份面壁智能推出的一项读论文功能,虽然早就有了类似产品,但当时很可惜没有深入挖掘和清晰传达该功能可以解决的痛点。

但曾国洋强调,面壁智能的战略不会因为市场上的其他产品而改变。“我们一直在寻找大模型技术在普通人生活中的应用,并努力解决实际问题,而不仅仅是提供通用的解决方案。”

最近,李彦宏“开源模型会越来越落后”的观点也引起了很大的争议,有人“力挺”、有人“怒怼”。

对于面壁智能来说,开源是成立之初就做好的选择。正如李大海所说的:“我们一直是开源的受益者,所以也希望做出自己的贡献。并且,一款拥有良好口碑的开源模型,一定是经受住了方方面面的反复检验,在模型性能、体验等综合表现方面,拥有远超过 PPT 成绩的行业认可度。对于我们研发团队,一方面是 360 度无死角的考核压力,另一方面在挑战成功后也会有巨大的成就感。”

曾国洋坦诚,开源模型要追赶闭源模型确实会面临一定的挑战。这是因为在技术快速发展的过程中,闭源模型可能会因为有更好的知识产权保护和商业秘密而获得一定的优势。这种情况下,开源模型需要同时关注技术创新和与闭源模型保持竞争力。

但技术发展进入瓶颈期,那么开源和闭源模型可能就会在技术水平上趋于一致。在这种情况下,开源模型由于其开放性和社区的支持,会有更多的机会迎头赶上,甚至超越闭源模型。另外,开源模型的发展速度也取决于社区和市场的支持程度。如果有更多的个人和组织支持,那么开源生态的发展自然会更快。

此外也很重要的一点是,开源本身在技术影响力的建设方面是特别重要的,可以更好地让大众体验团队的技术实力,从而在人才吸引力和市场信心提升方面取得更强的竞争优势。

“没有刻意区分 C 端和 B 端”

对于以科研人员为核心创始团队的大模型创业公司来说,在战略、产品、经营等方面需要更强的专业管理者。2023 年,时任知乎 CTO 的李大海加入面壁成为 CEO,面壁向更为成熟的大模型商业公司迈下重要一步。

今年 4 月,面壁智能又完成了新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。除了通过融资获取资金外,面壁智能目前已经能够通过提供服务和产品实现一定的收入。

面壁智能是国内最早探索 Agent 的大模型公司之一。对于 Agent,每个公司、每个人的理解都不一样。在面壁智能看来,Agent 的边界还未被定义。“模型是底座是一切应用的基础,然后 Agent 是支撑应用很重要的中间层,”李大海认为,无论 to B 还是 to C,本质上都是“大模型 + Agent 的上层应用”。

曾国洋认为,Agent 实际上是介于纯大模型和通用人工智能(AGI)之间的一个中间状态或节点。Agent 的模型能力必须足够强大,才能有足够的智能理解和处理请求和执行任务。Agent 还需要与外部系统和接口进行交互,来不断拓展能力边界。同时,还能够调用已有的知识库来提供检索和回答服务。

而对于大模型领域,李大海曾表示,大模型应用可能会百花齐放,然而通用千亿大模型不会太多,可能只有极少数的几家公司能够最终突出重围。这基本也是行业的共识,基座模型的角逐注定是千军万马过独木桥。

那么,大模型公司做应用是对应用侧公司的一种降维打击吗?

曾国洋坦言,大模型公司由于其先进的技术和强大的数据处理能力,可能会对那些依赖传统技术或缺乏足够技术储备的应用公司产生影响。如果应用公司的技术壁垒不够坚固,就可能会在大模型技术的快速发展和迭代中受到冲击。例如 Jasper AI 这样的 AI 内容提供商可能会因为 OpenAI 发布了新的 ChatGPT 版本而受到影响。

然而,他也表示,应用公司也有自己的竞争优势,比如对特定市场的深入理解、强大的客户关系和品牌忠诚度等,这些都是他们的“护城河”。

2024 年,行业更加重视应用落地是当前的大趋势,因为目前模型已经基本可用了。李大海判断,从今年开始,大模型厂商会开始出现分层。但这个分层不是因为市场,更多是因为技术门槛:大家需要更强的模型、更高效率的推理,更好的 Agent 等,但不是每家公司都能跟得上这样的技术要求。

“大模型是一个行业级别的机会,哪怕不做基座大模型,做应用层也有非常多的空间。但不是每家公司都能够持续做基座大模型的训练,期间有些公司可能就会转型做其他的事情。能活下来的公司一定是技术和产品市场能力都很强的选手。”李大海表示。

对于未来的大模型应用,曾国洋提出了一种分工模式:一些简单的、重复性的任务由小型的、特定领域的模型来处理;而更复杂的、需要高级认知能力的思考任务则可能由大型通用模型来完成。

结束语

最初,人们普遍认为 AI 会先替代那些繁琐的工作,从而让人类有更多的时间从事创造性的工作。但现实情况似乎相反,AI 开始在创作领域发挥作用,而人类仍然在处理日常的工作任务。

但曾国洋观察,大模型简化、加速开发任务是正在发生的事情。在创建大模型应用企业的交流中,技术人员并不需要掌握大量的编程代码,更重要的是他们对最终产品的理解能力。

“对于想要有效利用大模型的人来说,掌握大量的编程能力并不是必需的。更重要的是能够将自己的思维方式与模型同步,确保模型理解并执行自己的想法。”曾国洋说道,“让模型理解你的想法是一种独特的体验,它要求用户对模型的运作方式有一定的了解,并且能够清晰地表达自己的概念和目标。”对于其他公司来说,大模型技术会以不同形式的工具、功能出现。

面壁智能的目标是实现通用人工智能,团队为此有一个清晰的路线图,包括在文本模态上要达到的效果、未来向多模态和具身智能的转变等规划。2024 年,面壁智能将继续专注于模型的研发和优化。而面壁智能的选择能否助其顺利发展、实现自己的 AGI 理想,还需要时间来回答。

内容推荐

Sora 来袭,国内发展文生视频模型的土壤如何?各公司用脚投票开闭源路线的当下,开源在大模型市场进程中的价值正在被重新定义吗?人型机器人重回视野,大模型是否助力其刷新能力上限?Devin 和智能编码助手是同一条赛道上的不同节点?多家企业宣布 All in AI,对市场意味着什么?答案尽在 InfoQ 研究中心近期发布的《2024 年第 1 季度大模型监测报告》,关注「AI 前线」公众号,回复「季度报告」免费下载,一睹为快吧~

活动推荐

叮咚!微软邀请你来参会啦!

5 月 17 日,Azure OpenAI Day 将落地成都!来自微软的数位技术大咖将带你一站式了解 Sora、GPT-4 Vision 及 Azure OpenAI 等热门议题的最新进展!席位有限,速来抢位!

扫码或点击阅读原文,立即报名~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术汪小菲高调宣布再婚!社媒晒结婚证,鸽子蛋婚戒太吸睛!张兰此前突现悉尼被偶遇,直播不忘讽刺大S...卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了阿里云进军大模型一年,现在是开源第一名,CTO:闭源要超过所有开源模型才有机会参与讨论对话面壁智能李大海:AGI是一场马拉松,我们不急于当破风者余承东谈智选车:卖 30 万元以下都亏损/面壁智能 CEO 谈 Apple 智能/特斯拉 FSD 将在上海落地试点三星组百人团队攻HBM,势要击败SK海力士面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini Pro面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述斯坦福团队抄袭国产大模型,面壁智能创始人:受到国际认可/百度被《时代》周刊评为全球领导者/特斯拉回应「单踏板模式被禁」传言周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报246篇文献!参数高效微调最新综述发布,让大模型不再「巨无霸」全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报张兰突现悉尼被偶遇!汪小菲求婚成功,带女友巡店秀恩爱!张兰悉尼直播不忘讽刺大S...投资被骗案。 音樂:Roman Guitar斯坦福某 AI 团队抄袭面壁智能开源大模型/董明珠称「打工人要休闲可以辞职」/百度被《时代》周刊评为全球领导者AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿面壁智能CEO发文回应斯坦福某AI团队“抄袭”:感到遗憾面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种对话面壁智能CEO李大海:开源模式更像“蚂蚁雄兵”,能够有更广泛的创新探索AI早知道|月之暗面回应Kimi推出付费方案;面壁智能推出多模态模型4人团队,如何用大模型创造近千万业务价值?最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事在家就能获英国学籍+推荐信,考局考官带你学Alevel/GCSE!冲刺大考从D到A*你也可以!小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理已经买进少量的3/22到期的call,注意风险!5亿参数“小模型”如何超越千亿级参数大模型GPT-3.5?如何保护好你的退休资产?刚买的榨汁机又坏了《在五星红旗下成长》续02
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。