中国估值最高大模型公司的解题思路
“如果又拆成一个个场景去做,不是又走到上一代的老路了?”
文 | 朱丽琨
编辑丨程曼祺
9 月以来,乘坐南航航班的乘客会看到座椅背后的一则广告,“有效率,不焦虑”,“智谱清言:新一代 AI 提效助手”。
不过半年,中国的大模型公司已从组队入局、比赛发布大模型,进入了应用落地的竞争。
“智谱清言” 来自智谱 AI (以下简称 “智谱”)。这家成立于 2019 年 6 月的公司,去年底的估值还只有约 20 亿元人民币,现在则达到了 140 亿元,成为中国估值最高的大模型创业公司。
今年以来,智谱已融资 25 亿元人民币。蚂蚁、美团、红杉中国、高瓴,以及过去几年鲜少入股同一家公司的腾讯和阿里都在投资者之列。
如同大多数受到投资人关注的大模型公司,智谱也像研究机构和企业的混合体:智谱的核心团队来自清华大学 KEG(知识工程) 实验室。KEG 主任、清华大学计算机系教授唐杰担任智谱技术顾问,唐杰在 AI 领域的论文总计被引用了 3.2 万多次。清华创新领军工程博士张鹏担任智谱 CEO,他也曾是 KEG 成员。
《晚点 LatePost》近期在搜狐网络大厦的智谱新办公室里见到了张鹏,他看起来更像个大学老师。他会被一些技术畅想激活:比如下一个 AGI 里程碑是什么?——他说可能是意识,这也许能让机器避免一些低级错误。
张鹏的另一面是,从 3 年前智谱刚成立起,他就开始对接客户。今年的大模型热潮带来了五花八门的新需求——其中有些并不符合大模型技术特点,张鹏的态度是,“客户是上帝,你得先说 yes”,这之后再沟通。
研究与商业化并重,是目前所有主要大模型创业公司的共同点。智谱的特点是,它尤为相信做好通用底层模型,能撬动巨大商业价值。
面对模型发展、效率提升和应用落地这些大模型领域纷至沓来、同步展开的问题,智谱现在的解题思路是:
认为提升模型智能水平比尽快做出赚钱的应用重要。
不做针对每个细分行业的 “行业模型”,相信足够强的通用模型就能直接支持很多应用。
尽量不自己做定制化,和外部合作伙伴一起服务客户的定制化需求。
不以做终端应用为主要目标,通过投资其他 AI 技术与应用公司补充商业生态,如智谱已 3 次投资 AI 公司聆心智能。一位接近智谱的人士称,智谱近期有计划筹备战投部门,或将展开收购。
这是一种做技术平台的思路:以提供标准化的技术产品和服务为主要盈利方式,让各行业的客户在相对统一的标准技术基础上自己开发出终端产品与应用。在中国,这也是一条鲜有人坚持到底的路。
在市场充满竞争对手之前拿出成果
中国大模型 “竞跑” 的信号枪是什么时候响的?
一些人听到响声可能是今年春节后,智谱是 3 年前。
2020 年 6 月,智谱团队发现他们一直关注的 OpenAI 发布了新成果 GPT-3,模型精度飞跃式提升。
这之前,OpenAI 的语言模型预训练框架 GPT 尚未显现明显优势,其它大模型尝试还有 Google 的 BERT 框架等。智谱当时正在自研预训练框架 GLM,它在 GPT 这类单向向后预测的模型框架中,结合了 Google BERT 这类框架的双向预测能力,不仅能从前文预测后文,也能从后文猜前文。
在基于 GLM 框架开发出百亿参数的稠密模型后,智谱又开始用 “稀疏化” 方法,把一个模型放大到万亿参数。稀疏化可以简单理解为,把一个稠密模型的内核复制很多份,用哪部分神经元时就激活哪部分,这能降低计算成本。这是智谱在大模型上的最初尝试。
更早听到 “发令枪响” 的还有大模型领域的一些早期投资人。在 2021 年底投资智谱的启明创投合伙人周志峰告诉《晚点 LatePost》,GPT-3 发布让启明创投看到了新的 “技术奇点”。“我们投过那么多自然语言处理公司,它(GPT-3)的效果出现了 ‘十倍好’。” 周志峰说。
启明创投此后开始在国内寻找大模型投资标的。2021 年 3 月北京智源人工智能研究院的 “悟道” 大模型发布,周志峰关注到了作为研发参与方之一的智谱。
这一阶段的智谱正经历思路转变。做完稀疏化的万亿参数模型后,智谱发现它的性能并不好,精度提升效果一般而且成本太高。
1750 亿参数的 GPT-3 的效果给了智谱参考和信心,他们开始重新做千亿参数的稠密模型。2021 年第四季度,启明创投启动投资流程时,智谱已处在千亿模型架构的选型阶段。
2022 年 8 月,智谱发布 1300 亿参数的稠密模型 GLM-130B,这成为日后他们做对话模型和各种技术落地的基础。此时距 ChatGPT 在同年 11 月底上线还有 3 个月。
周志峰认为,智谱拿出大模型的时机很重要,到 ChatGPT 爆火、许多企业都希望尝试和探索大模型应用时,智谱已准备好了。他回顾过去几年全球最主要的几个技术浪潮,新能源汽车、大芯片(如数据中心算力芯片等)和大模型,除市场前景巨大外,其共同点是 “三高”:高技术壁垒、高人才壁垒、高资金壁垒。这种领域有先发优势的公司会有光环效应,资金、算力、数据和人才都会向它倾斜。
仅今年就融了 25 亿元、团队超 400 人的智谱,现在有相对充裕的资源投资技术。智谱在选择技术路线时,倾向于做 “往上拓一拓天花板” 的尝试,比如最新的多模态大模型探索。
多模态大模型即同时能处理语言、视觉等多种数据的模型。业界主要有两种做多模态的思路,一是在同一个模型框架里整合视觉和语言特征;二是先分别训练语言和视觉模型,然后用一个轻量级的神经网络 “桥接层” 拼接两种能力。
后一种拼合思路可以更快出成果,也有成本优势。用这种方式做出的模型有 Salesforce 和微软发布的 BLIP-2 和 LLAVA。10 月上旬,LLAVA 最新版在 11 个基准测试中达到 “最佳表现”(State-of-the-Art)。
智谱 10 月发布的多模态大模型 CogVLM-17B 则选了第一种方法,这也是 OpenAI 多模态大模型 GPT-4V 的思路。
“多模态本质上还是(要解决)认知问题。” 张鹏说,语言的出现促使人类智力加速进化,这是因为语言能在视觉、听觉等基础感知能力上抽象出一个认知层;类比到 AI 中,对自然语言的建模高于其它感知能力,开拓视觉等感知能力也需要统摄在自然语言建模中,而不是简单叠加功能。这是智谱一直以来的 “认知智能” 和 “认知建模” 思路。
这种试图统合文字和视觉的思路短期会更慢、更难。在热潮前就准备好成果的公司,获得了更大空间。
降本是大模型商业化的第一步
今年第三季度后,随着首批公司通过生成式人工智能备案和一批产品正式上线,中国大模型的应用竞争开启。
互联网服务和软件业的特点是一次制作、无限使用,边际成本显著下降。大模型现在则是用的人越多,成本压力越大,因为每次调用模型都要消耗价格不菲的算力。据报道,微软基于 OpenAI 模型推出的 AI 编程助手 GitHub Copilot 正处于亏损中。该产品已有超 150 万用户,微软向每位用户收取 10 美元 / 月的订阅费,但微软每月花在单个用户上的平均成本却有 30 美元,用得最多的用户甚至能让微软每月亏 80 美元。该报道作者调侃说,用 GPT-4 总结电子邮件,“就像开着兰博基尼送披萨”。
应用加速,要求大模型竞争进入新阶段:不是做出模型就可以,还要兼顾效率和成本——这考验大模型公司在每个环节 “压榨” 效率与价值的能力。
在 2021 年训练千亿参数模型 GLM-130B 时,智谱使用了约 1000 张 A100,这不算多。为更高效利用算力资源,开发模型时,智谱前 6 个月都在做各种工程实验,寻找更稳定训练模型的方法,尤其要避免训练中的 “崩溃”,这会延长 GPU 租期,增加算力和时间成本。
智谱最后训练 GLM-130B 其实只花了约两个月,较为充分的准备使训练过程比较顺畅,没出现大的中断。
智谱摸索到的认知是,控制训练与推理成本的关键是模型精度和稳定性之间的权衡:
在训练阶段,数据表示方法的精度越高,消耗的内存和计算资源就越高,这也需要更大规模的算力集群,会带来更大的硬件失效概率。一旦在训练中途 “崩” 一次,整个任务就要重来。而其中的训练技巧和工程方法,是诸多技术论文和开源项目不会提及的。
在推理阶段,智谱称他们也找到了精度和成本间的平衡。张鹏解释,GLM 大模型架构的参数分布比 GPT 和 Llama 更集中,压缩后精度更高,这能在不牺牲精度的情况下用更低成本做推理。
2022 年推出 GLM-130B 后,智谱做了模型压缩和适配国产硬件等工作。智谱称,这使过去在数百万元 GPU 卡上才能运行的模型,在 10 万元级别的硬件上也能运行且几乎不损失性能。
智谱正在进一步 “降本增效”,例如自建一部分算力,从硬件层优化模型训练和推理。对任何大模型公司来说,算力现在都是稀缺资源,提升算力使用效率(Model FLOPS Utilization)成为关键。
据 Google Research 论文,GPT-3 最初的算力使用效率为 21.3%。Google 2022 年推出的 5400 亿参数模型 PaLM 的算力使用效率来到了 46.2%,同年智谱的这项数据超过 40%。目前 OpenAI 和 Google 都把这个数字提高到了 50% 左右。
周志峰认为现在大模型的发展阶段可以类比互联网浪潮的 1990 年代中期。模型的训练、部署、推理要不断优化,将成本打下去。就像过去用 56K 速率的调制解调器上网,一分钟要花几块钱,下载一张照片要十分钟;现在通过高速光纤,网络带宽边际成本和信息分发边际成本已几乎为零。
“所有技术发展到一定阶段都必然走向精细化和压榨价值的环节。” 张鹏说,大模型也到了这个阶段。
做通用模型,不走定制化老路
以 AI 为基础发展技术平台、赋能百业,这是 2016 年由 AlphaGo 引发的上一波 AI 热潮中诸多公司的设想。
技术平台即提供标准化的技术产品和服务,支持各行业的客户在此基础上自己开发终端产品与应用。
发展至今,这些公司 “赋能百业” 的想法,更多停留在了安防、智慧城市等有限领域,且它们需要自己下场做较重的定制化服务。安防龙头公司海康威视去年的 “主业产品及服务”(主要是视频监控产品)营收有 658.7 亿元人民币,AI 公司商汤同期的总营收为 38 亿元人民币,其中智慧城市占 1/3。在安防、智慧城市领域,硬件生产商比商汤这类算法提供商赚钱得多。技术平台的设想尚未实现。
有什么理由相信大模型公司可以通过技术平台模式创造巨大商业价值?核心变化在于,大模型技术比上一代 AI 技术有更强的通用性和泛化能力。
以之前的图像识别技术为例,它落地酒店入住、办公楼闸机和道路交通场景时,需要用不同的数据训练不同的模型,再部署到不同的硬件环境中。这意味着公司每服务一个新场景和新客户,都需要重新投入一遍。
智谱今年接触的许多客户,往往刚聊两三句也会问:你这个模型怎么微调?“大家还是在拿机器学习的落地路径做判断。” 他认为一些客户还是低估了大模型的通用性,他们觉得自己的场景、数据和需求独一无二,需要在基础模型上做不少适配,实际上部分场景只需要很少的微调甚至不需要微调。
因为对大模型通用性有信心,智谱不做行业模型。“本来我想弄个很强大的基座,泛化到各种场景,结果你又拆成一个个场景去做,那不是又走到上一代的老路去了?” 智谱会让对大模型通用性没有感知的客户先试用 “智谱清言”,看这款免费的 2C 产品已能达到哪些效果。
“大家已经逐渐接受按年购买模型授权的方式。” 张鹏说,智谱的 2B 收入现在主要来自每年收取的模型授权费和一次性部署费,“尽量不做定制化”。他称最近接洽的重要客户基本都是在谈三年连续授权,因为技术仍在快速演变,客户需要持续的模型更新与服务。
一位曾帮其它企业搭建、部署过大模型的人士告诉《晚点 LatePost》,要满足大客户的定制化需求,会带来超预期的人力和精力投入。例如在服务一家制造业集团时,他们的工程师进场调齐各部门数据就花了好几天。
智谱的做法是与技术咨询公司和软件服务公司合作,借助外部力量满足定制化需求,建立交付服务生态,智谱目前只有几十人的内部交付团队。一位接近智谱的人士称,面对同一行业的不同客户时,智谱只做少量接口或部分功能的定制开发,最底层的 AI 层是不需要做定制化的。
智谱也在通过投资触及下游应用。去年底以来,智谱已投资过聆心智能 3 次。在今年 9 月最新一次增持前,双方基于 GLM 框架合作推出了 CharacterGLM 模型,可用于拟人化对话,这被认为是大模型 2C 的重要应用方向。《时代周刊》9 月报道,该领域最成功的产品 Character AI 的日活用户已超过 350 万,用户每天平均花两小时与自己塑造的 AI 角色对话。
降低成本、借助合作伙伴做定制化还是投资应用公司,智谱的这些动作是在解决大模型商业化的起步问题。要实现技术平台这一商业模式,智谱还要继续迭代大模型或者说智能:大模型目前的效率还不够。
7 年前,清华大学计算机系教授、中科院院士张钹去 KEG 实验室做了一次分享,张鹏一起参与了讨论。张钹当时判断,下一代 AI 的发展框架是 “数据和知识双轮驱动”。
类比人类智能,数据驱动更像 “基于直觉的快思考系统”,GPT 大模型就是这样一种预先用海量数据训练的 “黑盒”,输入信息后为何得到某种结果,过程不能被完全解释,类似人的直觉反应;知识驱动更像 “基于逻辑的慢思考系统”,专家系统、知识图谱主要是这一范畴,它追求可解释的机器推理过程。
张鹏认为,GPT 热潮代表着近几年数据驱动领域的飞速发展,知识驱动的进度相对落后,而 AI 的发展一直是 “几个流派间的交替上升”,知识驱动的思路未来可能也会加速:一些研究者已在尝试把知识和逻辑与大模型结合,减少大模型幻觉,或让它会自己纠错。OpenAI 首席科学家伊利亚今年 4 月接受采访时也提及,减少幻觉和增加可靠性,是未来两年大模型领域最重大的课题。
当一项超出想象的新技术开始商业化,面世之初的震撼会很快消退。参与公司需要一边接受商业规律的检验、一边推动技术走向成熟。个人电脑、互联网行业都经受住这样的考验,进而重塑了整个世界。人工智能曾几度突围、几度停滞,现在围绕大模型技术,新一批公司也到了这个阶段。
题图来源:《硅谷》剧照
· FIN ·
微信扫码关注该文公众号作者