追赶 Llama2,智谱与百川谁更有戏?
编辑丨陈彩娴
2023年进入下半场,关于大模型的讨论逐渐聚焦在两个问题上:
第一,对于大模型公司,未来发展应选择开源还是闭源?
第二,随着百亿、千亿参数的模型数量越来越多,相比技术的壁垒,后来者更关心的一个问题是“算账”:无论是发展生态,还是孵化创新产品与应用,大模型的成本如何降下来?
近日,“微软 GitHub Copilot平均每月在每个用户身上倒贴 20 美元,累计每月亏损 3000 万美金”的消息引起了业内广泛关注。尤其在“开源”呼声高涨的当下,与微软合作紧密的 OpenAI 是少数几家坚持闭源路线的团队之一。
整体而言,目前大模型赛道分为开源与闭源两个方向:海外如 OpenAI、Anthropic 选择闭源,以此来维护自家大模型的优势地位,而Meta率先走上了开源的道路。
7月后,Meta 的Llama 2选择了开源可商用,鼓励更多开发者加入Llama 2生态。这意味着,开发者可以访问Llama 2模型,并通过调优来创建自己的类似于ChatGPT这样的产品,打破了OpenAI和谷歌在大模型市场的垄断局面。
Llama 2一经发布便被认为是最强的开源模型,迅速收获了一大批拥趸。无数开发者使用Llama 2来做研发、企业构建,在Llama 2的生态中共建共享,其也成为当前最活跃的大模型生态之一。
近三个月来,国内的大模型开源也发生了翻天覆地的变化。从智源的FlagOpen、复旦大学邱徐鹏团队的 MOSS,到智谱的GLM、面壁智能的OpenBMB、以及近日冲锋最猛的百川智能Baichuan……这实际上反映了开源从学术界走向工业界的一大趋势。
但尽管国内大模型开源如火如荼,一些开发者却向AI科技评论表示,他们对国产的大模型开源其实信心不足,因为国内在技术原创性方面差点,而且国内开源氛围不好;另一方面,也有开发者希望出现一家能与Llama 2 媲美的国产开源大模型。
当Llama 2的开源风潮从海外吹向国内,众人的态度是:“让大模型开源的子弹先飞一会。”
原因是,首先Llama2中文能力较弱,开源协议对中文地区不友好,如果要用Llama 2须得再进行一步中文调优;其次国内开源大模型正络绎而出,国内开发者有所期。
归根结底,大家驻足观望的根源是:还没算清大模型商业化的账单,成本还没完全降下来。
国内开源正走在追赶 Llama 2 的路上,国产大模型不缺乏技术信仰,也有开源精神和想法,在开源上不断蓄力,其中智谱AI、百川智能是受关注度最高的两家大模型企业:前者起步早,估值高;后者冲地猛,铆足开发者短。
但在追赶 Llama 2,或探索大模型商业化的前程上,哪家更有戏?
首先我们溯及智谱AI的开源历史。
众所周知,智谱是国内大模型的开源先锋,开源非常早。
2022年,在国内还没有多少人相信大模型的时候,智谱就将其开发的高精度双语千亿模型GLM-130B进行了开源,ChatGPT爆火后又紧跟着开源了60亿参数 ChatGLM-6B,早于国内的大多数同行。
GLM-130B是智谱在2022年7月自主研发的千亿模型。当时,中国对大模型的理解还普遍较弱,智谱刚在 GitHub 上开源 GLM-130B 时,鲜少为人问津,过了一个月才勉强攒够 1000 颗星,“很多人不会用(大模型),问题也超级多”。
智谱在 7 月训练出 GLM-130B,8月就开始招人做开源运营,专门推广 GLM-130B 的开源生态。
GLM-130B开源的目的主要是为向外界普及大模型。但那时候,全国懂大模型的研究员加起来也不过百来人,他们当时是在大模型的低谷期去推广 GLM-130B,其艰难程度可见一斑。
那时,智谱主要从高校入手。他们制定了一套专门面向高校的支持计划,凡高校老师使用 GLM-130B、智谱就提供免费的 API,同时还配备准备好的课件、视频和机器等。但在早期,由于开源的配套基础设施等不够完善,GLM 开源在高校中的推广也不顺利:有几次,他们将 GLM-130B 的链接发给高校老师试用,输出的结果却十分拉垮,所以大模型的开源也很难有说服力。
事实上,在 ChatGPT 出来之前,很多大模型的效果都不够理想:在模型的训练上,大家都差不多,缺的是监督微调(SFT)阶段,这个阶段会导致模型结果千差万别。
据AI科技评论了解,当时国内外团队在大模型的研究上普遍都没有重视 SFT 阶段,包括智谱,因为这需要投入大量的人力去做数据标记,成本太高。这也阻碍了早期大模型团队去进行更深的探索。
ChatGPT 爆火后,大模型破圈,大家才开始关注到这位国产大模型尖子生:GLM-130B 在 GitHub 上的星数随之暴涨。同时,ChatGPT 发布后、智谱只用了两个月就成功重现了 ChatGLM,并重新训练了一个 60 亿参数的模型 ChatGLM-6B 并进行开源,智谱在大模型开源上很快领先。
相比 GLM-130B,ChatGLM-6B 的运行成本几乎“腰斩”。
据智谱透露,运行 GLM-130B 需要 4 张卡、服务费高达十几万,而ChatGLM-6B 只要 1 张卡、大约一万块人民币就能训练,在一个内存超过 90G 的笔记本电脑上就能运行,因此引起开发者的疯狂下载:
ChatGLM-6B 一代开源 3 个月内在 GitHub 上收获了 30000 颗星,Hugging Face 下载量 300 多万;其迭代后的二代模型 ChatGLM2-6B 开源两周内,下载量也达到100万,GitHub 收获 8000 颗星,两代模型分别连续十余天登上Hugging Face趋势榜榜首。
上半年,智谱的 GLM 在开源上一骑绝尘,这主要归因于其早早布局的先发优势,又抓住了 3 月 ChatGPT 在国内爆火的关键时机进行开源。
开源让智谱的 GLM 系列收获了大量关注,成为最早突围的大模型公司。随之变化的不仅有智谱的名声,还有智谱的估值:短短半年内,智谱的估值从10亿人民币飙升到100亿,成为中国第一家估值超过百亿的大模型创业公司。(关于智谱的成长,AI科技评论将推出《智谱狂飙的365天》,欢迎添加作者微信 zzjj752254 互通有无)
但在 7 月,Llama 2 开源免费可商用,成为新的话题。彼时,智谱To B的路线已经渐成共识,关于智谱是否会开源其百亿模型的讨论也在圈内不胫而走,但智谱至今没有公布其最新开源路线,反而在开源上愈加趋于“闭合”,声量骤减。
2023年进入下半场后,国产大模型在开源这块冲得最猛的,反而是新成立不到一年的百川智能。
今年4月,王小川成立大模型公司百川智能。Llama 1 开源不可商用,为了挑战 Llama 2,百川成立两个月后便率先发布了开源免费可商用的大模型 Baichuan-7B,7月又发布了开源可商用 Baichuan-13B,比 Llama 2 的发布还早几天。
开源节奏超过 Llama 2 后,百川仍然穷追猛打,9月又发布了 Baichuan2 系列开源大模型,包括 Baichuan2-7B 和 Baichuan2-13B。
百川的开源不仅节奏快,而且力度大——Baichuan2 系列模型开源了模型训练的 Check Point,发布了 Baichuan 2 技术报告,还详细介绍了 Baichuan 2 的训练细节,将核心代码部分开源,受到了开发者的广泛认可,“因为这能帮助大家更深入地了解大模型的训练过程”。
AI 科技评论统计,截至10月10日中午,Baichuan系列在Hugging Face开源社区的“Downloads last month”达到38.368万次(图左);两天后,下载量又增加了 2620 次(图右),增速迅猛:
同时,截至发稿日,Baichuan2在魔搭社区下载量超过15万:
对于一个刚成立几个月的公司来说,这显然是一个不错的成绩,但距离 9 月中旬百川跟智东西透露的“月下载达到300多万次”仍有一定距离。而 Llama 2 系列模型在 Hugging Face 上9月的下载量就已经超过百万次。
一些开发者告诉 AI 科技评论,Baichuan2 的效果不错,“可能是目前对开发者部署最友好的开源大模型”。
一位多模态大模型应用创业者将底座模型与 Baichuan2-13B 进行了绑定,数据训练方面则大部分是通过ChatGPT或GPT-4导出来的数据。在他看来,Baichuan2 的模型能力突出地方在常识、类人回答、逻辑推理。
他测试过 Llama、斯坦福 Alpaca(小羊驼)等国际上有名的开源模型。他认为,单纯从中文能力上,Baichuan2 比他去直接调优斯坦福Alpaca(小羊驼)、Llama 2的效果要好,这让他感到很意外。
扒了Baichuan2的源码后,他分析,从整体上来讲,Baichuan2 采取的是常规架构、没什么特别的,其表现好的原因主要是源自他们优秀的数据能力——2.6TB的训练token。
数据质量也一度成为百川自豪的点。在算力、算法、数据形成的大模型竞争三角中,一个主流观点是:单纯的技术永远无法形成壁垒,因为掌握技术的人才一直在流动,算力也可以从别处购买,只有数据可以永远掌握在厂商的手中。因此,数据是三角中最容易形成优势的一环。
百川一直对外声称他们以28天发布一个模型的节奏往前推进,其中多为开源模型,这种节奏在业内人听来都为之咋舌。
相形之下,智谱的大模型开源相当保守。一位开发者告诉 AI 科技评论,相比 Baichuan,ChatGLM-6B 系列只开源了预权重,没有开放训练方法与训练的脚本语料等,对于一些想深度学习大模型后进行再训练的个人或团队来说,力度显然不够。
如果没有公开语料,开发者基于开源的模型训练时,就必须做更多的基础尝试,以此来发现模型能力的不足之处,再判断自己要在哪些地方改 bug。这样就大大增加了开发者评估模型、选择模型的成本。
“将开源后的 Llama 2 和 Baichuan 作为基座模型的问题不大,但我们至今不知道智谱大模型的训练语料,所以我们做了同样的训练后往往发现,智谱 GLM 系列的效果不够 Llama 2 或 Baichuan 好。”
而智谱谨慎,百川激进,背后也许是两家企业在商业模式上的不同。
尽管同时布局 To B 与 To C 产品,但在外界看来,智谱更像是一家死磕 To B 的公司,做大模型的定制化解决方案。
这意味着要投入大量的人力。4月中旬,智谱 AI 的人员规模在200人左右,当时已经是大模型赛道里最大的团队;到 8 月,团队已经扩张至 500 人,更有消息称智谱计划在今年年底达到一千人。
智谱的商业模式简单明了:按 token 数量与模型参数收费,按云端部署与本地私有化收费,按年收费。B 端客户往往倾向本地的私有化部署,而智谱的千亿模型 ChatGLM-130B 在官网上的标价为 3960 万一年,最小的百亿模型 ChatGLM-12B 也需 180 万一年。
Llama 2 发布后,随着开源可商用的呼声越来越高,超过百亿参数的开源模型也越来越多。坊间也一度传闻,智谱将开放其最小百亿模型 ChatGLM-12B 的免费商用授权。但据 AI 科技评论向智谱查证,智谱目前并没有开放 12B 的计。
在智谱看来,运行成本低的 6B 对开发者更友好,没有必要再开放一个更大的模型,“对教学与研究也没有任何助益”。可以推测,智谱开源大模型的决策更多停留在帮助教学与研究的层面,且其走 To B 路线,对开源的需求没有 To C 强。
开源是关于“舍与得”的抉择。开源大模型相当于将前期耗资巨大的成果免费开放给开发者使用,这虽然会为厂商获取大量的名声,但也会失去将模型商业化的优势。
据 AI 科技评论获悉,智谱的模型销售在 B 端市场的反响依然积极。尽管实际成交价往往比官网标价低,但相比价格高昂的千亿参数模型 ChatGLM-130B,更多中小企业或尝鲜的大企业仍然会倾向于选择价格较低、性能较为稳定、符合本地部署环境的百亿模型。
一位购买了智谱 ChatGLM-6B 的采购方向 AI 科技评论表示,他们很早就购买了智谱的 ChatGLM-6B。当时 Llama 2 还没出来,不可商用更符合当时开源模型的现状;但 Llama 2 发布后,越来越多开源可商用的百亿参数模型出现,这让早期入局的买方多少有点“拥抱了泡沫”的感觉。
如果智谱选择开放其百亿参数的免费商用权限,就相当于付钱的成了冤大头、持币待望的反而坐享其成,那么其早期服务的一批中小客户自然不接受。因此,智谱的开源趋于保守,也是有其原因的。
值得注意的是,海外如 OpenAI、Anthropic 等顶尖团队也依然保持闭源或极其谨慎的开源策略。
近日,月之暗面创始人杨植麟也提到了一个观点:闭源是通往超级应用的唯一通路。尽管杨植麟是从 To C 的角度来解读,但其分析也有适合 To B 模式的部分依据。
首先,出色的 C 端产品往往是基于闭源模型开发的。以 Stable Diffusion 为例,虽然海内外有大量团队基于开源的 Stable Diffusion 开发出了大量的 APP,但最终却没有一个 APP 的表现能与 Stable Diffusion 比肩。
其次,开源模式是分布式部署,数据没有被进行集中式收集,也因此错过了让模型持续优化的优势。
而百川之所以选择激进的开源模式,一大原因是如其创始人王小川在多个场合的解释:
开源首先是一种营销手段,在智谱AI、MiniMax 这样的公司领先进场大模型几个月甚至一年的情况下,百川作为后发者,要依赖开源吸引关注并建立良好的声誉,迅速在市场占领位置。
换言之,百川要通过开源来扩大自身的技术影响力。
其次,百川也希望依赖开源建设自己的To B生态,为接下来的商业化打基础。Baichuan2 开源后,大量的企业慕名而来,用户通过百川的开源模型获得一手体验后,觉得不错就会尝试买百川的模型、资本看见风头不错就会给百川投钱,“慢慢地,百川打出招牌就是自然而然的事”。
开源跟商业的关系,可近可远。百川的开源野心昭然,但从 Baichuan2 系列发布后的表现来看,还不算出圈。
首先从下载量来看,上个月的下载量跟Llama2相比,还不在一个量级;其次,更重要的是,一些开发者微调后发现,baichuan2系列跟其他开源模型相比,效果并不突出。
密切关注国产大模型开源的开发者们告诉AI科技评论,目前国内的开源模型与 Llama2 相比仍有一定差距。其中,Baichuan2-7B 跟13B 分别采用了两种不同位置的编码,不能像 Llama2扩充上下文,实现篇章级输入的分析。
对于下游应用层来说,开源保守或激进对他们来说影响都不大,因为他们还是要根据自己的业务场景准备语料来进行大模型的后续训练,“现在的通用大模型距离解决行业问题也还有很大差距”。
Baichuan2尚未出圈,而百川依赖开源的那套商业逻辑在国外也还没跑通,新的开源模型还在源源不断地涌现,势必会对Baichuan2产生冲击。
一位行业人士分析,开源模型的未来主要在长尾To B市场,但当新的开源模型不断涌现出来,且模型质量不断提高的情况下,这个市场很难出现一家独大的局面。那对于前期走开源战略的百川来说,如果没办法持续保持快速迭代和模型领先,就吃不到开源红利。
在他看来,开源的初衷之一是借助开源社区的力量来加速模型迭代。但现在问题是,当前大模型开源社区的开发者数量本就不算多,又跑出来这么多开源模型,要在一个模型上聚集大量的开发者来回馈模型很难。
所以他认为,Baichuan2的发布并不能代表什么,后续还要观望百川在闭源模型怎么商业化这块的进展。他认为百川的闭源大模型应该会To C,但目前大模型To C还处于疯狂烧钱阶段。
“关键是成本的拐点还没到。To C选择闭源不仅仅是成本,还有稳定的服务。因为不仅是模型能力,还需要去处理大规模的并发、模型维护等等。这点上开源模型很难去提供稳定的服务。”
还有一点,国内和国外不一样的地方在于,“国外有完整的工具链和产业分工,所以开源模型配合开源的开发工具还能用用,但国内没有。”
激进的开源以外,百川商业战略变化又过于迅速。此前,在百川的“2+3”战略中,2包括模型+To B,3是指三个超级应用,当时对外公布的三个超级应用包括医疗和教育,另一个不愿意透露。但过了一个月,百川的战略又变成了“2+2”,教育变成了搜索。
这给外界留下的印象是:百川似乎没有想清楚自己的商业模式,就急着大规模出军。
回到今天的主题:开源。
数月前,一位业内人士曾告诉 AI 科技评论:当大家发现原来大模型不值钱的时候,就会陆续开源。事实也正如他所预料,今天的开源大模型越来越多。
但一位大模型从业者也告诉 AI 科技评论,正是由于开源的大模型越来越多,所以他们才选择早早退出通用大模型开源的赛道,“因为即便持续开源也很难溅起什么水花,除非开源一个超过GPT-4的模型”。
“都超过GPT-4了,谁还会开源呢?”他发出了开源的灵魂之问。
这或许也很好地概括了当前开源与闭源的边界——开源只是大模型公司前期对市场的铺垫,最后商业化可能还是要依赖闭源。
可见,开源或许不一定是唯一的答案,但要赶超 Llama 2,大家还需再接再厉。
本文作者长期跟踪大模型开源背后的人物、公司故事与行业动态,关于智谱的成长,接下来AI科技评论将推出《智谱狂飙的365天》,欢迎添加作者微信 zzjj752254 互通有无。
更多内容,点击下方关注:
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
微信扫码关注该文公众号作者