半年估值数亿,1000亿美元超级赛道跑出“AI猛兽”公众号新闻2024-06-26 12:06铅笔道与联想创投共同推出“AI聚变”栏目,聚焦AI时代新洞察、新趋势、新机会。对话丨李祥 邹蔚去年,谷歌发布了一份忧心忡忡的内部文件:“虽然谷歌与OpenAI(在大模型上)你追我赶,但双方都没有真正的护城河,因为第三股力量正在崛起——开源社区才是谷歌和OpenAI最大的敌人。”谷歌的担忧正逐渐变成了现实。马斯克的开源大模型公司xAI近期完成60亿美元B轮融资,估值达180亿美元;坚持开源的法国AI初创公司Mistral AI获得了6亿欧元投资,最新估值已逼近60亿欧元;知名大模型开源社区Hugging Face,估值也飙升到45亿美元。而在代码开源与托管领域,更是早已跑出了GitLab、GitHub等知名社区。开源生态,正逐渐成为左右大模型发展的关键力量,可就在海外大模型开源进展如火如荼之际,中国的开源社区、开源生态却有些掉队。知乎上有一个热门问题“为什么中国出现不了Hugging Face?”但这种情况正在改变。2023年,云计算和AI领域连续创业者陈冉,创办大模型开源社区OpenCSG(开放传神),为客户提供开源大模型产品及服务。成立不到半年,OpenCSG就拿到了联想创投、北京国信中数的投资,公司估值已达数亿元。作为一名在开源和AI方面拥有20年经验的老兵,陈冉发现,大模型正带来前所未有的行业巨变,但大多数企业级用户既无法基于大模型开发应用,更无力训练出一个符合自身需求的模型,AI版“GitLab+Hugging Face”出现。“大模型领域,开源非常重要,开源关乎商业模式,关乎产业链”陈冉告诉铅笔道,“组建开源社区、构建开源生态,很可能是打破OpenAI市场垄断的唯一方法。”资料显示,2024年全球大模型市场规模将突破280亿美元,到2028年将突破1000亿美元。出海参与全球竞争、为全球企业服务,也是陈冉的梦想。“我想证明一下,中国也可以诞生开源领域优秀的创业公司,让投资人看到开源的商业价值。”近日,铅笔道与陈冉就开源社区的商业模式、中国开源市场前景等话题做了交流,以下是对话精华。- 01 -铅笔道:作为AI老兵,是什么样的契机让你要在开源领域再做一家公司?陈冉:我看到了AI时代开源将迎来颠覆性的机会,值得再创业一次。工作20年,我一直做开源这件事。我上一家开源公司主要为B端客户提供本土化的代码服务以及数据支持,积累了1600万用户,成了国内最大的开源平台。Hugging Face是一个优秀的大模型和数据集托管平台,类似于GitHub,但其主要针对科学家、算法工程师,却没有特别大的意愿去做to B生意。在AI时代,我原先的积累刚好可以填补市场空白。我有搭建超大型线上开源社区的经验,也会做to B的生意,擅长为企业提供本地化服务和私有部署,还有1600万熟悉的用户。这一切要素叠加起来,意味着我可以在AI时代做成中国版“GitLab+Hugging Face”,对开源来说是历史性机会。铅笔道:创立OpenCSG后,市场需求跟你原先设想的一样吗?陈冉:基本一致。真正深入到市场后,我很快意识到“降本增效”已经成了大模型的当务之急。在当下,大家共同面临的是“大模型好像比什么都重要,但无法真正应用到场景中”的困境,一个重要原因就是大模型成本太高。算力、数据处理、算法人才都很贵,OpenCSG初衷就是降低大模型的使用成本和门槛。OpenCSG这个名字就代表着降本增效的公司理念。C即Converge(集合),代表算力的集合。因为大模型发展的最高优先级是算力,但中国的算力比较分散,因此需要通过高中低配算力——国产算力与国外算力分布式搭配,按需分配算力。S即Software Refine(软件重塑),软件重塑就是通过大模型去生产代码,因为BAT等大厂把研发人员的工资炒得很高,同时人效很低。我们的理念是用大模型开发代码与交付,在软件定义的层面降本增效,最近刷屏的Starship就是主力产品。G指Generative(生成式AI)。大模型是未来,但大模型一定要以开源的方式交付给客户,也就是我们所说的Open(开源开放)。国外有Gitlab和Hugging Face这样优秀的开源平台,但中国直到大模型时代,还一直缺这样的平台,这就是OpenCSG的机会。铅笔道:GitLab已经是全球知名程序员社区,Hugging Face的估值也达到45亿美元,OpenCSG打算怎么走?陈冉:最终目标肯定是走出去,跟GitLab和Hugging Face在全球竞争,因为中国有全世界最广大、最优质的研发人员,有软件人才基础。但从更现实角度,当前还是要稳一些,先把用户规模和营收做扎实,再扩大规模。今年我们已经基本营收平衡。铅笔道:市面上的主流大模型都还没有盈利,OpenCSG是怎么做到的?陈冉:大模型本身并不值钱,我们把大模型的价值用开源的方式交付给客户,让客户真正为价值付费。铅笔道:客户付费的点是什么?陈冉:OpenCSG的商业模式类似于帮助客户搭建专属云,通过订阅付费模式,为客户提供搭建软件架构的能力,帮助客户定制大模型中的“专有云”。我们有几款主力产品——CSGHub开源模型平台、悟空预训练模型、CSGCoder微调代码模型,以及刷新了大模型编程纪录的StarShip。同时相比于MaaS(模型即服务)公司只提供开源大模型的接口,我们还会额外提供开源大模型的代码帮助公司进行Fine-tune(微调)和开发。在使用OpenCSG构架服务后,即使是没有开发能力的客户,只需要通过自然语言输入需求,就能快速生成基于大模型的软件。铅笔道:听起来,OpenCSG要为大量用户做定制化服务,赚的像是份辛苦钱。陈冉:不辛苦,因为我们是开源的方式,本质上客户自己组装出来的模型。我们的模式类似于宁德时代做电池,蔚来、理想都可以基于电池做汽车,但电池和中控这样的核心技术是宁德时代自研的。那OpenCSG已经制订了行业标准,搭好了开源平台,并且有成型产品,B端客户要享受企业级服务,就会付费。至于定制化需求,我们有一大堆合作伙伴,同时是开源协作的方式,只要客户给到核心数据,就能训练出他需要的模型。- 02 -铅笔道:像周鸿祎、杨立昆、朱啸虎等人都认为开源模型才是未来,你怎么看大模型的开源和闭源之争?陈冉:我觉得开源和闭源之争是商业模式的竞争,就像iOS系统和安卓系统,没有好坏之分,两者也一直是并存的。只是闭源一般都是某几个大厂在做,开源则强调全球协作,因为参与的人更多,场景越多,产品才能适配更多的人群,是共创共赢的思路。只是对于中国来说,做开源的优先级一定是要高于闭源。铅笔道:为什么这么说?陈冉:因为中国的大多数企业并不具备做闭源的实力,哪有那么多人有钱去搞个闭源模型?还有个关键点,大模型未来的关键节点不是算力,甚至不是模型,而是核心数据集。由于核心数据集一般在甲方(企业)手里,如果甲方把数据灌到一个商业版闭源模型,那训练出来的模型是归客户还是模型厂商?未来数据归属权和大模型归属权是说不清楚的。客户肯定想模型归自己所有,因为企业数据大多涉及核心机密。所以我们坚持做CSGHub开源模型平台,为企业提供线上线下一体化服务。企业真正需要的应该是线上线下一体的平台,因为企业数据作为第一要素必须放到线下进行管理。为此,我们坚定做开源模式,让客户自己管理自己的数据资产。铅笔道:优质的中文数据集数量不足,缺少优质数据是否会制约大模型未来的发展?陈冉:我告诉你为什么,因为中国在上一个时代的数字化转型走得不通透。中国的互联网时代确实非常辉煌,但恰恰是辉煌“耽误”了一代基础技术的底层构造。因为各家应用公司都想着垄断数据、积累用户,导致开源一直发展不顺。虽然国内也有很多优秀的开源项目和社区,但相比国际仍有差距。中国的开源文化并未像国际上那么成熟,缺少足够的理解和支持。在商业变现上,国内也没有踏出一条从开源技术孵化到商业变现成功(IPO)的闭环,适应中国国情的开源商业模式一直没有形成。这些基础技术、软件积累的缺陷会在后期发展越来越被放大,在大模型时代更是如此。为什么我们一直处于追赶,因为任何技术的发展都是有规律的、持续迭代、相互依赖,最终形成新的创新。创新不可能来源于Nowhere,国内缺失了一些开源的环节。铅笔道:那OpenCSG要走的这条路是不是特别艰险?陈冉:再早三年这件事我都不愿意干,因为这件事在中国就属于是之前没做的事,你要补漏,所以你说困不困难?非常困难。但这又是创新的必要环节,你必须要做。我坚定地认为中国需要开源生态,国家和政府也正在出台有利政策支持开源生态的发展,比如十四五规划提倡支持开源。但开源不是某一家大模型公司能做成的,而需要搭建整个开源生态和社区。所以我只有坚定地做下去,相信总有一天开源生态会迎来爆发,因为开发者都能在社区中获利,就像商户能在淘宝里挣钱了,他们就愿意留在这个社区,你也就成了这个时代的淘宝。- 03 -铅笔道:一开始如何吸引众多开发者到OpenCSG,如何活跃社区?陈冉:活跃社区有一个专业名词叫“牵引力”,我们主要有三个牵引力。第一,为用户提供实时可用的算力,OpenCSG在线上的目标人群是研发人员,所以我们有一个算力交易平台,让所有研发人员能以最低成本、最低门槛使用大模型。并通过线上算力的分佣,实现研发人员降本增效,产生更多的agent。第二,我们提供各种可靠的、可负担的开源模型选择。我们预训练了很多模型,比如悟空模型,还有其他很多开源模型,客户永远能找到量身定做的模型。第三,我们足够便宜好用。举个例子,我们很多企业客户实际上并没有额外经费,也不知道如何挑选适合自己的模型,但客户的痛点很明确——降本增效。在OpenCSG,因为有开源代码和预训练模型,客户只需要描述应用需求,OpenCSG就可以完成相应软件的代码生成。例如客户希望开发网站,仅通过描述网站各项功能,相应软件应用即可搭建起来,相比自己组建团队成本自然更低。这些省下的人力成本,就转变成了给OpenCSG的订阅费。铅笔道:很多开源社区希望营造一种“人人为我,我为人人”的社区氛围,在OpenCSG是否如此?陈冉:人人为我,我为人人,这是一种情怀。但开源不是情怀,这是一种商业模式。开源社区要不然帮别人挣钱,要不然帮别人省钱。社区的繁荣一定由利益驱动,很多人天天讲要做开源的领袖,要为开源文化做贡献,我只能说这是学术思维,更多企业做开源是为了盈利。铅笔道:在市场竞争上,你担心Hugging Face吗?陈冉:我一点都不担心Hugging Face。当Hugging Face还在做线上的时候,我就在提私有的开源大模型托管模式(将技术授权给一家完全独立的本地公司,帮助企业更快更好地开发软件),我等于是在创造用户需求。并且我已经盈利了,因为我清晰地知道:降本增效就是商业模式。大模型还没商业化,不代表围绕大模型不能产生商业模式——可以衍生出软件订阅、数据集交付、服务、商业版分发等模式。包括估值,我已经是第三次创业了,我一直认为公司的估值一定要跟收入匹配,没必要为了融资虚估企业估值。还是那句话,客户为产品付费,永远付费的是价值点,那我就给企业客户带来价值,获得收入,稳扎稳打一些。铅笔道:如果本土互联网大厂也想做跟OpenCSG类似的产品。陈冉: 大厂和创业公司的做法还是有很大不同。OpenCSG从诞生起就是原生的大模型公司,推出的都是基于Git的大模型开源产品,很多大厂尽管重视大模型,但也不可能把其他成熟业务全砍掉,在资源分配上决策就很慢。铅笔道:在大模型时代,中国打造开源生态的最大困难是什么?陈冉:懂行的人太少,也缺乏开源成功的案例。上一个时代大家不关注开源生态,起步就很晚。美国开源做了30多年,诞生了不少百亿美金的独角兽,大批投资人通过投资开源项目赚得盆满钵满。而在中国,时至今日也没有把开源项目做到上市的公司。但在大模型领域,开源又非常重要,开源关乎商业模式盈利,关乎产业链。所以我们希望成为中国在开源开放领域领先的公司,让更多人看到开源的商业价值。本文仅为口述者独立观点,不代表铅笔道立场。本文不构成任何投资建议。封面图来自微信图库。欢|迎|联|系想获得调研,请联系:pencil-news想商务合作,请联系:renguozhou2019想加入创业社群,请联系:Pencil-news想进行市场合作,请联系:Pencil-news文章转载,请联系:Pencil-news推|荐|阅|读关|注|我|们喜欢的话,记得分享、点赞和在看哦微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章