风口还是泡沫？一文看懂大模型背后的技术与金钱之争｜GGV投资笔记第151期

其他

2023-06-12 11:06

GGV有话说：

GGV投资笔记是 GGV纪源资本关于投资、商业、科技的所见所闻所想，探讨关于世界的一切。

在这里，你可以收获：

全球优秀科技公司管理经验、一线调研；

顶级风险投资人&创业者经验分享；

大航海时代的世界人文历史、商业见闻……

以下是 GGV投资笔记系列第151期。

受访嘉宾：GGV执行董事罗超、星鲸科技创始人兼CEO 徐串、Datastrato创始人兼CEO 堵俊平

编辑：张颖

继ChatGPT之后，GPT大模型成为了2022年至今的另一个热点。百度、阿里巴巴、科大讯飞相继发布了GPT大模型，使这个热点更像是一场互联网巨头的盛宴。

但从另一方面，垂直行业巨头似乎也加入了这场狂欢，以智能汽车行业为例，蔚来、小鹏等大玩家正在部署高算力芯片并计划打造自动驾驶训练中心与数据中心，而在百度发布的新一代自动驾驶云产品Apollo Cloud 2.0上，已经试图基于大模型的自动驾驶数据实现进一步的智能化。

那么，大模型为什么火爆，创业公司又是否有机会加入它的探索之中？

所谓大模型，怎样才算大？

大模型的概念，为何突然映入大家眼帘？功劳簿上，ChatGPT的风靡应当被记上重重的一笔。

大模型实际上早已存在，以很早之前便诞生的百度推荐算法为例，唯有够“大”，才能够支撑百度服务于自己的上亿用户。

但ChatGPT让人们逐渐相信，大模型能够具备智能。换句话说，当AI模型足够大的时候，经过不断的训练与学习，就可能会搭载智能而存在。Alpha Go虽然能够战胜人类围棋冠军，但其背后的原理是对概率的计算，即预测对战双方不同选择背后的取胜概率。而ChatGPT 已经拥有了推理的能力，它可以将用户抛来的问题进行分析，分解步骤，甚至纠正用户的逻辑错误。

神经网络本身可以被视为一个复杂的数学公式，每个公式之中都包含极多变量参数，参数越多，模型就越“大”。当深度学习神经网络的参数足够大时（GPT3.5的阈值是参数达到600亿左右），真正智能化的大模型便出现了，而目前行业对大模型的定义是，只有在参数达到千亿以上才能够被称为大模型。

大模型概念被ChatGPT的风靡而刷新，随之而来的是对AI的更进一步理解。在此之前，AI的生产三要素被认为是：作为生产力的算力，作为生产资料的数据，以及作为生产关系的模型。但到了今天，模型才是真正的生产力，因为大模型能够像人类一样，直接从事一些实际的工作，而这将释放出社会上一部分的人力；数据和算力成为了生产资料，帮助AI持续变得更加智能。或许我们可以这样理解：大模型就像一头极其饥饿的巨兽，每天都在不断地进食着数据，从而释放自己的生产力。

那么，训练巨兽的巨头们，究竟需要储备或积累哪些资源呢？

首先便是人才密度，即拥有的高端人才越多，大模型的训练能力就将越强；其次是储备更多的数据量，这样有助于大模型的训练、提升精度等一系列工作；此外还有长期投入，具备屡败屡战、屡战屡败的气质。正如OpenAI创始人兼首席执行官Altman所提到的，OpenAI的推出并非如大家所想的一路鲜花与掌声，而是屡次失败，受到巨头的鄙视。是极高的人才密度，大量的数据支撑与坚韧的公司文化使他们有机会打一场翻身仗。

话说回来，如果说OpenAI是人类目前最关注的大模型，那么它又是怎样被训练的呢？

“预训练”是其中必不可少的一步。一个公式之中，究竟需要多少个参数才能达到大家理想中的效果？这通常很难预知，因此需要通过训练把参数值确定下来。因此，科学家会设计出基础模型，把公式的框架确定好，一旦涉及到具体场景或应用，大部分框架已经被固定住的情况下，可以再进行针对其他部分的预训练。

ChatGPT是基于Transformer 模型诞生的，而这个模型就相当于一个可以被预训练的“变形金刚”，在一次次被调试之后，最终成为一个行业级的大模型。

然而，在训练过程中，时间成本又是必须支付的。ChatGPT并非从一开始就如此好用，在一个不成熟的模型之下，模型本身无法做到“收敛”，人类与AI的对话可能突然崩溃，或突然说出莫名其妙的语句。

（图注：此外，大模型对中文的支持度也不够，AI根据中文生成图像时，可能会照着中文的字面意思生成一些风马牛不相及的“怪东西”。对于英文的谐音梗，AIGC的理解也并不深入。例如OpenAI发布的人工智能图像生成器“刀姨”（Dall-E2）把通心粉（Macaroni）的俗称“mac“理解成了苹果电脑“Mac“，画出了这幅苹果笔记本烤芝士烤通心粉。）

（图注：为了吐槽这种现象，有人想出一系列“科技新语”：人工智障（AI,Artificial Idiot），深度瞎学（Deep Blind Learning），误联网（Internet of Error），共想经济（Sharing Imagine Economy），区块不要脸（Block Brazen Chain）……）

为此，ChatGPT也经历了多个版本的锤炼。

锤炼到何时才能完成？OpenAI的大模型类似于一个智能体，它被投喂了从用户端得来的语料，也就拥有了卓越的语言与逻辑能力，就像是一个头脑聪明的人类一样，大脑里配备了超前的算法与思维逻辑。为了测试锤炼的效果，大模型也在高考季扎堆“赶考”，各家大模型都被拉出来参与考试。当AI小伙伴的文言文理解被送到资深语文老师手中时，他们感慨道“超过95%的同学应该是没问题。”围观整场考试的毕导则感慨道“再来一次高考语文，我可能考不过它。”

实际上，这些年来OpenAI的技术几乎是公开的，这也是为何如此多企业能够如雨后春笋般，先后推出自己大模型的原因。尽管入门门槛不高，但只有参数达到一定程度才算是大模型，而OpenAI便是坚持时间最长的那一家。

最可贵的是，这些年OpenAI的路线从未改变，它想要实现通用而非垂直的人工智能，通过自然语言于对话来生成内容。它的主要数据来源，一部分来自于搜索引擎，例如在Reddit上面找到很多回答，通过链接扩散出去，再将网页采集回来并进行清洗，而且也找到方法进行数据的标注；另一部分的数据来自于产品此前的用户，OpenAI会将不令人满意的回答挑出来，重新去撰写更好的回答。

总的来看，OpenAI很早就清楚自身在哪些方面做得不够好，并且针对性地做改进。尽管在多模态，即引入音频、视频等方面尚有欠缺，OpenAI的的确确打造出了令人满意的大模型。

在长征般的训练过程中，算力拥有很大的门槛，企业需要长期投入，业界普遍认为这个行业入场门票是10 亿元人民币。OpenAI的模型投入整体价值为440 亿美金。曾有人计算，OpenAI每天的成本高达1000 万美金，由于会收到来自全球各地区的人们的问题，每收到一个问题，都需要一定的算力去调用数据，这其中也将产生额外的成本。

尽管人们相信，在如此高昂的开销之下，OpenAI总有一天会面临成本下降的拐点，但拐点的时间无法预测。OpenAI的故事进一步证明了：偏基础性大模型的研发极为烧钱，一定需要谨慎入场。

大模型的未来格局

大模型是否只会停留在巨头狂欢的格局之中？以其背后的高昂成本来看，想要深耕细分行业的创业公司并非没有机会。

目前较为主流的判断是，大模型这个市场之中不会容纳太多家公司，在玩家们纷纷谨慎地考虑投入产出比与大模型对自己企业背后的价值之前，“赶风口”是很多人最大的动因。与很多具备马太效应的行业一样，最智能的两三个大模型提供商会存活下来。以中文世界为例，不够完善的大模型背后是训练的中文数据不够多，当然，这也代表着背后蕴藏的巨大机会。反过来，越是优秀的模型越会吸引更多人使用，因此有望形成赢者通吃。

因此，“通用大模型”通常被认为类似于基础的操作系统，例如Windows、 Linux 或者手机上的iPhone、iOS，而且数量不会太多，主要为几家独大。

然而，细分行业的大模型很可能呈现百花齐放的态势。最直接的理由是数据本身的分散性。在算力、算法和数据这三要素方面，算力更趋向于资源集中方，毕竟资金储备越多就越能够掌握更多的算力；算法方面大家的差距不大，不过若要实现算法的突破，本质上也需要拼人才储备量；唯一的变数是数据，随着移动互联网的产生，在大多数国家，数据都会被“切割”开，分散在不同的私域里面，由于没有实现完全的互通，因此每个行业都存放着自己专属的数据。一旦这些数据被很好地使用和利用，就可以产生各种各样的不同方向的大模型。

例如，大型企业很难把全部数据放在通用大模型的云上进行训练，因为这存在重大数据暴露的风险。同样道理，财大气粗的苹果、亚马逊也很可能不会将自己的数据置于公开环境当中。

因此，一个在垂直行业拥有权威性与第三方身份的创业公司也许会拥有自己独特的机会。正如TikTok可以在Facebook 的“眼皮底下”成长出来，拼多多可以在曾经淘宝与京东们的地盘疯涨到如今的规模一样，创业者绝不能毫不在乎巨头的竞争，但也不应当过度畏惧巨头的竞争。

以此来看，似乎每个行业都可能会被颠覆。尽管百度通过“通用搜索”干掉了“垂直搜索”这个概念，相对“通用大模型”来说，“垂直大模型”并不是没有机会。例如专属于金融的大模型将拥有自己独特的与特殊的训练方式，金融行业专业人士将更多投资报告与专业信息“投喂”给专属的大模型，后者就能够成为一位金融专家。

而此时，一家创业企业是否选择进入一个垂直行业并打造这个行业的大模型，就取决于这家企业的创业初心，团队优势基因，以及是否具备生成式AI 研发所需要的数据、算力和算法。当在某个垂直领域拥有足够的 know how，可以持续积累足够高质量、对于训练和优化有足够帮助的数据时，就可能有能力打造出一位该垂直行业的AI专家。目前，教育、金融、医学、法律领域都在开发垂直领域大模型：例如彭博社训练的金融领域LLM，开发了500亿参数的语言模型BloombergGPT、此外还有BenTsao中文医学模型和LaWGPT中文法律知识模型。

那么反过来看，拥有哪些业务的公司更有刚性需求去开发大模型呢？

目前最为公认的结论是，百度这样的搜索引擎企业此前拥有大模型的开发经验，也将持续进行这方面的投入。OpenAI这样的产品面世，不可避免地对搜索引擎带来冲击，百度也一定会力求保住搜索这块根据地。

还有哪些行业的公司更有刚性需求去开发大模型呢？或许我们通过大模型的性质来分析：它的模式是通过文字，或未来的音频、视频来进行交互并生成内容，因此，一切与交互有关的业务都会受到大模型的影响。此外，OpenAI具有文字生成的能力，已经逐渐波及到文字内容提供或创作的行业与岗位，一旦大模型能够辅助于音视频的创作，那么长视频与短视频平台或许也需要考虑新的对策。

（图注：DeepMusic的音乐生成界面）

（图注：Gemsouls：在AI虚拟世界中自创宇宙故事）

专家的判断是生成式AI在to B 领域会更早地去落地诞生，但其发展速度会比较慢。首先，to B 的生成式AI的量化指标较为简单，主要目的即帮助企业降本增效，如果它能够帮助市场人员提高文案生成能力，辅助原画师提高效率，那么与一款企业服务市场SaaS 产品一样，大模型就会在行业之中迅速渗透甚至形成标配。它甚至不需要完美的模型，只要能够帮助企业提高50%的效率，就有望形成付费。同时，正如大多数to B产品的生长曲线一样，它的发展也许会变得很慢。

（图注：Rowdy 使用 ZMO.AI 生成素材后的公司网页）

与to B大模型相反的是，在to C这个方向上，人们距离完美的大模型还有很长的路要走。想要打造一款to C产品的大模型，就需要让用户的使用门槛降到足够低，持续吸引用户带着好奇心去尝试，但目前看来这样的应用很难像短视频平台一样瞬间全网风靡。毕竟，to C大模型需要找到一个合适的场景，进一步加快响应速度，并且降低响应成本。不过to C产品的爆发力会比to B产品大得多，有希望诞生出一些现象级应用。

OpenAI的大本营是英文与英语国家，而考虑到人口基数与影响力，中文世界与俄语世界是另外两个目前被较为看好的市场。首先，小语种国家的市场比较小，很可能导致大模型的研发投入过高，收入又过小；此外，每个国家对外部交流与交互的需求不同，对AI产品的接受度有高有低；再次，并非每个多家都拥有足够的技术储备、数据与算力，如此看来，中文大概率将加入大模型之战中，成为其中的弄潮儿。

大模型的挑战

或巨头林立，或百花齐放，热火中的大模型即将在接下来几年面临很多挑战。

首要挑战是大模型所存在的必然性。换句话说，开发者是否能够承担巨额成本，并且将大模型转化为自己需要的商业价值。目前大模型领域的所有玩家都无法依靠单纯的收入去覆盖高昂的研发成本，GPT-4目前都没有完全开放，恰恰就是因为成本过高，如果完全开放就会对服务器带来巨大的负载，即使微软这样的企业也很难承担。

那么无论对于创业公司或是巨头来说，训练大模型的“日常投入”究竟能否在其他业务上弥补回来？这变相决定了是否一家高调进军大模型的企业会在研发之路上选择半路放弃。

此外，由于大模型“食用”的是数据，那么就势必涉及到错误数据或数据污染的问题。毕竟，开发者最初预设的是没有数据污染的大模型，然而交互过程中，难免会遇到胡言乱语的对话者。目前行业中无法完全杜绝这个问题，只能等待技术的持续迭代。尤其在to B等运用领域，提高效率远比生成足够精准的内容更加重要，因此数据的精准与纯净并没有涵盖在首要考虑之中。

一个重要而有趣的变量是“开源”。逐渐有企业提到，自己即将利用开源的形式开发大模型。

一些专家认为，这更多是一种竞争策略，而非对行业形成巨大改变的开发方式。OpenAI的成功在前，后来者试图超越它，就需要把更多人才吸引进来，而开源对人才的吸引力比闭源高得多。一个闭源平台会让人产生顾虑，但如果是一款开源产品，人们可以在自己的服务器上部署自己的开源平台，而不需要将数据托管到其他供应商的闭源平台上。因此，考虑到OpenAI 的聚集效应不够强，把更多人力分散到一个崭新的开源平台上也会带来一些变数。