「我们本来也觉得看热闹的人少了,但没想到用户的热情未减。」
谁在推动我们的时代?他们做了什么,如何思考?对话关键人物,记录创新底稿。
本栏目将持续推出。
在「文心一言」放开后的第 24 个小时,沈抖进到后台看了下数据,发现文心一言回答了用户「3342 万个」问题,这个数字超出了他的预期。
两天后,沈抖和包括我本人在内的几名媒体人坐在一起聊起这件事时说,「我们本来也觉得看热闹的人少了,但没想到用户的热情未减。」9 月,在中国大模型热潮持续了整整半年之际,普通人终于有机会上手。8 月 31 日起,包括「文心一言」在内的多款大模型陆续通过备案,正式对公众开放。这一消息不仅让用户雀跃尝试,也引发了企业的热情回应。沈抖说,在文心一言开放当天,在百度智能云千帆大模型平台上,日活企业数增长超过 40%。——后者是百度面向企业端推出的大模型开发与管理平台。在大模型时代,百度希望在同一时间线,推动个人和企业用上大模型。从宏观角度来说,这有利于大模型这项前沿技术的普及。从公司角度来说,这有助于百度自己做生意。尽管 C 端用户的商业价值未能立刻显现,但 B 端客户的商业价值则直接体现为模型 API 调度费、以及云计算收入。去年 5 月,已经掌管百度移动生态(MEG)多年的沈抖,被委以百度智能云事业群(ACG)总裁这一重职。集团对他的期待是,抓住 AIGC 时代的机遇,把智能云做成百度第二增长曲线。但沈抖面对的状况却非常棘手。百度并不是中国最大的云计算厂商,只是在用于 AI 相关服务的公有云上排名领先。当时,沈抖也希望用 AI 带动整个云服务增长,无奈当时的 AI 能力太「碎片化」,无法摆脱服务成本高、难以规模化、利润微薄的现状。但几个月后,大模型时代到来。从竞争格局上看,过去以 IaaS(基础设施即服务)和 PaaS(平台即服务)为主的基础云服务,正在让渡于以 AI 为主的 MaaS(模型即服务)的云服务。沈抖认为这正是百度智能云「弯道超车」的机会。而从营收的角度上看,大模型的通用能力,让云服务得以更标准化,从而在不同场景中规模复用,降低服务成本、增加利润。正是因此,百度管理层在 2023 年二季度财报电话会议中对投资者表示,AI 和大模型会让百度智能云获得更高的利润率。问:看热闹到了真正干实事的时候。前两天,百度在 C 端开放了文心一言,你怎么看这个用户使用数据?在意料之中还是意料之外?后台的运维能力是怎样的?沈抖:数据是我当天晚上 12 点半发到群里,同事们第二天就发布了这个数据。数据是我从系统里截的,原封不动地呈现给了外界,绝对真实。我们本来也觉得「看热闹」的少了,所以预期没有那么高。没想到当天有 3342 万个回答量,这说明用户对文心一言期待还是很高的。大家不是上来问一句、两句就走了,而是经过了多轮的对话。从这个角度上来说,用户的热情还在。文心一言从 3 月 16 号开始内测已经有五六个月时间,无论在效果提升、还是成本降低上,都给了我们比较充裕的准备时间。比如文心大模型的推理速度已经较当初提升了 30 多倍,大幅降低了推理成本,也让我们能够承载得了这么大的用户量。问:所以这段时间百度大模型的技术进步,也包含成本上的进步?我们开始没有想到流量会这么大,机器(算力)资源本身很宝贵,我们觉得放太多机器在那儿也是浪费,就没有额外放太多机器。当天用户规模上来以后,好在因为我们的推理性能提高了,所以还是给用户提供了稳定的服务。我们手里也握着不错的算力储备,接下来也会继续降低训练、推理的成本,满足用户需求没有问题。当时我们内部群里讨论,流量来了能不能抗住。我说,让流量来得更猛烈些,都是幸福的烦恼。问:文心一言在 C 端的放开,对百度的好处是什么?沈抖:你可能担心的是,向 C 端开放如果不能带来商业价值,是不是可持续的问题。事实上,只要真正给用户创造了价值,商业化只是时间早晚的问题。技术发展史上,那些有价值但变现难的事例很少。文心一言确实给 C 端用户带来了真真实实的价值,昨天我看有一些评论讲,没有了文心一言,他的办公效率就会下降。所以只要有价值,未来文心一言的商业化是顺其自然的。问:中国大模型的 C 端产品形态,会跟 ChatGPT 保持一致吗?也就是订阅制收费吗?沈抖:现在讲大模型的产品形态还太早了,它的定义也还没有那么清楚。当年移动互联网起来的时候,我们可以用几个关键词讲清楚它的定义,比如 SoLoMo(Social、Local、Mobile,利用社交媒体、地理定位服务和移动终端设备提供更好的用户体验)。但现在大模型还无法用几个明确的词定义。它的能力更强大,但边界也更宽泛,还远没到收敛产品形态的时候。OpenAI 是技术驱动的公司,用户体验其实不是它的强项。它今天设计出的产品形态还很早期,接下来产品的迭代速度会非常快、形态也会剧烈变化。问:ChatGPT 向 C 端用户收订阅费的商业模式,在中国是可行的吗?沈抖:我们可能会演变出新的变现方式,比如常见的广告、电商加游戏三大变现方式。如果你愿意一个月花两千块钱雇一个助理,那当 AI 能做助理 1/10 的事情,比如帮你制定旅游行程、预定机票和酒店、甚至调动打车和外卖软件等,你会不会愿意花两百块?只是变现方式不一定是会员费,可能是交易佣金或其他方式。再比如,游戏里边一堆 NPC 角色都是生成式 AI 驱动的、电商领域「数字人」直播也由生成式 AI 支撑,这都可能产生不同的变现方式。最终 C 端的产品形态,决定了它的变现方式。问:如果 C 端产品最终是生产力工具,有没有可能不是个人掏钱、而是公司给个人掏钱?沈抖:有可能。比如百度网盘也算是一个效率工具,很多公司会买网盘账号给员工用。我们还接触过企业,给每个员工配一个 Copilot 账号写程序。这都是企业给个人买单的案例。「文心一言」界面问:作为内容公司,我们也特别想用大模型来生产文章。你们刚上线了 To B 的大模型服务平台「千帆」,推出「千帆」的背景是怎样的?能怎么帮助零程序员的公司部署大模型?沈抖:这是非常好的问题。事实上,这就是我们做千帆平台的原因。这次大模型在 B 端落地的特点是大公司先行,很多客户都是金融机构、能源机构、教育机构等。它们有一个明显的特点是需要私有化部署,但这样门槛很高,还要自己培养一堆技术人员迭代模型,可能会减慢大模型生效的时间。反倒像很多中小公司,你们大概率不会排斥一个(平台型)SaaS 产品,也不会排斥公有云。千帆平台就是这样的产品。企业可以在上面直接调用 API,也可以训练样本做微调,几乎零代码打造自己的模型。我们做千帆的目的,就是要降低大模型的部署门槛、推动大模型的广泛应用。问:似乎你们和 OpenAI 的路径有所不同。OpenAI 是先推 C 端产品 ChatGPT,再慢慢推 B 端产品,百度却是 C 端和 B 端齐头并进。为什么会有这种差异?沈抖:技术都有接受度的问题,得让更多的用户真正用它,找到它的价值所在。大家都在谈大模型,但多少人真的用过大模型?B 端企业客户更能感受到大模型对它们整个生产范式的潜在影响,它们更需要用起来。但如果它们既不用公有云的 API,也不自己搭一套环境去体验、尝试,那就是纯粹在那儿天马行空地想象。所以我们需要做千帆,让它们先把大模型用起来。其实关于大模型的全方位开放,C 端等了很久,B 端也等了很久。只是 B 端离商业化更近。问:文心一言放开后,千帆平台的 B 端需求被拉动了多少?沈抖:在文心一言开放的当天,在百度智能云千帆大模型平台上,日活企业数增长超过 40%,考虑到 TO B 的反应速度通常滞后一些,实际的情况会更好一些。放开不仅会拉动 C 端数据上涨,也一定会拉动 B 端的数据上涨。因为这会帮 B 端企业降低成本、加快迭代速度(注:用国内模型成本更低、更方便)。但从数据涨幅上,B 端暂时还比不上 C 端。今天假设有人要在 B 端用「文心一言」,他与其上来就调用 API,不如先去 C 端体验一下。当他认为体验好,才会来千帆上用它。让 B 端用起来,需要一个培育的过程。问:如果 C 端和 B 端齐头并进,你们怎么设置优先级?重点主要放在 C 端还是 B 端?沈抖:当资源出现冲突时,才需要设置优先级。大模型的特点是,它在底下很厚的一层都是通用的,那在上面找应用,无论 To B 还是 To C,都是百度要齐头并进做的。没有到资源冲突的地步。在 C 端,百度正在积极研究大模型可落地的产品形态和商业模式。百度要基于大模型重构自己的 C 端产品,比如从百度自己的产品数据来看,百度网盘、百度文库等产品,基于大模型重构后,用户使用粘性和会员付费率都有很大提高;全新打造的文心一言 APP 和重构后的百度搜索,也成为大模型应用新入口。在 B 端,百度智能云通过打造出最好的大模型平台,服务好 To B 市场。问:其实最通用的基座是你们的云计算,无论服务内部客户、还是外面客户,都是你们的成功。沈抖:是的,你服务好了内部客户、就服务好了外部客户,服务好了外部客户、就服务好了内部客户,这是 MaaS 的美妙之处。否则的话,假设外部和内部完全是两套技术栈,成本就太高了。我们是两条腿走路。百度当然希望能做出一鸣惊人的 To C 产品,但我们也非常愿意通过底层大模型和算力,支撑更多的企业和开发者做出好的 To C 应用。其实无论上面谁成功,都是底层大模型的成功。问:除了文心一言外,千帆平台还上线了其他模型。千帆跟 Hugging Face 这样的模型聚合平台有什么区别?沈抖:在目前或相当长一段时间内,不管是出于模型的场景适配性、还是客户的心理需求,企业都希望能尝试不同的模型。从这个角度来讲,我们也需要提供第三方模型。但也不是每一个模型都值得去试,那会是很大的资源浪费。所以千帆有自己的筛选原则,我们放上来的都是相对比较优秀、易用的模型。问:所以 Hugging Face 的定位是社区,千帆的定位是平台?沈抖:没错。千帆不只是解决你来选模型的问题,更解决你把模型真正用起来的问题。用起来又包括数据、训练、调优、Prompt 工程,以及应用搭建等一系列问题,还要充分考虑到成本和效率。千帆提供的是一站式服务,这是千帆跟 Hugging Face 的区别。Hugging face 模型广度足够,而千帆依托云厂商天然的优势,有足够大的运营空间,也可以做到端到端的训练和推理性能优化。例如,训练过程中的加速,故障的快速感知、定位、恢复;推理过程中基于百度庞大的异构计算集群的扩展性,有非常好的资源弹性,也可以提供 serverless 的服务,使得客户获得低基础设施成本、无需运维、高扩展性的收益。这是千帆要比 Hugging Face 做得更深的地方。百度智能云千帆大模型平台 | 图片来源:百度智能云官网问:你似乎不看好开源模型,但开源摊薄了企业部署大模型的成本,也不能说它没有意义。你到底怎么看开源模型?沈抖:你说 LLaMA(注:Facebook 的开源大模型)的成本谁摊?是 Facebook。那 Facebook 的成本谁摊?如果想不清楚这个问题的终点,那它(开源)就是无源之水、无本之木,终归有一天会出问题。因为这跟传统的开源软件不一样,过去一个人参与开源的投入,就是他自己的时间成本。但今天如果一个人想搞开源大模型,机器、数据的成本都太高了。今天跟传统开源玩法有一点相似是,它们都是用开源来吸引用户的注意力,最终还是希望选其他(闭源)大模型。问:有没有可能出现类似 Red Hat 和 IBM 的关系(注:2018 年,IBM 宣布收购全球最大的开源公司红帽)?假设像 IBM 这样不甘心的有钱企业主,愿意支持开源方呢?这样开源就有资金、数据支持了。沈抖:开源肯定是会长期存在的。随着大模型越来越受关注,政府、企业都可能捐赠去支撑这方面的研究,促进整个市场教育。但它最后能产生多大的价值?我觉得它大概率不会成为主流,也不会形成完整闭环的商业模式。传统的软件开发可以形成闭环。比如你写了一段代码或升级了一个功能,可以很快 check in(签入),整个开源软件的能力一下就提高了一层。但今天 LLaMA 发布完了以后,不管有多少人在用,它没法 check in 回去,数据放不回去、算力放不回去、能力也放不回去,形成不了闭环。问:很多开源派认为,开源模型读过万亿参数,虽然比不上闭源模型,但是也是很可用的了。就像模型本身虽然没有 985 和 211 毕业的水平,但至少是个专科水平可以用来做更垂直的微调了。沈抖:Foundation Model(基础模型)到底要不要进步?如果说今天 Foundation Model 已经很好了,不用再改了,那没有问题。但今天的情况是,Foundation Model 只有 60 分,我们要争取做到 90 分、95 分的问题。问:为什么要进步?很多企业的真实感受是,GPT3.0 都已经能解决问题,那进步的意义是什么?沈抖:这是一个很好的问题,我们内部也讨论过。今天 Foundation Model 做到 60 分也能解决很大一部分问题,但它离完美地解决,差距还是很大的。而人性的需求是,但凡你能让我一次解决的,分两次绝对不干。今天你在 Foundation Model 只有 60 分的基础上,训练出了 85 分。那之后 Foundation Model 达到 85 分,你是不是能得 95 分呢?人在这方面的追求是无极限的。这个极限肯定是要继续往上拉的。拿搜索举例,20 多年前的搜索就能用,那谷歌这 20 多年都在干嘛?你看似结束了,实际上没有。沈抖:今天市面上有非常多模型,但我认为它们很多都会迅速消失。现在很多模型之所以还存在,是因为很多人还不知道它的好坏。反正谁也试不了,谁也用不了,一测排名还挺靠前。但随着模型的放开,优劣更容易评判了。今天这些做大模型的,你给他三千万个问题输进去试试,估计一大半都得干趴下。这会导致流量的逐步集中,头部模型更容易形成规模效应,从而进一步分摊模型研发的成本。差距会进一步拉大。沈抖:不好说,毕竟大家融的钱可能还得花一段时间。对于大企业来讲,烧还是烧得起的,但也要看它烧的价值何在。有一些企业是冲着反正自己的应用场景很多,这时候让它去调别人家的大模型 API 肯定不干,所以一定会做一个自己的模型。好点、差点(无所谓),至少不用依赖外部。大企业做模型这件事还会持续一段时间。
大模型让云计算服务
走向「标准化」,
百度云终于赚钱了
问:未来大模型会不会成为所有应用的底座?这会诞生一个完全不同的开发、应用生态吗?沈抖:毫无疑问,大模型会成为一个新时代的操作系统,变成很多应用的底座。一直以来,人和人、和机器打交道,都是用语言作为指令。但过去,机器不懂自然语言,我们就硬生生写了一套程序语言让它理解。现在大模型理解了自然语言,整个应用开发范式就发生了根本性的变化。开发变得由创意驱动,而不是由代码能力驱动。另外,大模型也有把系统串联起来的能力。像现在插件的出现,也就是独立完成某种能力、等待被调用的组件,大模型可以把插件组合起来完成一个特定的任务。这都会进一步改变开发范式。问:如果大模型能打通所有插件解决问题,这是不是变相实现了互联互通?沈抖:其实依然没有。实际上,这些 APP 现在也都存在于同一个手机上、同一个应用程序里,它照样没有实现互联互通。将来在大模型基座上,美团接进来、滴滴接进来,但它们还是没有互通的。沈抖:对,互联互通应该指的是数据打通,你的数据我可以访问、我的数据你可以访问。但在大模型底座下,我们只是愿意跟这个中枢对话,但我们插件彼此之间并没有对话。问:这种不互联互通的情况,会不会导致开发者不能流畅地实现跨资源调度?这会是中国大模型开发生态的缺陷吗?沈抖:我觉得主要的原因是没放开、流量规模没起来。比如文心一言一下子有了 3000 多万的流量,开发者一算可能 1% 是自己的,那也有 30 万的访问了,他就会决定来干。问:在大模型时代,百度云怎么定义自己在生态里的位置?利益机制如何分配?沈抖:以百度一家之力是绝对干不过来的。不是恐怕干不过来,是绝对干不过来。首先,插件一定会是非常繁荣的生态,它和大模型之间是相辅相成的。插件要从大模型中获取流量,大模型又需要插件能力的支持,就像今天假设手机上没有微信、抖音 ,用户可能都不用它了。其次,在面向终端客户的应用上,无论是私有云部署、还是通过千帆这样的平台级方案,最终一定需要生态伙伴完成最后一公里交付的问题,比如金蝶、用友、软通动力等。它们有特别熟悉的客户和业务流程,最终需求都会被它集成。总结一下,一是开发生态的能力聚合、二是帮大模型做交付的合作伙伴、三是用大模型强化自身服务的客户,这都是生态。沈抖:技术发展的脉络是越来越高级。换句话讲,离底层越来越远,越来越不需要关注细节,封装越来越好,有大量的人在背后把这些活给干了。这本身也是云贡献的价值。早期的 CPU 云贡献的价值,就是客户不用自己买机器一个一个卡绑,它封装得越来越好、可以在上边直接用。随着大模型时代到来,「AI 加速芯片」GPU 慢慢成为算力中心,算力增长速度远远超过 CPU。这会加速我们从 CPU 云向 GPU 云的切换。在 GPU 云的时代,最终我们会把云的能力进一步封装,不让底层暴露出来,形成更高级的交互形态,直接对接大模型的 API。今天的云还是给工程师开发的,交互形态还不够彻底,但未来底层的工程师会减少,更多人会往上层走。这是一个大幅的变化。百度智能云 | 图片来源:视觉中国问:大模型会重塑云计算的市场格局吗?如果会,什么时候能看到信号?沈抖:我喜欢这个问题。如果没有大模型的话,百度的云会打得非常吃力。我们过去一直在喊「深入行业、聚焦场景、云智一体、AI 普惠」,百度智能云想做的就是把 AI 放到整个 To B 的服务里,让它成为一个增长点。但过去,传统的 AI 是非常碎片化的。它要针对一个问题生成一个能力,再解决这个问题,通用性比较差。这就导致它都是项目制,很难规模化,毛利也低。而生成式 AI 出来以后,我们看到它的通用性非常好、一下子能解决很多问题,在应用层往下基本都是统一的,哪怕需要微调、需要插件,都是标准化的动作。这跟之前非常碎片化的 AI 应用完全不一样。这本身就是云业务的巨大变化,所谓的 IaaS 变成了 MaaS。问:过去中国的 AI 公司都是要落项目,非常苦。没法像现在这样,通过标准化的产品解决问题。沈抖:我们那时候跟 Robin(注:百度创始人、董事长兼 CEO 李彦宏)讨论云战略,他也要求我们必须得标准化、规模化,不然体现不出来百度作为一个技术公司的价值。沈抖:大模型在早期有很大的不确定性,今天,很多客户对大模型的能力上限、边界、成本、交付、需求方式都还没有统一认知。短时间内,我们还不能保证客户都到公有云上来,肯定还是先通过项目制的方式去做。但即使是这样的项目制,也跟以前的项目制不一样。比如我给你私有化部署了模型,它更像是 Windows 或者是 office,先是 95 版,接着是 97 版,又来了 2000 版,你得不断的升级。看似我给你一个光盘装到家里了,实际上你得不断地订阅。这跟原来搭建的也不一样。问:但你们的财务已经出现了改善。今年一季度百度智能云首次实现季度盈利,你们提到原因就是云服务的标准化,实现了规模复用、降低了成本。沈抖:是的。在单纯项目制、或者项目制占比比较高的情况下,交付后毛利太低了。问:作为百度最高决策层的一员,你平常最关心和焦虑的问题是什么?经常要跟团队讨论的问题是什么?沈抖:在产品形态上,Robin 有一个要求,一定要用 AI 原生思维来重构所有的产品。是重构,而不是接入。在技术上,我们思考的是今天生成式 AI 的能力还能往上蹦多高。文心一言现在的评测结果还不错,但它还远远没到人类语言、或者优秀人类语言理解的上限。怎么能继续快速拉升这个能力,肯定是我们第一位思考的问题。接着是行业应用上,模型怎么能真正用起来、在哪些场景能用起来、用起来的门槛有多高、边界有多宽、怎么能提高它的效率、怎么激发大家想到更好的用法……这都是我们要不断思考的东西。沈抖:现在算力集群从千卡到万卡,百度是中国真正在万卡级别上跑单一任务的公司。在万卡集群下,组织、效率、保障这些真正底层的工作大家看不见,但是它们极其重要。比如,我们要提高底层硬件和软硬一体的训练、推理效率。这都是蛮关键的东西。问:你在百度这么多年一直都负责搜索、广告业务,直到去年才主掌智能云,马上就遇到了大模型的历史机遇。会觉得是一种幸运吗?你的感受是怎样的?沈抖:没那么夸张,但我确实很兴奋、很幸运能去做这么一件事。去年接手的时候,我就有(把云服务)规模化、标准化的思路。但因为 AI 能力太碎片化了,做起来非常难。当时我就使劲在想,有什么东西是既需要 AI 能力、又需要 AI 算力、同时还能让很多人同时去用的?找半天找不着。百度集团执行副总裁、百度智能云事业群(ACG)总裁沈抖 | 图片来源:百度问:你个人学的是人工智能方向,大模型是不是也跟你更匹配?沈抖:这跟我研究生做的事情很相似。虽然我一直学计算机的,但我做得偏软件的多一些,一直在人工智能这条线上做。当时接了云(偏底层硬件)以后,我真的又把操作系统、计算机组成原理的书拿来看了一遍。如果说真是 CPU 时代的 IaaS、网络组件、存储计算那套东西,我觉得还是有点难的。但大模型出来以后,我发现那些东西被封装在下面了,我现在主要研究大模型就可以,比如读论文、自己用 Python 把千帆上的 API 调用一遍等等。我觉得顺手多了。问:接下来,你对百度智能云的发展增速有怎样的预期?沈抖:百度智能云现在就接近两百亿的盘子,还相对比较小。在大模型的加持下,我们的客户需求变得很旺盛,现在都忙不过来。不过要想真正让用户用起来、做好交付,还需要一个过程。沈抖:有人估计四季度会是爆发的。需求确实开始起来了,但我觉得爆发的话,可能要到明年。沈抖:我觉得这是百度的运气。百度做 AI 做了这么多年,下了这么大功夫,如果大模型不来的话,云的商业化路径确实更难一些,也很辛苦。这正好说明有 Vision 的公司,最后运气也不会太差吧。
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO在大模型的助力下,开始与真实世界交互的人形机器人,是否会成为人工智能发展的下一个浪潮?当 AI Agent 拥抱「肉身」、落地现实,又会有怎样新的的技术挑战和价值涌现?9月6日(周三)20 点,极客公园「开始连接」直播间邀请到蓝驰创投合伙人曹巍,以及元智能(RWKV)联合创始人、Syrius炬星联合创始人罗璇,与你一起畅聊大模型时代,人形机器人的未来。