行业观察｜字节做云三年，火山引擎迎来拐点

公众号新闻

2024-05-22 11:05

大模型能力全面释放的一个关键门槛是，能在多大程度上降低试错成本。跨过这个关卡，云厂摊薄算力成本只是时间问题

文｜吴俊宇

编辑｜谢丽容

和其他科技公司相比，字节跳动做云业务较晚——2021年才开始。因此，字节旗下的火山引擎暂时未进中国市场份额前五强。不过，2023年大模型爆发，给火山引擎创造了弯道追赶的机会。

做云三年，火山引擎迎来了市场拐点。2024年是大模型加速落地的关键一年。各行各业正在用大模型开发AI原生应用，这让推理算力消耗速度大幅增长。

5月16日，火山引擎总裁谭待对笔者表示，2023年火山引擎营收增速超过150%，增速比2022年还高。利润率也在持续提升。火山引擎营收体量还不大，但每年都超额完成了预期增长目标。所以，火山引擎管理层对市场份额、排名等问题并不焦虑。

多位中国云厂商高管近期表达了同一个观点：2023年以来，算力大盘的结构变化是，智能算力（GPU芯片为主的算力）增速大于通用算力（CPU芯片为主的算力）。2024年以后，推理算力增速，会大于训练算力增速。

火山引擎正在为这一变化做准备。其中一个重要动作是——大幅降低推理的token价格（大语言模型中，token指文本单位。一个token可以是单词、标点、数字、符号等）。不同模型的参数、性能有差异，因此价格差异较大。在火山引擎5月15日的发布会上谭待表示，字节跳动旗下豆包通用模型Pro-32k的价格是0.0008元/千tokens。该价格比国内外同等规格模型的推理价格便宜90%以上。

火山引擎大幅降低推理价格的逻辑是什么？谭待说，这可以分成“为什么要这么做”、“为什么能这么做”两方面进行解释。

其一，为什么要这么做？火山引擎需要降低客户的试错成本。谭待认为，2024年下半年AI应用会爆发。2012年-2014年是移动互联网爆发早期，中国曾出现APP创业潮。AI应用也会出现一波类似的小高潮。

其二，为什么能这么做？云在规模够大时，可以摊薄成本。字节跳动用云规模足够大。抖音等App就要大量使用推理。火山引擎还可以通过云计算工程手段降低成本。其中包括优化异构算力的分布式推理、优化资源调度等。

大模型推理大降价

云计算市场目前有两条确定的增长曲线。

在算力大盘中，智能算力增速远超通用算力。IDC在2023年12月预估，2022年-2027年中国智能算力规模年复合增长率将达到33.9%，同期通用算力规模年复合增长率仅为16.6%。

在智能算力方面，推理算力的增速远超训练算力。IDC在2023年12月预估，2023年中国AI服务器训练工作负载占比58.7%，推理负载占比41.3%。2027年中国AI服务器训练负载占比仅为27.4%，推理负载占比72.6%。也就是说，训练负载占比2023年达到高峰，虽然此后算力消耗总量还在增长，但占比将逐年下滑。因为训练模型完善成熟后，模型、应用产品会逐步投产，届时将消耗更多推理算力。

推理，指的是用训练好的模型生成内容，生成内容往往以token为单位进行计算。按token计费，这是目前国内外云厂商大模型应用的主流商业模式之一。

火山引擎降价的直接原因是——降低客户试错成本，激发AI应用生态。

谭待认为，目前大模型生态尚处于初期。做大生态，关键是要把大模型做好，把应用落地，把成本做低。企业客户大模型创新的失败概率超过90%。因此必须考虑试错成本。谭待进一步解释，模型推理价格降低超过90%后，企业客户尝试创新的心理负担会更小。AI应用创业者融资压力也会减轻。如果其他云厂商都参与降价，AI应用生态才有可能逐渐繁荣。

AI应用的生态繁荣趋势，在硅谷已经初现端倪。谭待今年3月在硅谷和创业者、开发者交流，感受到了类似2012年-2014年中国移动互联网初期热火朝天的气氛。“基座模型很强，两三个人的创业团队，很快获得营收，很快获得融资。希望中国市场未来一段时间也能有这种趋势。”

火山引擎大幅降低推理算力价格，对行业有巨大影响。国内某头部云厂商的一位技术人士此前预判，火山引擎此举会直接影响行业游戏规则。一个应用背后可能有几十个模型支撑。应用要在几十个场景中权衡模型成本、精度、速度。这不仅成本高，还考验软件工程能力。火山引擎把价格打到这么低，会消除很多开发者的成本顾虑。

他的观点是，目前阿里云、腾讯云等均未实现推理token盈利。火山引擎更难做到盈利，但这会逼迫其他云厂商快速跟进。否则，市场份额会被火山引擎抢走。

事实确实如此。豆包大模型推理token大幅降价后一周，阿里云采取了应对措施。阿里云5月21日宣布，旗下多款大模型的推理token降价，降价幅度为67%-97%。当日，百度文心大模型旗下两款模型ENIRE Speed、ENIRE Lite宣布免费。腾讯云在5月22日也宣布，旗下多款大模型推理token降价，降价幅度为50%-87.5%。

阿里云相关负责人在公开活动中表示，推理成本过高，是制约大模型规模化应用的核心因素之一。大幅降低大模型推理价格，就是希望加速AI应用爆发。

谭待甚至认为，云厂商按token计费，并非很理想的商业模式。这在未来甚至可能有变化。因为，token消耗数量无法真实反映不同业务、场景的客户价值。另一位云厂商技术人士对此表示认同。在他看来，按token计费是算力资源不够丰富时的无奈之举。这种商业模式合理但不友好。云厂商可以充分衡量算力成本。然而，企业客户做大模型应用创新，成本无法预估，效果无法预判。

OpenAI技术社区2023年10月曾有AI开发者表达了类似的困惑——应用消耗的token成本无法准确预估。用户为了优化结果通常会多次输入内容，输出内容长度也不可控。结果是，很难根据token成本设计产品定价。这个困惑也是社区内很多开发者的共鸣。

上述云厂商技术人士认为，未来云厂商甚至不应该靠收token费用盈利。移动互联网早期，一些移动App需要用户付费。但这种商业模式很快全被微信、支付宝、美团、滴滴这些免费App颠覆了。2012年-2014年移动互联网处于早期，当时曾出现App爆发潮。云厂商期望中的AI应用生态应该朝这个方向努力。随着现象级的AI应用诞生，新的商业模式也会诞生。

推理成本受规模、技术影响。推理价格战，接下来会考验云厂商的客户规模、技术能力。

云一旦形成规模，便能依靠弹性持续降低边际成本。火山引擎公布的一组数据显示，目前火山引擎日均处理1200亿tokens文本，生成3000万张图片。字节跳动旗下的抖音、今日头条等业务，大量使用推理算力。谭待说，火山引擎可以把不同业务的负载混合调度，提高单卡推理效率，进而大幅降低成本。

优化模型结构也可以降低推理成本。常见做法包括，模型稀疏、减枝、压缩等。目的在于，减少模型大小和计算需求，进而加快推理速度。一位SaaS企业人士提到，MOE（Mixture of Experts，一种模型设计策略，通过混合多个专业模型，获得更好的性能）策略也能发挥不同模型的性能优势，进而降低推理成本。

为应用爆发做准备

外界一个常见疑问是，目前智能算力供不应求，推理价格战是否会加剧？

事实上，目前真正紧缺的是训练算力。这部分算力依赖先进AI芯片（如英伟达H100/A100），训练算力的确供不应求。但推理算力可用的芯片种类繁多（如英伟达A10/A30/A40等，英特尔、AMD旗下芯片，甚至是很多国产AI芯片），目前尚没有“卡脖子”危机，市场暂时供应充足。

推理成本会随着时间推移而不断下降。这是摩尔定律（芯片性能大约每两年翻一倍，同时价格下降为之前的一半）的必然结果。一种常见观点是，推理价格战加速了降价进程，AI应用会提前爆发。

AI应用的特点是，它比SaaS应用更轻量级、碎片化、原子化。一位云厂商生态销售负责人直言，大模型会让大量中小型独立应用开发商诞生。3人-5人的小团队，也能短时间开发出爆款应用。AI应用、SaaS应用的生态将交错融合。部分场景，AI应用更易用、更便捷，会逐渐替代SaaS应用。部分场景，AI应用长在SaaS软件上，它是SaaS应用的组件。这就像微信、支付宝等APP上还有小程序。

事实上，软件行业也在迎来10年来的第二次剧变。2014年云计算普及之初，SAP、Oracle、Salesforce、Adobe等基础软件公司开启云转型，随后纷纷跃升至千亿美元市值。2024年，这些软件公司又开启了AI转型——投资、收购AI创业公司，或是把AI融入软件产品、业务流程中。

一批AI独角兽也在诞生。微软投资的OpenAI估值已超过800亿美元，亚马逊和谷歌投资的Anthropic估值超过180亿美元。国际市场调研机构SaaS Academy 2024年1月数据显示，全球AI软件收入预计将从2018年的95亿美元增至2025年的1186亿美元。到2025年，AI将融入几乎所有软件产品中。

事实上，火山引擎已经帮部分企业客户落地大模型，并部署了AI应用。火山引擎的特点是，它不会只提供IT基础设施，而是更贴近企业客户实际业务需求。

OPPO手机的智能助理名叫“小布助手”。火山引擎用知识库能力帮“小布助手”提升了知识问答的准确度。过去半年，“小布助手”在豆包大模型的基础上，开发了模拟面试、英语教学、情感陪聊等功能。

捷途汽车是奇瑞汽车旗下的子品牌。捷途汽车与火山引擎智能客服、智慧营销等方面有合作。捷途汽车通过豆包大模型开发了捷途智能客服“AI小捷”，它能24小时回复客户提问，还能帮人工客服挖掘用户需求。捷途汽车还在和火山引擎共同训练销售培训大模型，捷途汽车希望借助“AI销售助理”提升全国一万多名销售人员的沟通技巧。

目前，大模型主要被用于客服、问答、知识库等场景，这场景暂时未超出市场预期。上述云厂商技术人士认为，理想情况是，B端、C端都会诞生有足够有影响力的应用。

中国某头部云厂商一位高管认为，移动互联网阶段，中国诞生了微信、抖音、快手、滴滴、小红书等公司。大模型落地阶段，中国科技公司同样有实力催生新一轮应用繁荣。关键在于，云厂商要为应用爆发做好准备。

谭待判断，AI应用的爆发速度取决于三个因素：算力价格、模型质量、开发难度。因此，除了大幅降低推理token价格，火山引擎还在模型平台、应用生态、基础设施三层进行准备布局。

应用生态繁荣，不是一两个天才的想法，要靠一群人的智慧结晶。生态繁荣要有很多人、低门槛试错，才有可能出现。这个观念也贯穿在火山引擎的基础设施、模型平台、应用生态建设过程中。

近一年来，全球云厂商在围绕生成式AI重新布局基础设施、模型平台、应用生态。这三层技术架构的逻辑关系是——基础设施围绕AI芯片提供大模型训练、推理所需的算力；模型平台集成自研、三方或开源大模型，提高应用开发效率；生成式AI应用要选择模型进行开发，直接面向业务。

模型平台层，火山引擎的重点是开放生态，提供字节跳动或第三方的高质量模型。火山引擎的“火山方舟” MaaS（即Model as a Service）平台延续了2023年确定的生态开放策略。它不仅支持字节跳动旗下的豆包系列大模型，也支持百川智能、智谱AI、月之暗面第三方大模型，以及Llama、Databricks、Mistral AI等国际知名的开源模型。开发者可以选择适合自己的模型。

应用生态层，火山引擎策略是，帮客户降低AI应用的开发、使用门槛。火山引擎有一套自研AI SaaS应用（数据飞轮、ChatBI报表、智能创作云等）。火山引擎还推出了扣子AI应用开发平台专业版，这可以降低AI应用开发门槛。火山引擎还发布了“万有计划”豆包企服联盟，目的是帮SaaS企业自身AI升级。

基础设施层，火山引擎正在提升系统承载能力。一种预判是，AI应用爆发后，突发流量、业务高峰也会随之而来。因此，火山引擎正在提供万卡规模的GPU（图形处理器）资源池，以此支撑大模型推理服务。谭待介绍，万卡集群本身管理难度就更大，再加上多种型号的AI芯片并行，AI芯片率故障率很高。因此，云厂商需要提高运维能力，确保系统稳定。

弯道追赶的关键一年

2024年会是火山引擎弯道追赶的关键一年。

国际市场调研机构IDC今年4月数据显示，2023下半年中国公共云服务整体市场规模（IaaS基础设施/PaaS平台软件/SaaS应用软件）204.8亿美元，同比增长8.7%。其中，公共云IaaS市场前五分别是，阿里云（27.1%）、华为云（13.5%）、天翼云（12.9%）、腾讯云（8.7%）、移动云（8.6%）。

2023年火山引擎营收增速超过150%，增速比2022年还高。营收增速也超过了中国市场其他头部云厂商。谭待预判，2024年火山引擎仍将保持高速增长。

火山引擎弯道追赶有几个关键因素——没有历史包袱，拥有充足算力，形成了差异化竞争。智能算力，尤其是推理算力爆发，这被认为会打破云计算市场的原有格局。

过去三年，中国云市场处于调整期。部分中国云厂商在削减政企项目，这导致营收增速只有个位数，甚至是负增长。火山引擎没有这些包袱，因此营收增速更快。

云需要算力储备。大模型无论是训练、推理，都需要充足的算力资源。一种行业内常见的说法是，字节跳动的智能算力储备在国内位居前列。

储备算力的直接原因是，有足够的业务需求。早在2022年末ChatGPT诞生之前，一些中国云厂商在转售闲置的GPU芯片。在当时，字节跳动的抖音等业务对训练、推理等算力需求大。火山引擎又在自动驾驶、生信计算等新兴领域获得了理想汽车、毫末智行、晶泰科技等一批头部客户。

在种种因素的影响下，火山引擎反而在不断囤积算力资源。ChatGPT诞生后，2023年中国掀起了大模型训练热潮，火山引擎顺其自然地成了很多创业公司的选择。智谱AI、月之暗面、Minimax、零一万物最初都在火山引擎上进行训练，百川智能也部分使用了火山引擎的算力。

多位云厂商高管的一致观点是，2024年中国智能算力供不应求的局面虽然有所缓解，但供不应求的格局短期内不会有根本变化。有万卡算力储备的公司，在未来12-18个月能够吸引更多训练、推理的需求，火山引擎会是少数几个可选项之一。

和其他中国云厂商相比，火山引擎的一个重要差异是更关注企业客户的业务场景和业务增长。

中国云厂商过去一个长期被诟病的问题是，只销售云资源、云平台，不关注企业客户的业务增长问题。这导致企业客户在数字化转型过程中，IT投入无法带来相应的业务回报。火山引擎作为后来者，吸取了这一教训。因此，火山引擎的PaaS（平台软件）、SaaS（应用软件）通常更贴近企业实际业务场景。

一批对业务增长有迫切需求的企业倾向于选择火山引擎。火山引擎的数据飞轮、数据消费等产品工具已被企业客户广泛接受。这改变了很多企业IT战略、业务战略无法统一的问题。

大模型爆发为国际、中国云厂商带来了更明确的增长预期。大模型推理算力爆发，会是火山引擎的重要机会。火山引擎的高速增长预期更确定。

国际云市场在2022年-2023年曾处于低迷期。当时受宏观经济影响，企业普遍在优化IT成本。亚马逊AWS、微软Azure、谷歌云遭遇了多个季度的营收增速下滑。但2023年末，亚马逊AWS、微软Azure、谷歌云靠大模型重回正常增长轨道。在国内云市场，2023年四季度以来，腾讯云、百度云也已恢复增长。阿里云预期2024年下半年将实现增长复苏。

云计算是长坡厚雪的赛道，不断降价做大规模是一个有效手段。国际市场的推理价格战在去年底就初现端倪。谷歌的Gemini模型、亚马逊投资的Claude3模型就接连推出了低廉的推理token价格，其价格远低于OpenAI的GPT-4系列。

至于中国市场，推理算力这一轮集体降价只是起点。可以预见的是，在众云厂的合力之下，未来算力资源的成本会越来越低。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章