Redian新闻
>
行业观察|字节做云三年,火山引擎迎来拐点

行业观察|字节做云三年,火山引擎迎来拐点

公众号新闻



大模型能力全面释放的一个关键门槛是,能在多大程度上降低试错成本。跨过这个关卡,云厂摊薄算力成本只是时间问题


文|吴俊宇  
编辑|谢丽容

和其他科技公司相比,字节跳动做云业务较晚——2021年才开始。因此,字节旗下的火山引擎暂时未进中国市场份额前五强。不过,2023年大模型爆发,给火山引擎创造了弯道追赶的机会。

做云三年,火山引擎迎来了市场拐点。2024年是大模型加速落地的关键一年。各行各业正在用大模型开发AI原生应用,这让推理算力消耗速度大幅增长。

5月16日,火山引擎总裁谭待对笔者表示,2023年火山引擎营收增速超过150%,增速比2022年还高。利润率也在持续提升。火山引擎营收体量还不大,但每年都超额完成了预期增长目标。所以,火山引擎管理层对市场份额、排名等问题并不焦虑。

多位中国云厂商高管近期表达了同一个观点:2023年以来,算力大盘的结构变化是,智能算力(GPU芯片为主的算力)增速大于通用算力(CPU芯片为主的算力)。2024年以后,推理算力增速,会大于训练算力增速。

火山引擎正在为这一变化做准备。其中一个重要动作是——大幅降低推理的token价格(大语言模型中,token指文本单位。一个token可以是单词、标点、数字、符号等)。不同模型的参数、性能有差异,因此价格差异较大。在火山引擎5月15日的发布会上谭待表示,字节跳动旗下豆包通用模型Pro-32k的价格是0.0008元/千tokens。该价格比国内外同等规格模型的推理价格便宜90%以上。


火山引擎大幅降低推理价格的逻辑是什么?谭待说,这可以分成“为什么要这么做”、“为什么能这么做”两方面进行解释。

其一,为什么要这么做?火山引擎需要降低客户的试错成本。谭待认为,2024年下半年AI应用会爆发。2012年-2014年是移动互联网爆发早期,中国曾出现APP创业潮。AI应用也会出现一波类似的小高潮。

其二,为什么能这么做?云在规模够大时,可以摊薄成本。字节跳动用云规模足够大。抖音等App就要大量使用推理。火山引擎还可以通过云计算工程手段降低成本。其中包括优化异构算力的分布式推理、优化资源调度等。
大模型推理大降价

云计算市场目前有两条确定的增长曲线。

在算力大盘中,智能算力增速远超通用算力。IDC在2023年12月预估,2022年-2027年中国智能算力规模年复合增长率将达到33.9%,同期通用算力规模年复合增长率仅为16.6%。


在智能算力方面,推理算力的增速远超训练算力。IDC在2023年12月预估,2023年中国AI服务器训练工作负载占比58.7%,推理负载占比41.3%。2027年中国AI服务器训练负载占比仅为27.4%,推理负载占比72.6%。也就是说,训练负载占比2023年达到高峰,虽然此后算力消耗总量还在增长,但占比将逐年下滑。因为训练模型完善成熟后,模型、应用产品会逐步投产,届时将消耗更多推理算力。


推理,指的是用训练好的模型生成内容,生成内容往往以token为单位进行计算。按token计费,这是目前国内外云厂商大模型应用的主流商业模式之一。

火山引擎降价的直接原因是——降低客户试错成本,激发AI应用生态。

谭待认为,目前大模型生态尚处于初期。做大生态,关键是要把大模型做好,把应用落地,把成本做低。企业客户大模型创新的失败概率超过90%。因此必须考虑试错成本。谭待进一步解释,模型推理价格降低超过90%后,企业客户尝试创新的心理负担会更小。AI应用创业者融资压力也会减轻。如果其他云厂商都参与降价,AI应用生态才有可能逐渐繁荣。

AI应用的生态繁荣趋势,在硅谷已经初现端倪。谭待今年3月在硅谷和创业者、开发者交流,感受到了类似2012年-2014年中国移动互联网初期热火朝天的气氛。“基座模型很强,两三个人的创业团队,很快获得营收,很快获得融资。希望中国市场未来一段时间也能有这种趋势。”

火山引擎大幅降低推理算力价格,对行业有巨大影响。国内某头部云厂商的一位技术人士此前预判,火山引擎此举会直接影响行业游戏规则。一个应用背后可能有几十个模型支撑。应用要在几十个场景中权衡模型成本、精度、速度。这不仅成本高,还考验软件工程能力。火山引擎把价格打到这么低,会消除很多开发者的成本顾虑。

他的观点是,目前阿里云、腾讯云等均未实现推理token盈利。火山引擎更难做到盈利,但这会逼迫其他云厂商快速跟进。否则,市场份额会被火山引擎抢走。

事实确实如此。豆包大模型推理token大幅降价后一周,阿里云采取了应对措施。阿里云5月21日宣布,旗下多款大模型的推理token降价,降价幅度为67%-97%。当日,百度文心大模型旗下两款模型ENIRE Speed、ENIRE Lite宣布免费。腾讯云在5月22日也宣布,旗下多款大模型推理token降价,降价幅度为50%-87.5%。

阿里云相关负责人在公开活动中表示,推理成本过高,是制约大模型规模化应用的核心因素之一。大幅降低大模型推理价格,就是希望加速AI应用爆发。

谭待甚至认为,云厂商按token计费,并非很理想的商业模式。这在未来甚至可能有变化。因为,token消耗数量无法真实反映不同业务、场景的客户价值。另一位云厂商技术人士对此表示认同。在他看来,按token计费是算力资源不够丰富时的无奈之举。这种商业模式合理但不友好。云厂商可以充分衡量算力成本。然而,企业客户做大模型应用创新,成本无法预估,效果无法预判。

OpenAI技术社区2023年10月曾有AI开发者表达了类似的困惑——应用消耗的token成本无法准确预估。用户为了优化结果通常会多次输入内容,输出内容长度也不可控。结果是,很难根据token成本设计产品定价。这个困惑也是社区内很多开发者的共鸣。

上述云厂商技术人士认为,未来云厂商甚至不应该靠收token费用盈利。移动互联网早期,一些移动App需要用户付费。但这种商业模式很快全被微信、支付宝、美团、滴滴这些免费App颠覆了。2012年-2014年移动互联网处于早期,当时曾出现App爆发潮。云厂商期望中的AI应用生态应该朝这个方向努力。随着现象级的AI应用诞生,新的商业模式也会诞生。

推理成本受规模、技术影响。推理价格战,接下来会考验云厂商的客户规模、技术能力。

云一旦形成规模,便能依靠弹性持续降低边际成本。火山引擎公布的一组数据显示,目前火山引擎日均处理1200亿tokens文本,生成3000万张图片。字节跳动旗下的抖音、今日头条等业务,大量使用推理算力。谭待说,火山引擎可以把不同业务的负载混合调度,提高单卡推理效率,进而大幅降低成本。

优化模型结构也可以降低推理成本。常见做法包括,模型稀疏、减枝、压缩等。目的在于,减少模型大小和计算需求,进而加快推理速度。一位SaaS企业人士提到,MOE(Mixture of Experts,一种模型设计策略,通过混合多个专业模型,获得更好的性能)策略也能发挥不同模型的性能优势,进而降低推理成本。
为应用爆发做准备

外界一个常见疑问是,目前智能算力供不应求,推理价格战是否会加剧?

事实上,目前真正紧缺的是训练算力。这部分算力依赖先进AI芯片(如英伟达H100/A100),训练算力的确供不应求。但推理算力可用的芯片种类繁多(如英伟达A10/A30/A40等,英特尔、AMD旗下芯片,甚至是很多国产AI芯片),目前尚没有“卡脖子”危机,市场暂时供应充足。

推理成本会随着时间推移而不断下降。这是摩尔定律(芯片性能大约每两年翻一倍,同时价格下降为之前的一半)的必然结果。一种常见观点是,推理价格战加速了降价进程,AI应用会提前爆发。

AI应用的特点是,它比SaaS应用更轻量级、碎片化、原子化。一位云厂商生态销售负责人直言,大模型会让大量中小型独立应用开发商诞生。3人-5人的小团队,也能短时间开发出爆款应用。AI应用、SaaS应用的生态将交错融合。部分场景,AI应用更易用、更便捷,会逐渐替代SaaS应用。部分场景,AI应用长在SaaS软件上,它是SaaS应用的组件。这就像微信、支付宝等APP上还有小程序。

事实上,软件行业也在迎来10年来的第二次剧变。2014年云计算普及之初,SAP、Oracle、Salesforce、Adobe等基础软件公司开启云转型,随后纷纷跃升至千亿美元市值。2024年,这些软件公司又开启了AI转型——投资、收购AI创业公司,或是把AI融入软件产品、业务流程中。

一批AI独角兽也在诞生。微软投资的OpenAI估值已超过800亿美元,亚马逊和谷歌投资的Anthropic估值超过180亿美元。国际市场调研机构SaaS Academy 2024年1月数据显示,全球AI软件收入预计将从2018年的95亿美元增至2025年的1186亿美元。到2025年,AI将融入几乎所有软件产品中。


事实上,火山引擎已经帮部分企业客户落地大模型,并部署了AI应用。火山引擎的特点是,它不会只提供IT基础设施,而是更贴近企业客户实际业务需求。

OPPO手机的智能助理名叫“小布助手”。火山引擎用知识库能力帮“小布助手”提升了知识问答的准确度。过去半年,“小布助手”在豆包大模型的基础上,开发了模拟面试、英语教学、情感陪聊等功能。

捷途汽车是奇瑞汽车旗下的子品牌。捷途汽车与火山引擎智能客服、智慧营销等方面有合作。捷途汽车通过豆包大模型开发了捷途智能客服“AI小捷”,它能24小时回复客户提问,还能帮人工客服挖掘用户需求。捷途汽车还在和火山引擎共同训练销售培训大模型,捷途汽车希望借助“AI销售助理”提升全国一万多名销售人员的沟通技巧。

目前,大模型主要被用于客服、问答、知识库等场景,这场景暂时未超出市场预期。上述云厂商技术人士认为,理想情况是,B端、C端都会诞生有足够有影响力的应用。

中国某头部云厂商一位高管认为,移动互联网阶段,中国诞生了微信、抖音、快手、滴滴、小红书等公司。大模型落地阶段,中国科技公司同样有实力催生新一轮应用繁荣。关键在于,云厂商要为应用爆发做好准备。

谭待判断,AI应用的爆发速度取决于三个因素:算力价格、模型质量、开发难度。因此,除了大幅降低推理token价格,火山引擎还在模型平台、应用生态、基础设施三层进行准备布局。

应用生态繁荣,不是一两个天才的想法,要靠一群人的智慧结晶。生态繁荣要有很多人、低门槛试错,才有可能出现。这个观念也贯穿在火山引擎的基础设施、模型平台、应用生态建设过程中。

近一年来,全球云厂商在围绕生成式AI重新布局基础设施、模型平台、应用生态。这三层技术架构的逻辑关系是——基础设施围绕AI芯片提供大模型训练、推理所需的算力;模型平台集成自研、三方或开源大模型,提高应用开发效率;生成式AI应用要选择模型进行开发,直接面向业务。

模型平台层,火山引擎的重点是开放生态,提供字节跳动或第三方的高质量模型。火山引擎的“火山方舟” MaaS(即Model as a Service)平台延续了2023年确定的生态开放策略。它不仅支持字节跳动旗下的豆包系列大模型,也支持百川智能、智谱AI、月之暗面第三方大模型,以及Llama、Databricks、Mistral AI等国际知名的开源模型。开发者可以选择适合自己的模型。

应用生态层,火山引擎策略是,帮客户降低AI应用的开发、使用门槛。火山引擎有一套自研AI SaaS应用(数据飞轮、ChatBI报表、智能创作云等)。火山引擎还推出了扣子AI应用开发平台专业版,这可以降低AI应用开发门槛。火山引擎还发布了“万有计划”豆包企服联盟,目的是帮SaaS企业自身AI升级。

基础设施层,火山引擎正在提升系统承载能力。一种预判是,AI应用爆发后,突发流量、业务高峰也会随之而来。因此,火山引擎正在提供万卡规模的GPU(图形处理器)资源池,以此支撑大模型推理服务。谭待介绍,万卡集群本身管理难度就更大,再加上多种型号的AI芯片并行,AI芯片率故障率很高。因此,云厂商需要提高运维能力,确保系统稳定。

弯道追赶的关键一年

2024年会是火山引擎弯道追赶的关键一年。

国际市场调研机构IDC今年4月数据显示,2023下半年中国公共云服务整体市场规模(IaaS基础设施/PaaS平台软件/SaaS应用软件)204.8亿美元,同比增长8.7%。其中,公共云IaaS市场前五分别是,阿里云(27.1%)、华为云(13.5%)、天翼云(12.9%)、腾讯云(8.7%)、移动云(8.6%)。


2023年火山引擎营收增速超过150%,增速比2022年还高。营收增速也超过了中国市场其他头部云厂商。谭待预判,2024年火山引擎仍将保持高速增长。

火山引擎弯道追赶有几个关键因素——没有历史包袱,拥有充足算力,形成了差异化竞争。智能算力,尤其是推理算力爆发,这被认为会打破云计算市场的原有格局。

过去三年,中国云市场处于调整期。部分中国云厂商在削减政企项目,这导致营收增速只有个位数,甚至是负增长。火山引擎没有这些包袱,因此营收增速更快。

云需要算力储备。大模型无论是训练、推理,都需要充足的算力资源。一种行业内常见的说法是,字节跳动的智能算力储备在国内位居前列。

储备算力的直接原因是,有足够的业务需求。早在2022年末ChatGPT诞生之前,一些中国云厂商在转售闲置的GPU芯片。在当时,字节跳动的抖音等业务对训练、推理等算力需求大。火山引擎又在自动驾驶、生信计算等新兴领域获得了理想汽车、毫末智行、晶泰科技等一批头部客户。

在种种因素的影响下,火山引擎反而在不断囤积算力资源。ChatGPT诞生后,2023年中国掀起了大模型训练热潮,火山引擎顺其自然地成了很多创业公司的选择。智谱AI、月之暗面、Minimax、零一万物最初都在火山引擎上进行训练,百川智能也部分使用了火山引擎的算力。

多位云厂商高管的一致观点是,2024年中国智能算力供不应求的局面虽然有所缓解,但供不应求的格局短期内不会有根本变化。有万卡算力储备的公司,在未来12-18个月能够吸引更多训练、推理的需求,火山引擎会是少数几个可选项之一。

和其他中国云厂商相比,火山引擎的一个重要差异是更关注企业客户的业务场景和业务增长。

中国云厂商过去一个长期被诟病的问题是,只销售云资源、云平台,不关注企业客户的业务增长问题。这导致企业客户在数字化转型过程中,IT投入无法带来相应的业务回报。火山引擎作为后来者,吸取了这一教训。因此,火山引擎的PaaS(平台软件)、SaaS(应用软件)通常更贴近企业实际业务场景。

一批对业务增长有迫切需求的企业倾向于选择火山引擎。火山引擎的数据飞轮、数据消费等产品工具已被企业客户广泛接受。这改变了很多企业IT战略、业务战略无法统一的问题。

大模型爆发为国际、中国云厂商带来了更明确的增长预期。大模型推理算力爆发,会是火山引擎的重要机会。火山引擎的高速增长预期更确定。

国际云市场在2022年-2023年曾处于低迷期。当时受宏观经济影响,企业普遍在优化IT成本。亚马逊AWS、微软Azure、谷歌云遭遇了多个季度的营收增速下滑。但2023年末,亚马逊AWS、微软Azure、谷歌云靠大模型重回正常增长轨道。在国内云市场,2023年四季度以来,腾讯云、百度云也已恢复增长。阿里云预期2024年下半年将实现增长复苏。


云计算是长坡厚雪的赛道,不断降价做大规模是一个有效手段。国际市场的推理价格战在去年底就初现端倪。谷歌的Gemini模型、亚马逊投资的Claude3模型就接连推出了低廉的推理token价格,其价格远低于OpenAI的GPT-4系列。

至于中国市场,推理算力这一轮集体降价只是起点。可以预见的是,在众云厂的合力之下,未来算力资源的成本会越来越低。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
再听“莫斯科郊外的晚上”行业观察|中欧基金:以smartβ+α筑造多资产灯塔豆包大模型家族发布、火山方舟升级,火山引擎如何打造全栈AI技术服务?行业观察|AI创作人,怎么拿英伟达显卡玩AI艺术又降首付、降利率,楼市拐点要来了?冯仑:往上的拐点今年看不到,往下的拐点随时可能出现互联网大厂|字节跳动 2024春季校园招聘本月底截止,年薪40W+不是問題之問題—-舊金山遊記之一AI早知道|字节AI教育平台Gauth占美国教育应用第2名;钉钉AI多模态升级;亚马逊向Anthropic追投27.5亿美元行业观察|天风城市投行再结硕果:债券新规后,成功发行湖北省首只地方国企平台企业债行业观察|跑马拉松的招商银行火山引擎国际深度学习图像压缩挑战赛蝉联冠军小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon裸体自画像的预示行业观察|数智为锚,浦发银行如何破局而立?行业观察|青山资本张野:消费创业公司不能过分追求利润行业观察|阿里财报饿了么交卷:变革成效显著,经营踏上新台阶行业观察|以“智造力”打造“品牌力” ,数智伊利点燃行业发展新引擎AI早知道|字节Coze海外版支持GPT-4o;文心一言上线新功能;微软开放Phi-3 轻量级AI模型早鸟报|字节再试AI硬件;腾讯游戏升级“防沉迷四件套”;​“与辉同行”深圳南山专场带货销售额破亿...行业观察|江南春:告别迷失的十年,品牌看向4个增长机遇中篇小说 枫叶红透 第四节行业观察|首批上线EF账户 招行助力自贸港/区高质量发展行业观察|聆听亚洲声音 恒昌九度绽放博鳌亚洲论坛年会德国马克思城堡(Marksburg castle),街头看景豆包出击,直降99.3%!火山引擎开卷大模型“价格战”行业观察|微导纳米2023年净利润增长849.89%,平台化战略赋能多元发展行业观察|降价,不是大模型落地的唯一抓手商业观察|打造有质量的低价,社区生鲜没有花活行业观察|九分钟送货上门,京东为何让即时零售再提速?行业观察|降价、AI、出海,阿里云的新攻势行业观察|引领下一个十年,乳业新质生产力正加速形成月之暗面 Kimi 智能助手实现 200 万字长上下文,火山引擎提供云服务支持马云三次内部表态,阿里重组的真正结束行业观察|携手博鳌亚洲论坛,五粮液引领中国白酒走向世界字节豆包大模型发布!“比行业价格低99%”,对话火山引擎总裁谭待
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。