大模型降价背后的真相与「猫腻」

公众号新闻

2024-05-26 03:05

5 月 6 日，DeepSeek 率先打响了国内大模型价格战的「第一枪」，推出的 DeepSeek-V2 因性能优异，但价格仅为 GPT-4-Turbo 的近百分之一，引发业内关注和热议。

随后，智谱 AI、字节、阿里、百度、腾讯等国内主要大模型厂商迅速跟进，模型 API 调用价格一再压低，甚至出现了免费的情况。

此外，全行业风向标 OpenAI 也宣布 ChatGPT 用户可免费使用 GPT-4o、同时高调提出要降价。

国内都是哪些大模型厂商在打「价格战」？不同厂商的降价风格有何不同？

国内大模型第一梯队的巨头大厂，几乎都在短时间内迅速反应，加入了此次的「价格大战」，但月之暗面、百川智能、零一万物等大模型创企均没有参与价格战。

5 月 6 日，私募基金「幻方量化」旗下公司深度求索推出 DeepSeek-V2 模型，性能逼近 GPT-4-Turbo，文心 4.0 等闭源模型，但 API 价格每百万 tokens 输入 1 元、输出 2 元，仅为 GPT-4-Turbo 的近百分之一，由此打响了国内大模型价格战的「第一枪」。
5 月 11 日，智谱 AI 跟进，宣布将其 GLM-3 Turbo 模型的调用价格下调 80%。从 5 元/百万 tokens 降至 1 元/百万 tokens。1 元可以购买 100 万 tokens。
5 月 15 日，字节的豆包大模型正式对外开放，放出了较业内极低的价格，价格单位直接从「元」变为「厘」。豆包大模型家族包含豆包通用模型 PRO 版和 lite 版两款通用模型，其中，豆包通用模型 pro-32k 版，推理输入价格 0.0008 元/千 tokens，较行业价格低 99.3%。lite 版为 0.0003 元/千 tokens。
5 月 21 日，「业内大佬」阿里云加入「价格战」，直接发布降价通知。通义千问大语言模型和通义千问开源模型系类的 9 款模型降价，其中，性能对标 GPT-4 的 Qwen-Long 模型降幅最大，API 输入价格从 0.02 元/千 tokens 降至 0.0005 元/千 tokens，仅为 GPT-4 价格的 1/400。
5 月 21 日，在阿里云宣布降价不到 4 个小时的时间内，百度火速进场，ERNIE-Speed、ERNIE-Lite、ERNIE-Tiny 系列模型直接免费开放使用，且百度官网的详细公告显示，两款模型并非限时免费开放，而是长期免费开放。
5 月 22 日，腾讯进场，公布全新大模型升级方案，至此「价格战」集齐了国内巨头重要玩家。腾讯的主力模型之一混元-lite 模型，API 输入输出总长度计划从目前的 4k 升级到 256k，价格从 0.008 元/千 tokens 调整为全面免费。
同日，科大讯飞宣布讯飞星火 Lite 版 API 永久免费开放，讯飞星火 Pro/Max API 价格降至 0.21 元/万 tokens。

图：火山方舟大模型平台整理的豆包大模型及其对标的大模型推理费用对比

虽然「价格战」打得火热，但并非所有模型都降价。各家大模型厂商在降价幅度、降价模型类型、目标用户等方面均不一。其中，值得注意的是，以上几家降价的模型主要为入门级、轻量级的文本大模型，而高性能及图像识别、语音识别等垂类的多模态模型并没有调整价格。

例如，智谱 AI 的大模型产品主要包括 GLM-4 系列（GLM-4、GLM-4V）、GLM-3-Turbo 以及 ChatGLM 模型系列，此次降价调整的是入门级产品 GLM-3 Turbo 模型。企业级产品 GLM-4/GLM-4V 价格未变，仍维持在 0.1 元/千 tokens，百万 tokens 的价格为 100 元；

阿里的模型产品包括通义千问大语言模型、通义千问 VL 视觉理解大模型、通义千问开源模型以及通义万相（文生图）、Sambert 语音合成模型、Paraformer 语音识别模型等垂类模型，但此次降价的只涉及通用大模型，即通义千问大语言模型和通义千问开源模型。

对于此轮降价，有网友戏称「API 价格降得比研发模型时的电费还低」，但实际上，模型调用成本的降价给大模型厂商带来的实际影响并不大。有业内分析认为，降价更多地是出于市场和品牌影响的考虑。

同时，在纯降价格之外，几家大模型厂商都给了不同程度地注册免费送额度，或旨在快速抢占市场与用户。

例如，智谱 AI 宣布新注册开放平台用户赠送额度提升 500%，新注册用户获赠从 500 万 tokens 提升至 2500 万 tokens，其中包含 2000 万入门级额度和 500 万企业级额度。

「烧钱换数据」，庞大的用户访问量有助于其进一步提升模型服务能力，利用规模效应大幅降低模型推理的单位成本，并行成「数据飞轮」，从而加速大模型性能的提升。但有业内人士认为，各大模型的「数据飞轮」目前并未有效的建起来。

值得注意的是，此轮降价仅涉及模型的预置服务，即按 token 量调用方式使用所给的预置模型，而后续模型的精调、训练、部署价格并未调整。

在阿里云平台，展示了其收费服务包括模型推理、模型训练和模型部署三个环节，分别对应三个使用场景：直接调用预置模型进行推理、对预置模型进行调优，部署预置模型或调优后的模型到独占实例后进行推理。而涉及到此次降价的服务只有模型推理环节，即直接调用预置模型进行推理，根据实际使用的推理数量计费。

百度同样也在其官网详细版免费公告中提到，调整仅涉及部分系列模型的预置服务，模型训练暂无优惠。

猎豹移动董事长傅盛认为，「本轮 AI 大模型降价的目标不是为了用户更多的直接使用，而是为了吸引开发者。」傅盛认为，此轮降价对企业用户影响有限。此外，傅盛指出，「这次大降价基本宣告了大模型创业公司必须寻找新的商业模式，降的最凶的都是有云服务的大公司，通过大模型来获取云客户，羊毛出在猪身上，降得起。大模型创业公司没有这样的生态，必须另寻商业模式。」

降价后用户的成本是否真的大幅度降下来了？有哪些「猫腻」？

从每百万 tokens 几十元到免费使用，看似价格大幅度下调，但企业用户的实际成本是否也大幅度下来了，答案却是不一定。「火热」的价格战背后，存在不少「猫腻」。

一方面，此次各大模型厂商降价仅涉及低并发（测试场景）用，而高并发的定价依旧，并没有降低。

大模型的推理包含时间、价格、生成 Token 数量三个变量。其中，模型推理服务的吞吐是一个至关重要的因素，抛开单位时间内的并发数量，仅看 tokens 价格并不合理。

简单来说，一个大模型，可以支持多次计算过程同时进行，进行的计算数量越多越好。吞吐的极限越大，代表着模型的推理能力越强，大模型厂商的技术能力越强。

而在实际跑业务的过程中，往往需要增加并发量，远超低并发的数量限制。根据阿里云官网的计费说明文档，按 tokens 调用模式（即模型推理计费模式，仅适用于预置模型）暂不支持增加并发量。如果业务实际需要增加并发量，则需要额外联系商务。

同时，针对于大企业的实际业务场景来说，模型调用的成本在总体成本中实际占比也并不高，因此，API 的降价并不能给大企业带来实质性的影响，相反，在「价格战」之后，大模型厂商后续价格的调整，或者对于大企业业务的汇报和后续变动成本会更高。

而对于个人开发者、小型企业或「小项目」来说，模型 API 调用价格下降，在一定程度是一种利好，未来的成本可能趋近于 0，涌现出来更多的大模型相关项目或应用。

另一方面，实际上，从基础大模型的 API 调用模式离实际业务还有一段距离。Lepton.ai 的创始人贾扬清认为，「站在整个 AI 业界的角度，降价是个拍脑袋就可以做的简单策略，但是真正的 To B 商业成功更难。今天企业在使用 AI 的时候，并不是成本驱动的，今天不是说 API 贵才没有人用，而是因为要搞清楚，到底怎么用起来产生业务价值」。

而回过头来看，国内各大模型厂商「打价格战」归根究竟，很大程度上是由于各大模型间性能差异不大，同质性较强，在用户数量难以进一步增长的情况下，通过低价策略吸引开发者，从而建立生态壁垒。

而对比国外大模型厂商，拼得则是「每秒生成的 Token 数量」，AI 创企 Groq 因通过自研 LPU 训练出推理速度最快的 LLM 收到极大关注。在 Groq 上，Mixtral 模型 8×7B 版本，每秒输出 500 个 Token；Llama 2 模型的 70B 版本，每秒输出 300 个 Token；Llama 3 模型的 8B 版本，每秒输出 800 个 Token；Falcon 的 180B 模型，每秒输出 173 个 Token。

但同样，业内也有一些不同的声音，「价格战」不能催生出「超级应用」或是「杀手级应用」，但应用/产品能够解决用户的痛点够痛的话，用户对价格或是速度也会有一些容忍...

为何企业用户的实际成本并没有真正实现大幅度降低？价格战是否波及到了国外大模型及 C 端大模型应用公司？...

订阅机器之心Pro会员通讯👇，查看完整解读

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章