Redian新闻
>
大模型训练一次200-1200万美元!ChatGPT多烧钱?

大模型训练一次200-1200万美元!ChatGPT多烧钱?

公众号新闻

⭐星标华尔街见闻,好内容不错过

随着以ChatGPT为代表的生成式AI兴起,其背后以大模型为基础的人工智能成为业界投入的方向。

所谓“大模型”,通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。

据腾讯研究院,当前的人工智能大多是针对特定的场景应用进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。

相比之下,大模型的改进可以使所有的下游小模型受益,大幅提升人工智能的使用场景和研发效率。

同时,在大模型的框架下,ChatGPT所使用的GPT模型,每一代参数量均高速扩张,预训练的数据量需求和成本亦快速提升。

国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。这一成本于全球科技大企业而言并不便宜,但尚在可接受范围内。

初始投入近十亿美元,单日电费数万美元

国盛证券估算,今年1月平均每天约有1300万独立访客使用ChatGPT,对应芯片需求为3万多片英伟达A100GPU,初始投入成本约为8亿美元,每日电费在5万美元左右:

1)计算假设:
英伟达A100:根据OneFlow报道,目前,NVIDIAA100是AWS最具成本效益的GPU选择。
英伟达DGXA100服务器:单机搭载8片A100GPU,AI算力性能约为5PetaFLOP/s,单机最大功率约为6.5kw,售价约为19.9万美元/台。
标准机柜:19英寸、42U。单个DGXA100服务器尺寸约为6U,则标准机柜可放下约7个DGXA100服务器。则,单个标准机柜的成本为140万美元、56个A100GPU、算力性能为35PetaFLOP/s、最大功率45.5kw。

2)芯片需求量:
每日咨询量:根据Similarweb数据,截至2023年1月底,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。
A100运行小时:假设每个问题平均30字,单个字在A100GPU上约消耗350ms,则一天共需消耗729,167个A100GPU运行小时。
A100需求量:对应每天需要729,167/24=30,382片英伟达A100GPU同时计算,才可满足当前ChatGPT的访问量。
3)运行成本:
初始算力投入:以前述英伟达DGXA100为基础,需要30,382/8=3,798台服务器,对应3,798/7=542个机柜。则,为满足ChatGPT当前千万级用户的咨询量,初始算力投入成本约为542*140=7.59亿美元。
每月电费:用电量而言,542*45.5kw*24h=591,864kwh/日。参考HashrateIndex统计,我们假设美国平均工业电价约为0.08美元/kwh。则,每日电费约为2,369,640*0.08=4.7万美元/日。

训练成本:公有云下,单次百万至千万美元

国盛证券基于参数数量和token数量估算,GPT-3训练一次的成本约为140万美元;对于一些更大的LLM模型采用同样的计算公式,训练成本介于200万美元至1200万美元之间:

1)基于参数数量和token数量,根据OneFlow估算,GPT-3训练一次的成本约为139.8万美元:每个token的训练成本通常约为6N(而推理成本约为2N),其中N是LLM的参数ž数量;假设在训练过程中,模型的FLOPS利用率为46.2%,与在TPUv4芯片上进行训练ž的PaLM模型(拥有5400亿参数)一致。

2)对于一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM),采用同样的计算公式,可得出,训练成本介于200万美元至1200万美元之间。

国盛证券认为,在公有云上,对于以谷歌等全球科技大企业而言,百万至千万美元级别的训练成本并不便宜,但尚在可接受范围内、并非昂贵。

本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。市场有风险,投资需谨慎,请独立判断和决策。

会“花钱”更会“赚钱”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型一日一卡挑战:RTX2080Ti搞定大模型训练,算力节省136倍,学界欢呼中国抗疫不会“抄作业”?GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?最新!旧金山将向黑人每人赔偿500万美元!并保证未来250年,黑人的年收入不低于9.7万美元!还向黑人提供1美元的住房...帮人洗澡,一次298元!这个新职业火了微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天紧急提醒!ChatGPT成神器!但这些“ChatGPT”是假的,小心被骗!最新!黑人要求政府赔偿每人500万美元!并保证未来250年,黑人年收入不低于9.7万美元!还向黑人提供1美元的住房...剽窃、作弊,ChatGPT竟偷偷生成了12篇署名论文!Marcus炮轰Ta变成CheatGPT有人因ChatGPT省了10万美元!但大通银行却有不同看法...微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍从BERT到ChatGPT,百页综述梳理预训练大模型演变史7760万美元!6090万美元!麻州开放“社区一站式增长”应用程序ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇ChatGPT 核心技术大起底——InstructGPT:研究人类反馈数据比加大模型规模更重要!面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍部署国产ChatGPT仅需6G显存!ChatYuan模型开放下载:业内首个功能型对话开源中文大模型ChatGPT通过谷歌程序员面试,薪资达18.3万美元!ChatGPT通过谷歌程序员面试,薪资达18.3万美元!微小划痕即可释放百万级有毒物进入食物秋行南意—小村的故事(4)康熙的个人爱好有多烧钱?重磅!一张RTX 2080Ti搞定大模型训练!算力节省136倍!ChatGPT 带火大模型!深度解读人工智能大模型在产业中的服务新态势微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载200美元起跳!最高领2万美元!快上ChatGPT查!人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型资本主义和社会主义制度之比较芝城几个著名地方的圣诞气氛 太美!AI可能「毁灭人类」马斯克&1000名专家呼吁:暂停训练比GPT-4更强大的AI系统!骗子正在用假ChatGPT盗取信息!人类首个“反AI联盟”四问AI风险 暂停大模型训练遭遇不同意见GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。