Redian新闻
>
大模型开发者必备手册:这些数字值得记住 | GitHub 1200星

大模型开发者必备手册:这些数字值得记住 | GitHub 1200星

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4的使用成本,竟然是GPT-3.5的50倍之多;

而让大语言模型同时处理25个请求的时间,仅是处理单个请求的2倍……

这些数据听上去可能有些出乎意料,但都是真实的。

它们出自一篇名为《大语言模型(LLM)开发者必须知道的数字》的GitHub文章。

文章发布之后仅1天,便获得了1200次星标。

文章基于真实的开发经验,介绍了提示工程、硬件资源、价格等方面的数据。

就算没有成为开发者的打算,拿来扩充一下知识储备也是极好的。

都有哪些数字值得关注

我们不妨先来看一下文章作者制作的速览图表:

接下来,我们就来详细介绍一下这些数据。

提示工程

40-90%:在提示词中加入“Be Concise”节约的成本

使用LLM是按照回复的token数量付费的,因此让LLM的回答简明扼要可以节约成本。

在提示词中加入“Be Concise”(答案简明些),可以节约40-90%的成本。

1.3:每个单词的平均token数

LLM是对token进行操作的,token可能包含完整单词或其中的一部分。

如“eating”是由“eat”和后缀“ing”两个token组成。

一篇750词的英文文章中大约含有1000个token。

而对于其他语言,每个词所含的token数量可能更多。

价格

价格数据会存在波动,本节的价格数据主要参考OpenAI,但其他公司数据也相似。

约50倍:GPT-4与GPT-3.5花费的比值

效果上,GPT-4的表现明显好于GPT-3.5,但其成本约为后者的50倍之多。

因此,对于诸如总结这类GPT-3.5也能出色完成的任务,可以考虑不使用更昂贵的GPT-4。

5倍:GPT-3.5-Turbo生成与使用OpenAI embedding的成本比

诸如“美国的首都是哪里”这类可以通过检索得到答案的问题,让LLM生成答案的成本是检索的5倍。

而如果使用GPT-4,成本差异将高达250倍。

10倍:OpenAI embedding与自建embedding的成本比

这一数字为大约数值,实际情况可能随着embedding的规模而变化。

6倍:微调版与基本版OpenAI模型的成本比值

尽管成本较为昂贵,但对基本OpenAI模型的微调是有意义的。

对基本模型进行微调的效益明显高于定制模型。

1倍:自建模型是否进行微调的成本比

由于参数量相同,是否进行微调对自建模型的成本几乎没有影响。

训练与微调

约100万美元:在1.4万亿token上训练130亿参数模型的成本

这一数字是建立在一切工作都十分顺利、没有发生崩溃的前提下计算出的。

Meta的大语言模型LLaMA的论文当中显示,用2048块80GB A100 GPU进行训练LLaMA一共花费了21天。

<0.001:微调与从头开始训练的成本比

这一数据有一些笼统,但微调的成本几乎可以忽略不计。

对一个60亿参数模型进行微调的成本大约是7美元。

即使是最贵的OpenAI模型Davinci,1000个token的微调成本也只有3美分。

相对于对一部莎士比亚全集进行微调也只需要40美元。

GPU消耗

如果你要自建模型,了解其GPU消耗十分重要。

本节所列数据仅是推理过程所消耗的资源量,训练和微调过程还需要更多资源。

V100: 16GB, A10G: 24GB, A100: 40/80GB:GPU内存大小

GPU内存大小决定了LLM的参数量上限。

24GB的A10G在亚马逊云服务中的价格为1.5-2美元每小时。

参数量的2倍:LLM的典型GPU内存需求

例如,7B参数量的LLM需要消耗14GB的GPU内存。

这是因为大多数时候,每个参数需要16bit浮点空间。

通常情况下不需要使用超过16bit的精度,8bit则会显著降低结果精准度。

约1GB:嵌入式模型的典型GPU内存需求

嵌入式模型消耗的本地GPU资源是很小的。

甚至可以在一块GPU上同时运行多个嵌入式模型。

超过10倍:批量处理LLM请求带来的吞吐量改善

在GPU上运行LLM时往往会有较大延迟。

一次请求消耗的时间可能长达5秒,相对于每秒仅能处理0.2个。

但如果同时发送两个请求,消耗的时间约为5.2秒。

而将25个请求捆绑发出的耗时约为10秒,相对于每秒可处理2.5个请求。

约1MB:130亿参数模型输出1个token所需的GPU内存

内存消耗量与生成token数成正比。

512个token(约380个英文单词)需要消耗512MB的空间。

作者简介

这篇文章的作者来自开源人工智能框架Ray的开发公司Anyscale。

主要贡献者是Google前首席工程师Waleed Kadous。

他也曾担任Uber CTO办公室工程战略负责人。

其中一位华人合作者是Google前员工Huaiwei Sun。

他来自江苏昆山,本科毕业于上海交通大学工业设计专业。

期间,他参加了耶鲁大学summer school并取得了满绩。

此后他取得了佐治亚理工学院硕士学位,研究方向为人机交互。

此外还有其他作者也参与了这篇文章的工作,未来也可能有更多人加入。

参考链接:
[1]https://github.com/ray-project/llm-numbers
[2]https://www.linkedin.com/in/scottsun94/

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
3w+星标项目大佬创业:树莓派即可运行大模型,已获GitHub前CEO投资纽约房租大涨!税收也涨 !什么都贵!“这些数字很高,让你大吃一惊。”开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元《花心》百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报复旦MOSS大模型开源了!Github和Hugging Face同时上线长周末必备省钱手册:多伦多景点折扣全攻略!400000000000000000倍!这是真正的天文数字→怎么开始学佛(十八)凡所有相,皆是虚妄国民警卫队会保卫特朗普吗?集中展示、探讨大模型年度热点,2023 WAIC AI 开发者论坛成功举办模仿Jeff Dean神总结,前谷歌工程师分享「LLM开发秘籍」:每个开发者都应知道的数字!春分,送你五个字,字字值千金!一个值得记录的忙碌清明节趣图:初级开发者 VS 高级开发者餐馆老板们对UberEats、Grubhub和Doordash已经忍无可忍!(古詩詞英譯) 梅花 - 王安石〔宋代〕别再用「代码量」衡量产出了!GitHub发布调研报告:92%开发者都在用AI工具写代码10,824人逃离纽约!房租大涨!什么都贵!“这些数字很高,让你大吃一惊。”加州彩票网站可测“幸运号码”,这些数字中奖率高AI辅助编程工具给开发者带来好处了吗?Stack Overflow 2023 开发者调查AI特别报告还有2天,澳洲$1亿大奖揭秘!盲猜可能得主来自这儿!这些数字速速记下ChatGPT访问骤降,国产大模型弯道超车机会来了?2万星GitHub项目亮剑,国内产品7月上线阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl澳洲又一大型开发商清算,欠下数百万债务!曾开发多个知名项目,屡获殊荣突发!Uber、DoorDash 、Grubhub怒发冲冠大暴走!高标准制度型开放:“一石三鸟”—评《关于在有条件的自由贸易试验区和自由贸易港试点对接国际高标准推进制度型开放的若干措施》只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型如何解锁大模型时代AI研究开发新范式 ?尽在2023WAIC AI开发者领袖论坛5030 血壮山河之武汉会战 九江战役 5上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜早财经丨马克龙访华三天签了这些大单;国常会:要想方设法稳住对发达经济体出口;阿里大模型开始邀请测试王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。