GPT-4细节泄露了-GPT-4's details are leaked

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

公众号新闻

2023-07-12 02:07

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | TechVerse

今天，Twitter上一位名为Yam Peleg的用户发布了一篇文章，详细介绍了GPT4的细节，但是不久后他就删除了这条帖子：

在他未删除的帖子中，他介绍到：‍‍‍‍‍‍‍

GPT-4 的参数数量非常庞大，大约有 1.8 万亿个参数，分布在 120 个层中。这使得 GPT-4 的规模是 GPT-3 的十倍以上。这一信息使我们对 GPT-4 的能力有了新的认识，它可能具有更强大的学习和理解能力。

在模型的设计中，OpenAI 使用了一种名为 Mixture of Experts (MoE) 的模型来控制成本。这种模型使用了 16 个专家，在模型中每个专家有大约 1110 亿个参数。在每次前向传递中，这些专家中的两个被路由到模型中。

GPT-4 在训练时使用的数据集约为 13 万亿个令牌。这些令牌并非都是唯一的，它们还计算了作为更多令牌的时代。根据数据类型，文本数据的时代数为 2，代码数据的时代数为 4。

关于 GPT-4 的训练成本，据估计，在大约 25,000 个 A100s 上，GPT-4 的训练 FLOPS 为大约 215e25，训练时间为 90 到 100 天，利用率为 32% 到 36%。如果他们在云中的成本约为每小时 1 美元/A100，那么这次运行的训练成本将约为 6300 万美元。

关于 GPT-4 的推理成本，GPT-4 的成本是 175B 参数 Davinchi 的三倍。这主要是由于 GPT-4 需要更大的集群和更低的利用率。对于 128 个 A100s 来推理 GPT-4 8k seqlen，其成本估计为每 1k 令牌 0.0049 美分，对于 128 个 H100 来推理 GPT-4 8k seqlen，其成本估计为每 1k 令牌 0.0021 美分。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

2024-01-06 18:01

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-05-15 的新闻