GPT-4细节泄露了-GPT-4's details are leaked公众号新闻2023-07-12 02:07MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | TechVerse今天,Twitter上一位名为Yam Peleg的用户发布了一篇文章,详细介绍了GPT4的细节,但是不久后他就删除了这条帖子:在他未删除的帖子中,他介绍到:GPT-4 的参数数量非常庞大,大约有 1.8 万亿个参数,分布在 120 个层中。这使得 GPT-4 的规模是 GPT-3 的十倍以上。这一信息使我们对 GPT-4 的能力有了新的认识,它可能具有更强大的学习和理解能力。在模型的设计中,OpenAI 使用了一种名为 Mixture of Experts (MoE) 的模型来控制成本。这种模型使用了 16 个专家,在模型中每个专家有大约 1110 亿个参数。在每次前向传递中,这些专家中的两个被路由到模型中。GPT-4 在训练时使用的数据集约为 13 万亿个令牌。这些令牌并非都是唯一的,它们还计算了作为更多令牌的时代。根据数据类型,文本数据的时代数为 2,代码数据的时代数为 4。关于 GPT-4 的训练成本,据估计,在大约 25,000 个 A100s 上,GPT-4 的训练 FLOPS 为大约 215e25,训练时间为 90 到 100 天,利用率为 32% 到 36%。如果他们在云中的成本约为每小时 1 美元/A100,那么这次运行的训练成本将约为 6300 万美元。关于 GPT-4 的推理成本,GPT-4 的成本是 175B 参数 Davinchi 的三倍。这主要是由于 GPT-4 需要更大的集群和更低的利用率。对于 128 个 A100s 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0049 美分,对于 128 个 H100 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0021 美分。技术交流群邀请函△长按添加小助手扫描二维码添加小助手微信请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群关于我们MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章