Redian新闻
>
GPT-4细节泄露了-GPT-4's details are leaked

GPT-4细节泄露了-GPT-4's details are leaked

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | TechVerse
今天,Twitter上一位名为Yam Peleg的用户发布了一篇文章,详细介绍了GPT4的细节,但是不久后他就删除了这条帖子:
在他未删除的帖子中,他介绍到:‍‍‍‍‍‍‍
GPT-4 的参数数量非常庞大,大约有 1.8 万亿个参数,分布在 120 个层中。这使得 GPT-4 的规模是 GPT-3 的十倍以上。这一信息使我们对 GPT-4 的能力有了新的认识,它可能具有更强大的学习和理解能力。
在模型的设计中,OpenAI 使用了一种名为 Mixture of Experts (MoE) 的模型来控制成本。这种模型使用了 16 个专家,在模型中每个专家有大约 1110 亿个参数。在每次前向传递中,这些专家中的两个被路由到模型中。
GPT-4 在训练时使用的数据集约为 13 万亿个令牌。这些令牌并非都是唯一的,它们还计算了作为更多令牌的时代。根据数据类型,文本数据的时代数为 2,代码数据的时代数为 4。
关于 GPT-4 的训练成本,据估计,在大约 25,000 个 A100s 上,GPT-4 的训练 FLOPS 为大约 215e25,训练时间为 90 到 100 天,利用率为 32% 到 36%。如果他们在云中的成本约为每小时 1 美元/A100,那么这次运行的训练成本将约为 6300 万美元。
关于 GPT-4 的推理成本,GPT-4 的成本是 175B 参数 Davinchi 的三倍。这主要是由于 GPT-4 需要更大的集群和更低的利用率。对于 128 个 A100s 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0049 美分,对于 128 个 H100 来推理 GPT-4 8k seqlen,其成本估计为每 1k 令牌 0.0021 美分。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一笔勾勒,宫崎骏动漫世界!斯坦福大模型𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩,草图秒变神作Troubled Singing Reality Show Accused of Mistreating Coco Lee每天学一句英语台词|​I'm retiredErklärung zur Zusammenarbeit𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~Russia Predicted a Chinese Tourist Boom. It Hasn’t Arrived.美国有多少种性别?汪精卫其诗其人刘宁荣教授出席校友沙龙活动并做主题演讲“去风险下的'半脱钩'与'半球化' ”魔杯MDNet、SiamFC、ADNet、CFNet、LSTM(RNN)…你都掌握了吗?一文总结目标追踪必备经典模型(一)大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools[Webinar] Navigating China's Asset Securitization Market重名Good News For Cold Noodle Lovers: License Requirements Relaxed一百二十七 新中国诞生Young Graduates Are Selling Their Knowledge on the StreetsCNN、GRNN、CLSTM、TD-LSTM/TC-LSTM…你都掌握了吗?一文总结情感分析必备经典模型(一)Majority of Parents Stressed Over Children’s Education: SurveyGlobal luxury goods market accelerated after record 2022​下一代Transformer:RetNet结构可视化及Vision RetNet展望老黄「刀法」有变!英伟达下一代RTX 50系显卡细节泄露,代号Blackwell,AMD挑战王者任重道远一文搞懂TCP、HTTP、Socket、Socket连接池【𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶无痕内裤】49元三条!巨巨巨好穿 !!简直就是辣妹顶配,食品级冰箱收纳盒【一日团】首个Unified Redis Release,Redis影响最深远的版本发布世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能 | 5Y ViewGPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元Join free, user-led events — wherever you areRescue Teams Struggle to Reach Isolated Areas in Flood-Hit Hebei张俊林趣谈:GPT4是否已具备类人智慧,为何GPT通过Next Token Prediction可以产生智能How Korea Quietly Reshaped Chinese Pop CultureChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成“演唱会门票”应该说concerts' tickets还是concert tickets?世界的参数倒影:为何GPT通过Next Token Prediction可以产生智能Redmi 新机再曝,Redmi Note 13、Redmi K70期待哪款?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。