OpenAI的GPT-4和 GPT-5,会是怎么样?
来源:内容由半导体行业观察(ID:icbank)编译自nextbigfuture,谢谢。
OpenAI 首席执行官 Sam Altman 在一年前的一次会议上接受了关于 GPT4 和其他 AI 主题的采访。
按照他的说法,GPT-4 即将到来,但目前的重点是编码,这也是可用计算的方向。GPT-4 将是一个文本模型(而不是多模式)。它不会比 GPT-3 大很多,但会使用更多的计算。人们会惊讶于您可以在不扩大模型的情况下将模型做得更好。
GPT4 应该有 20X GPT3 计算。GPT4 应该有 10X 参数。到 2025 年,GPT 5 应该有 10-20 倍的 GPT4 计算。GPT5 将有 200-400 倍的 GPT3 计算和 100 倍的 GPT3 参数。
进展将来自 OpenAI 在 GPT 各个方面的工作(数据、算法、微调等)。GPT-4 可能能够在更长的上下文中工作,并使用不同的损失函数进行训练——OpenAI 对此有“预告”。
GPT-5 或许能够通过图灵测试。但这可能不值得付出努力。
GPT-4 可能会在 2023 年下半年发布。GPT-5 应该预计在 2024 年底或 2025 年发布。
100 万亿参数模型不会是 GPT-4,而且还很遥远。他们从更小的模型中获得了更多的性能。也许他们永远不需要这么大的模型。
根据论文 Scaling Laws for Neural Language Models (2020),可以通过三个因素计算通过 cross-entropy loss衡量的模型性能:模型中的参数数量、训练期间使用的计算量以及训练数据。这三个因素与损失之间存在power-law关系。基本上,这意味着您必须将计算量、数据和参数量增加 10 倍才能将损失减少一个单位,增加 100 倍才能将损失减少两个单位,依此类推。该论文的作者建议在相对少量的数据上训练非常大的模型,并建议在更多的训练步骤或数据上对更多的参数进行计算,以最大限度地减少损失。
对于计算量每增加 10 倍,该论文大约建议将参数数量增加 5 倍,将训training tokens的数量增加 2 倍,将串行训练步骤的数量增加 1.2 倍。
2020 年 5 月(GPT-3 发布日期前后),微软宣布专门为 OpenAI 创建了一台新的 AI 训练超级计算机。该超级计算机拥有约 285,000 个 CPU 和 10,000 个 GPU,位列世界超级计算机前 5 名。假设它使用与 Nvidia 的 Selene 超级计算机 (A100s) 类似的架构,那么它将拥有 1250 个 DGX A100 节点,相当于大约 9 个 DXB SuperPOD。
2022 年 3 月,Nvidia 宣布了一款名为 Eos 的新型超级计算机,它使用 4608 个 H100 GPU,预计将于 2022 年底开始运行,但我不确定它是否真的已经建成。假设每个 H100 比 A100 GPU 快 4 倍,那么 Eos 的性能应该约为 3 EFLOP/s。
如果 GPT-4 的计算预算是 5.63e24 FLOP,这些缩放定律表明 GPT-4 的大小将与 GPT-3 相似,以实现最佳损失。5.63e24 的计算预算应该有大约 175B 到 280B 的参数。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3325内容,欢迎关注。
推荐阅读
★Jim Keller最新采访:谈RISC-V、Chiplet和AI
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者