OpenAI的GPT-4和 GPT-5，会是怎么样？

公众号新闻

2023-02-27 01:02

来源：内容由半导体行业观察（ID：icbank）编译自nextbigfuture，谢谢。

OpenAI 首席执行官 Sam Altman 在一年前的一次会议上接受了关于 GPT4 和其他 AI 主题的采访。

按照他的说法，GPT-4 即将到来，但目前的重点是编码，这也是可用计算的方向。GPT-4 将是一个文本模型（而不是多模式）。它不会比 GPT-3 大很多，但会使用更多的计算。人们会惊讶于您可以在不扩大模型的情况下将模型做得更好。

GPT4 应该有 20X GPT3 计算。GPT4 应该有 10X 参数。到 2025 年，GPT 5 应该有 10-20 倍的 GPT4 计算。GPT5 将有 200-400 倍的 GPT3 计算和 100 倍的 GPT3 参数。

进展将来自 OpenAI 在 GPT 各个方面的工作（数据、算法、微调等）。GPT-4 可能能够在更长的上下文中工作，并使用不同的损失函数进行训练——OpenAI 对此有“预告”。

GPT-5 或许能够通过图灵测试。但这可能不值得付出努力。

GPT-4 可能会在 2023 年下半年发布。GPT-5 应该预计在 2024 年底或 2025 年发布。

100 万亿参数模型不会是 GPT-4，而且还很遥远。他们从更小的模型中获得了更多的性能。也许他们永远不需要这么大的模型。

根据论文 Scaling Laws for Neural Language Models (2020)，可以通过三个因素计算通过 cross-entropy loss衡量的模型性能：模型中的参数数量、训练期间使用的计算量以及训练数据。这三个因素与损失之间存在power-law关系。基本上，这意味着您必须将计算量、数据和参数量增加 10 倍才能将损失减少一个单位，增加 100 倍才能将损失减少两个单位，依此类推。该论文的作者建议在相对少量的数据上训练非常大的模型，并建议在更多的训练步骤或数据上对更多的参数进行计算，以最大限度地减少损失。

对于计算量每增加 10 倍，该论文大约建议将参数数量增加 5 倍，将训training tokens的数量增加 2 倍，将串行训练步骤的数量增加 1.2 倍。

2020 年 5 月（GPT-3 发布日期前后），微软宣布专门为 OpenAI 创建了一台新的 AI 训练超级计算机。该超级计算机拥有约 285,000 个 CPU 和 10,000 个 GPU，位列世界超级计算机前 5 名。假设它使用与 Nvidia 的 Selene 超级计算机 (A100s) 类似的架构，那么它将拥有 1250 个 DGX A100 节点，相当于大约 9 个 DXB SuperPOD。

2022 年 3 月，Nvidia 宣布了一款名为 Eos 的新型超级计算机，它使用 4608 个 H100 GPU，预计将于 2022 年底开始运行，但我不确定它是否真的已经建成。假设每个 H100 比 A100 GPU 快 4 倍，那么 Eos 的性能应该约为 3 EFLOP/s。

如果 GPT-4 的计算预算是 5.63e24 FLOP，这些缩放定律表明 GPT-4 的大小将与 GPT-3 相似，以实现最佳损失。5.63e24 的计算预算应该有大约 175B 到 280B 的参数。

★ 点击文末【阅读原文】，可查看本文原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3325内容，欢迎关注。