Redian新闻
>
GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑

GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑

公众号新闻



  新智元报道  

编辑:桃子 好困
【新智元导读】GPT-4远不止1万亿,甚至,还是8个2200亿参数组成的混合专家模型。

家人们,GPT-4的参数可能还真不止1万亿!
近来,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。
这么算来,8 x 220B = 1.76万亿。
就连PyTorch的创建者Soumith Chintala对此也深信不疑。
GPT-4:8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。
如果真是这样的话,GPT-4的训练可能更加有效。

1.76万亿「八头蛇」?


在GPT-4还未放出之前,GPT-3有1750亿个参数,一众网友猜测GPT-4岂不是要逆天,最起码1万亿。
而George在接受Latent Space的采访时,对GPT4架构的描述着实让人震惊。
他的部分原话如下:

GPT-4每个head都有2200亿参数,是一个8路的混合模型。所以,混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次,他们有一些小技巧。他们实际上进行了16次推断。

他特别强调,OpenAI做了8个混合专家模型,任何人可以花8倍资金都能训练出来。
也就是说,人们能够训练更小模型更长时间,微调后,就能找到这些技巧。
OpenAI曾经发表类似关于让计算量不变的情况下,让训练更好的算法,比较像BatchNorm和NoBatchNorm。
一起看看George Hotz具体的介绍视频:

网友热评

就像George所说,这是8个较小的模型,如果有足够资金训练8个混合模型,这是一个微不足道的解决方案。
所以,GPT-4是GPT-3的10倍,而1月份的所有小圈圈大圈圈的meme实际上是......真的?!
网友得知秘诀后,打算自己也要训练一个LLaMA集合体与GPT-4竞争。
还有网友称,这有点像LLM-Blender。
我早就听到了稍微可信的传言,说GPT-4将是MoE,但从未得到证实。MoE和大约1万亿个参数不会让我感到惊讶,这听起来极为合理。
还有网友进行深度分析:
老实说,我预计这将是人工智能架构的下一阶段。我们已经看到特定任务模型在任务中的表现比一般模型好得多。
因此,将许多特定任务模型组合在一起将是下一个合乎逻辑的步骤。这几乎使升级系统变得容易得多,一次只能处理一个模型。
话虽如此,OpenAI以一种未来可能会,也可能不会的方式做到了这一点。显然,组合系统可能会有更多的小模型,而不是几个更大的模型。
如果这是真的,这是否意味着每个220B模型也有32K的上下文长度?
网友下了功夫,给它命名为「九头蛇」。
参考资料:
https://www.latent.space/p/geohot#details




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
春日隨筆650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数独特的车库风景Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用:分析数据、生成代码都精通650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!参数是 ChatGPT 的近 6 倍!英特尔公布 AI 大模型 Aurora genAI,具备 1 万亿参数英伟达H100用11分钟训完GPT-3!PyTorch创始人:不要只看时间Python吞噬世界,GPT吞噬Python!ChatGPT 上线最强应用:分析数据、生成代码都精通我的私隐真的不想你偷窥---哪种社交App安全?改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键LPython:最新的高性能Python实现、速度极快且支持多后端我在iPhone上装了70亿参数大模型,来自陈天奇团队最新成果GPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元我的私隐真的不想你偷窥---哪种社交App安全?比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤详解Python文件: .py、.ipynb、.pyi、.pyc、​.pyd !将蛋白质语言模型扩展到千亿参数,深度解读百图生科、清华xTrimoPGLM模型Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用CVPR 2023 | 改动一行代码,PyTorch训练三倍提速,这些高级技术是关键碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face十亿参数,一键瘦身!「模型减重」神器让大模型狂掉 3/4复杂的现代社会,智者总是充满疑惑,愚者却坚信不疑LPython:最新的高性能 Python 实现、速度极快且支持多后端回国之旅,衣着被朋友骂了HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期国产乾元2大模型来了:可编程金融文生图,120亿参数,超对称联手复旦出品650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT十亿参数,一键瘦身!「模型减重」神器增强型 SmoothQuant,让大模型狂掉 3/4英特尔公布1万亿参数AI模型,比ChatGPT大570%GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了CVPR 2023 大牛演讲:改动一行代码,PyTorch训练三倍提速!这些技术是关键!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。