Redian新闻
>
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了

GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了

公众号新闻
机器之心报道

编辑:吴昕

George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。

「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。


不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」

实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。

虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。

直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。

乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。

最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。


在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。


「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。


为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。

对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。

目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。


有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。


还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。


需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。

George Hotz 采访内容。GPT-4 相关内容在 49:00 前后。视频来源:https://www.youtube.com/watch?v=K5iDUZPx60E&t=3030s

参考链接:https://twitter.com/soumithchintala/status/1671267150101721090


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我的私隐真的不想你偷窥---哪种社交App安全?【又有传言说可能有巨变】(小道消息)凯悦和米高梅的合作可能2023年中要停止又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源复旦MOSS升级版开源上线;马斯克启动TruthGPT;海康训练出百亿参数CV大模型丨AIGC大事周报650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!高通押注混合AI,终端侧或将运行100亿参数模型参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了春日隨筆苹果2023WWDC看点,大小道消息汇总|前哨陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型UC伯克利LLM排行榜首次重磅更新!GPT-4稳居榜首,全新330亿参数「小羊驼」位列开源第一参数是 ChatGPT 的近 6 倍!英特尔公布 AI 大模型 Aurora genAI,具备 1 万亿参数「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT阿里50亿参数的AI画画模型火了,可再厉害的人工智能也无法模仿孩子的画英特尔公布1万亿参数AI模型,比ChatGPT大570%清华第二代60亿参数ChatGLM2开源!中文榜居首,碾压GPT-4,推理提速42%张俊林趣谈:GPT4是否已具备类人智慧,为何GPT通过Next Token Prediction可以产生智能英伟达AI芯片劲敌来了!AMD推出MI300X,可运行多达800亿参数模型回国之旅,衣着被朋友骂了原来GPT-4是i型人格!大模型MBTI测试来了,来自字节独特的车库风景中科院出手!1000亿参数全模态大模型发布,能看懂视频、绘画作曲、分析信号哈里梅根被传婚姻触礁,要分开一段时间?!八卦小报曝劲爆小道消息...GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香楼市巨变!北京今天传来大消息。。GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报牛津大学入学笔试有新变动!MAT和PAT开启混合模式,中国学生答题方式改变!!OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期复旦新作:单机微调650亿参数大模型;蚂蚁、百度参投AI大模型创企;杭州检方对AI换脸案提起公诉丨AIGC大事日报国内高校首例!支持千亿参数的大模型训练我的私隐真的不想你偷窥---哪种社交App安全?GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。