Redian新闻
>
如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型?

如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型?

公众号新闻

今天朋友圈被一张截图和一篇微软的EMNLP的论文给激活了

论文:CodeFusion: A Pre-trained Diffusion Model for Code Generation
地址:https://arxiv.org/abs/2310.17680
录取:EMNLP2024

->辅导界的小米带你冲刺ACL2024

让我们一起看看知乎的大佬们对此事的评价吧~

原知乎链接:
https://www.zhihu.com/question/628395521

段小草

过去的已知信息:

比较明确的是,GPT-3 是 175B;

gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10,且接口速度明显变快。

微软的这篇论文(CODEFUSION: A Pre-trained Diffusion Model for Code Generation)是介绍代码模型 CodeFusion 的,其中一张比较表格中,「捎带手」地给出了 ChatGPT 的模型参数规模:20B,咱也不知道是不是故意的。

其实早在gpt-3.5-turbo的价格出来的时候,就已经有人给出过这个推断了:

  1. ChatGPT 是百亿(~10B)参数的模型(这其实是我们两个多月前就已获取到的消息,也可以通过测 latency 验证,和 curie 差不多)
  2. 虽然 ChatGPT 的 policy model 是百亿规模,但它所用的 reward model 也许用了千亿模型,这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是,这个小尺寸(~10B)模型已经达到或超越了先前的大尺寸模型(例如 175B 的 GPT-3.5)

我的几点想法:

  1. 20B 大概率是真的,但绝对不意味着随便一个 20B 都可以,要知道从小模型做到 20B,和从大模型蒸馏到 20B 的概念绝对不一样;
  2. OpenAI 在多个场合多次表示他们坚信 scale law 依然成立,我不认为这是烟雾弹,并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用;
  3. gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望,大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限,是否会出现小于某个量级后,基础能力明显下降的情况。

再过几天 OpenAI 就要办开发者大会了,希望能有更多信息,据外媒说 OpenAI 最近丢了不少商业客户,甚至和微软也貌合神离的,OpenAI 说要降低费用,让开发者能有更多机会,感觉他们还会憋点大招出来。

张俊林

不负责任猜测一波:GPT 4是去年8月做好的,ChatGPT估计是OpenAI应对Anthropic 要推出的Claude专门做的,那时候GPT 4应该价值观还没对齐,OpenAI不太敢放出来,所以临时做了ChatGPT来抢先发优势。OpenAI在2020年推出Scaling law的文章,Deepmind在2022年推出的改进版本chinchilla law。OpenAI做大模型肯定会遵循科学做法的,不会拍脑袋,那么就有两种可能:

可能性一:OpenAI已经看到Chinchilla的论文,模型是按照龙猫法则做的,我们假设ChatGPT的训练数据量不低于2.4T token数量(为啥这样后面分析),那么按照龙猫法则倒推,一般训练数据量除以20就应该是最优参数量。于是我们可以推出:这种情况ChatGPT模型的大小约在120B左右。

可能性二:OpenAI在做ChatGPT的时候还没看到Chinchilla的论文,于是仍然按照OpenAI自己推导的Scaling law来设计训练数据量和模型大小,推算起来训练数据量除以12.5左右对应模型最优参数,他们自己的Scaling law更倾向把模型推大。假设训练数据量是2.4T左右,那么这种情况ChatGPT的模型大小应该在190到200B左右。

大概率第一个版本ChatGPT推出的时候在200B左右,所以刚出来的时候大家还是觉得速度慢,价格也高。3月份OpenAI做过一次大升级,价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的,目前的结论是大模型量化压缩到4到6bit模型效果是能保持住不怎么下降的。所以很可能OpenAI这次升级从自己的Scaling law升级到了Chinchilla的Scaling law,这样模型大小就压缩了120B左右,接近一半,在加上比如4bit量化,模型大小应该在30B左右,这样速度应该可以提升8倍左右,模型规模再加上其它技术优化是有可能把价格打到十分之一的。后续在6月份和8月份各自又价格下调了25%,最终把模型压缩到20B左右。

这里解释下为何ChatGPT 的训练数据量不太可能比2.4T低,这个2.4T是LLaMA第一版的训练数据量。目前研究结论是当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral 7B效果炸裂,归根结底是训练数据量达到了8个T,所以导致基础模型效果特别强。以ChatGPT的效果来说,它使用的数据量不太可能低于2.4T。

当然,还有另外一种可能,就是ChatGPT在后期优化(比如第一次大升级或者后续的升级中,开始版本不太可能走的这条路)的时候也不管scaling law了,走的是类似mistral的路线,就是模型大小固定在20B,疯狂增加训练数据,如果又构造出合适的instruct数据,效果也可能有保障。

不论怎么讲,对于6B到13B左右比较适合应用落地的模型,强烈呼吁中文开源模型模仿mistral,固定住一个最适合使用的模型大小,然后疯狂增加训练数据,再加上好的instruct策略,是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说,7B-13B左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力,把训练数据往上再努力怼一怼。

刘聪NLP

省流版:

  1. 国内外大模型差距比预估的要大;
  2. 做大模型落地的企业信心应该更足;
  3. 国内后面可能大多数企业都做20B左右的模型;
  4. LLMer,在效果不好的时候,少了一个借口。

秦风

深有同感,最近两周受邀深度体验了百度的文心一言,说实话,那是什么呆逼玩意啊。。。

唉,真是一言难尽。

赶英超美任重道远啊。

国内一些大厂,想抄就花点功夫好好抄,别搞个皮毛丢人现眼。

文心一言抄chatGPT就跟百度搜索抄谷歌搜索一样,真本事没抄到。。。



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
内心的风暴OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报Meta被曝明年发布「开源版GPT-4级」全新大模型!参数量比Llama 2大数倍,可免费商用ChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报拜登政府发布AI行政命令;国内超一半大模型公司跑在阿里云上;ChatGPT被曝参数规模为200亿丨AIGC大事日报ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?chatGPT 太好用了国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!20B跨级挑战70B性能!国产开源大模型打造大模型新标杆34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架正视AI技术发展利弊,高校招生部如何看待文书中使用ChatGPT国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70BChatGPT 成功诊断 4 岁男孩怪病,击败 17 位医生,这意味着什么?惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)跑步看世界-威尔明顿历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT万万没想到,ChatGPT参数只有200亿?GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报工信部发《人形机器人创新发展指导意见》;微软撤回ChatGPT参数200亿论文;GPT-4图灵测试成功率41%丨AIGC大事日报清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单【赠送GPT账号】如何使用ChatGPT完成科研、程序开发、论文写作等,看看这篇!惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)最大心率开源大模型FLM-101B:训练成本最低的超100B参数大模型俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPT这轮蓝月:经久高悬的风花雪月20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了微软论文一张截图,曝出GPT-3.5仅有200亿参数?AI圈巨震,网友大呼太离谱!to distinguish the quality of science from the quality of EnglisSambaNova的新芯片可运行比OpenAI的ChatGPT高级版大两倍以上的模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。