如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型?
今天朋友圈被一张截图和一篇微软的EMNLP的论文给激活了
论文:CodeFusion: A Pre-trained Diffusion Model for Code Generation
地址:https://arxiv.org/abs/2310.17680
录取:EMNLP2024
让我们一起看看知乎的大佬们对此事的评价吧~
原知乎链接:
https://www.zhihu.com/question/628395521
段小草
过去的已知信息:
比较明确的是,GPT-3 是 175B;
gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10,且接口速度明显变快。
微软的这篇论文(CODEFUSION: A Pre-trained Diffusion Model for Code Generation)是介绍代码模型 CodeFusion 的,其中一张比较表格中,「捎带手」地给出了 ChatGPT 的模型参数规模:20B,咱也不知道是不是故意的。
其实早在gpt-3.5-turbo
的价格出来的时候,就已经有人给出过这个推断了:
ChatGPT 是百亿(~10B)参数的模型(这其实是我们两个多月前就已获取到的消息,也可以通过测 latency 验证,和 curie 差不多) 虽然 ChatGPT 的 policy model 是百亿规模,但它所用的 reward model 也许用了千亿模型,这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是,这个小尺寸(~10B)模型已经达到或超越了先前的大尺寸模型(例如 175B 的 GPT-3.5)
我的几点想法:
20B 大概率是真的,但绝对不意味着随便一个 20B 都可以,要知道从小模型做到 20B,和从大模型蒸馏到 20B 的概念绝对不一样; OpenAI 在多个场合多次表示他们坚信 scale law 依然成立,我不认为这是烟雾弹,并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用; gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望,大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限,是否会出现小于某个量级后,基础能力明显下降的情况。
再过几天 OpenAI 就要办开发者大会了,希望能有更多信息,据外媒说 OpenAI 最近丢了不少商业客户,甚至和微软也貌合神离的,OpenAI 说要降低费用,让开发者能有更多机会,感觉他们还会憋点大招出来。
张俊林
不负责任猜测一波:GPT 4是去年8月做好的,ChatGPT估计是OpenAI应对Anthropic 要推出的Claude专门做的,那时候GPT 4应该价值观还没对齐,OpenAI不太敢放出来,所以临时做了ChatGPT来抢先发优势。OpenAI在2020年推出Scaling law的文章,Deepmind在2022年推出的改进版本chinchilla law。OpenAI做大模型肯定会遵循科学做法的,不会拍脑袋,那么就有两种可能:
可能性一:OpenAI已经看到Chinchilla的论文,模型是按照龙猫法则做的,我们假设ChatGPT的训练数据量不低于2.4T token数量(为啥这样后面分析),那么按照龙猫法则倒推,一般训练数据量除以20就应该是最优参数量。于是我们可以推出:这种情况ChatGPT模型的大小约在120B左右。
可能性二:OpenAI在做ChatGPT的时候还没看到Chinchilla的论文,于是仍然按照OpenAI自己推导的Scaling law来设计训练数据量和模型大小,推算起来训练数据量除以12.5左右对应模型最优参数,他们自己的Scaling law更倾向把模型推大。假设训练数据量是2.4T左右,那么这种情况ChatGPT的模型大小应该在190到200B左右。
大概率第一个版本ChatGPT推出的时候在200B左右,所以刚出来的时候大家还是觉得速度慢,价格也高。3月份OpenAI做过一次大升级,价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的,目前的结论是大模型量化压缩到4到6bit模型效果是能保持住不怎么下降的。所以很可能OpenAI这次升级从自己的Scaling law升级到了Chinchilla的Scaling law,这样模型大小就压缩了120B左右,接近一半,在加上比如4bit量化,模型大小应该在30B左右,这样速度应该可以提升8倍左右,模型规模再加上其它技术优化是有可能把价格打到十分之一的。后续在6月份和8月份各自又价格下调了25%,最终把模型压缩到20B左右。
这里解释下为何ChatGPT 的训练数据量不太可能比2.4T低,这个2.4T是LLaMA第一版的训练数据量。目前研究结论是当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral 7B效果炸裂,归根结底是训练数据量达到了8个T,所以导致基础模型效果特别强。以ChatGPT的效果来说,它使用的数据量不太可能低于2.4T。
当然,还有另外一种可能,就是ChatGPT在后期优化(比如第一次大升级或者后续的升级中,开始版本不太可能走的这条路)的时候也不管scaling law了,走的是类似mistral的路线,就是模型大小固定在20B,疯狂增加训练数据,如果又构造出合适的instruct数据,效果也可能有保障。
不论怎么讲,对于6B到13B左右比较适合应用落地的模型,强烈呼吁中文开源模型模仿mistral,固定住一个最适合使用的模型大小,然后疯狂增加训练数据,再加上好的instruct策略,是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说,7B-13B左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力,把训练数据往上再努力怼一怼。
刘聪NLP
省流版:
国内外大模型差距比预估的要大; 做大模型落地的企业信心应该更足; 国内后面可能大多数企业都做20B左右的模型; LLMer,在效果不好的时候,少了一个借口。
秦风
深有同感,最近两周受邀深度体验了百度的文心一言,说实话,那是什么呆逼玩意啊。。。
唉,真是一言难尽。
赶英超美任重道远啊。
国内一些大厂,想抄就花点功夫好好抄,别搞个皮毛丢人现眼。
文心一言抄chatGPT就跟百度搜索抄谷歌搜索一样,真本事没抄到。。。
微信扫码关注该文公众号作者