Redian新闻
>
如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型?

如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型?

公众号新闻

今天朋友圈被一张截图和一篇微软的EMNLP的论文给激活了

论文:CodeFusion: A Pre-trained Diffusion Model for Code Generation
地址:https://arxiv.org/abs/2310.17680
录取:EMNLP2024

->辅导界的小米带你冲刺ACL2024

让我们一起看看知乎的大佬们对此事的评价吧~

原知乎链接:
https://www.zhihu.com/question/628395521

段小草

过去的已知信息:

比较明确的是,GPT-3 是 175B;

gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10,且接口速度明显变快。

微软的这篇论文(CODEFUSION: A Pre-trained Diffusion Model for Code Generation)是介绍代码模型 CodeFusion 的,其中一张比较表格中,「捎带手」地给出了 ChatGPT 的模型参数规模:20B,咱也不知道是不是故意的。

其实早在gpt-3.5-turbo的价格出来的时候,就已经有人给出过这个推断了:

  1. ChatGPT 是百亿(~10B)参数的模型(这其实是我们两个多月前就已获取到的消息,也可以通过测 latency 验证,和 curie 差不多)
  2. 虽然 ChatGPT 的 policy model 是百亿规模,但它所用的 reward model 也许用了千亿模型,这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是,这个小尺寸(~10B)模型已经达到或超越了先前的大尺寸模型(例如 175B 的 GPT-3.5)

我的几点想法:

  1. 20B 大概率是真的,但绝对不意味着随便一个 20B 都可以,要知道从小模型做到 20B,和从大模型蒸馏到 20B 的概念绝对不一样;
  2. OpenAI 在多个场合多次表示他们坚信 scale law 依然成立,我不认为这是烟雾弹,并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用;
  3. gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望,大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限,是否会出现小于某个量级后,基础能力明显下降的情况。

再过几天 OpenAI 就要办开发者大会了,希望能有更多信息,据外媒说 OpenAI 最近丢了不少商业客户,甚至和微软也貌合神离的,OpenAI 说要降低费用,让开发者能有更多机会,感觉他们还会憋点大招出来。

张俊林

不负责任猜测一波:GPT 4是去年8月做好的,ChatGPT估计是OpenAI应对Anthropic 要推出的Claude专门做的,那时候GPT 4应该价值观还没对齐,OpenAI不太敢放出来,所以临时做了ChatGPT来抢先发优势。OpenAI在2020年推出Scaling law的文章,Deepmind在2022年推出的改进版本chinchilla law。OpenAI做大模型肯定会遵循科学做法的,不会拍脑袋,那么就有两种可能:

可能性一:OpenAI已经看到Chinchilla的论文,模型是按照龙猫法则做的,我们假设ChatGPT的训练数据量不低于2.4T token数量(为啥这样后面分析),那么按照龙猫法则倒推,一般训练数据量除以20就应该是最优参数量。于是我们可以推出:这种情况ChatGPT模型的大小约在120B左右。

可能性二:OpenAI在做ChatGPT的时候还没看到Chinchilla的论文,于是仍然按照OpenAI自己推导的Scaling law来设计训练数据量和模型大小,推算起来训练数据量除以12.5左右对应模型最优参数,他们自己的Scaling law更倾向把模型推大。假设训练数据量是2.4T左右,那么这种情况ChatGPT的模型大小应该在190到200B左右。

大概率第一个版本ChatGPT推出的时候在200B左右,所以刚出来的时候大家还是觉得速度慢,价格也高。3月份OpenAI做过一次大升级,价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的,目前的结论是大模型量化压缩到4到6bit模型效果是能保持住不怎么下降的。所以很可能OpenAI这次升级从自己的Scaling law升级到了Chinchilla的Scaling law,这样模型大小就压缩了120B左右,接近一半,在加上比如4bit量化,模型大小应该在30B左右,这样速度应该可以提升8倍左右,模型规模再加上其它技术优化是有可能把价格打到十分之一的。后续在6月份和8月份各自又价格下调了25%,最终把模型压缩到20B左右。

这里解释下为何ChatGPT 的训练数据量不太可能比2.4T低,这个2.4T是LLaMA第一版的训练数据量。目前研究结论是当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral 7B效果炸裂,归根结底是训练数据量达到了8个T,所以导致基础模型效果特别强。以ChatGPT的效果来说,它使用的数据量不太可能低于2.4T。

当然,还有另外一种可能,就是ChatGPT在后期优化(比如第一次大升级或者后续的升级中,开始版本不太可能走的这条路)的时候也不管scaling law了,走的是类似mistral的路线,就是模型大小固定在20B,疯狂增加训练数据,如果又构造出合适的instruct数据,效果也可能有保障。

不论怎么讲,对于6B到13B左右比较适合应用落地的模型,强烈呼吁中文开源模型模仿mistral,固定住一个最适合使用的模型大小,然后疯狂增加训练数据,再加上好的instruct策略,是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说,7B-13B左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力,把训练数据往上再努力怼一怼。

刘聪NLP

省流版:

  1. 国内外大模型差距比预估的要大;
  2. 做大模型落地的企业信心应该更足;
  3. 国内后面可能大多数企业都做20B左右的模型;
  4. LLMer,在效果不好的时候,少了一个借口。

秦风

深有同感,最近两周受邀深度体验了百度的文心一言,说实话,那是什么呆逼玩意啊。。。

唉,真是一言难尽。

赶英超美任重道远啊。

国内一些大厂,想抄就花点功夫好好抄,别搞个皮毛丢人现眼。

文心一言抄chatGPT就跟百度搜索抄谷歌搜索一样,真本事没抄到。。。



备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了惊了!某院医生用ChatGPT4个月写了16篇论文!成功发表5篇!(附ChatGPT干货教程)跑步看世界-威尔明顿首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPTto distinguish the quality of science from the quality of Englis国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70BChatGPT让ChatGPT吐槽宕机;OpenAI对竞争对手Anthropic的合并要约被拒丨AIGC日报OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报俄罗斯科技巨头Yandex创建大模型YandexGPT,声称性能优于ChatGPTMeta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%SambaNova的新芯片可运行比OpenAI的ChatGPT高级版大两倍以上的模型参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架万万没想到,ChatGPT参数只有200亿?正视AI技术发展利弊,高校招生部如何看待文书中使用ChatGPT清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单工信部发《人形机器人创新发展指导意见》;微软撤回ChatGPT参数200亿论文;GPT-4图灵测试成功率41%丨AIGC大事日报ChatGPT之父被开除,加入微软!ChatGPT员工要集体辞职?最大心率GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报惊呆!某院医生4个月用ChatGPT写了16篇论文,发表5篇!(附ChatGPT干货)拜登政府发布AI行政命令;国内超一半大模型公司跑在阿里云上;ChatGPT被曝参数规模为200亿丨AIGC大事日报这轮蓝月:经久高悬的风花雪月文末送书 | 4个维度讲透ChatGPT技术原理,揭开ChatGPT神秘技术黑盒!开源大模型FLM-101B:训练成本最低的超100B参数大模型微软论文一张截图,曝出GPT-3.5仅有200亿参数?AI圈巨震,网友大呼太离谱!ChatGPT 成功诊断 4 岁男孩怪病,击败 17 位医生,这意味着什么?【赠送GPT账号】如何使用ChatGPT完成科研、程序开发、论文写作等,看看这篇!历经3年、17位医生都没有确诊的病例,靠ChatGPT找到正确的诊断。找ChatGPT看病到底是否靠谱?20B跨级挑战70B性能!国产开源大模型打造大模型新标杆内心的风暴英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报Meta被曝明年发布「开源版GPT-4级」全新大模型!参数量比Llama 2大数倍,可免费商用chatGPT 太好用了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。