Redian新闻
>
ChatGPT参数规模被扒:只有7B

ChatGPT参数规模被扒:只有7B

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 量子位
作者 | 梦晨

ChatGPT惨遭攻击,参数规模终于被扒出来了——

很可能只有7B(70亿)。

消息来自南加州大学最新研究,他们使用一种攻击方法,花费不到1000美元就把最新版gpt-3.5-turbo模型的机密给挖了出来。

果然,OpenAI不Open,自有别人帮他们Open。

具体来说,南加大团队三位作者破解出了未公布的gpt-3.5-turbo嵌入向量维度(embedding size)为4096或4608。

而几乎所有已知的开源大模型如Llama和Mistral,嵌入向量维度4096的时候都是约7B参数规模。

其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。

因此南加大团队指出,可以推测gpt-3.5-turbo的参数规模也在7B左右,除非是MoE架构可能不同。

数月前,曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B,在后续论文版本中又删除了这一信息。

当时引起了一阵轩然大波,业界很多人分析并非不可能,先训练一个真正的千亿参数大模型,再通过种种手段压缩、蒸馏出小模型,并保留大模型的能力。

而现在的7B,不知道是从一开始20B的消息就不准确,还是后来又再次压缩了。

但无论是哪一种,都证明OpenAI有很恐怖的模型优化能力。

撬开ChatGPT的保护壳

那么,南加大团队是怎么扒出ChatGPT未公开配置的呢?

还要说到现代语言模型中普遍存在的“Softmax瓶颈”。

当Transformer网络处理完输入,会得到一个低维的特征向量,也就是Embedding。这个特征向量再经过Softmax变换,就得到了最后的概率分布输出。

问题就出在Softmax这里,因为矩阵的秩受限于特征向量的维度,所以大模型的输出空间事实上被限制在了一个低维的线性子空间里。

这就像是无论你的衣柜里有多少件衣服,最后能穿出去的搭配,其实是有限的。这个”衣柜”的大小,就取决于你的“特征向量维度”有多大。

南加大团队抓住了这一点,他们发现,只要从API调用中获取到足够多的输出样本,就足以拼凑出这个大模型的特征向量维度。

有了这个特征向量维度,可以进一步推断大模型的参数规模、还原出完整的概率输出,在API悄悄更新时也能发现变化,甚至根据单个输出判断来自哪个大模型。

更狠的是,推测特征向量维度并不需要太多的样本。

以OpenAI的gpt-3.5-turbo为例,采集到4000多个样本就绰绰有余了,花费还不到1000美元。

在论文的最后,团队还探讨了目前的几个应对这种攻击的方法,认为这些方法要么消除了大模型的实用性,要么实施起来成本高昂。

不过他们倒也不认为这种攻击不能有效防护是个坏事,

一方面无法用此方法完整窃取模型参数,破坏性有限。

另一方面允许大模型API用户自己检测模型何时发生变更,有助于大模型供应商和客户之间建立信任,并促使大模型公司提供更高的透明度。

这是一个feature,不是一个bug。

论文:

https://arxiv.org/abs/2403.09539

参考链接:

https://x.com/TheXeophon/status/1768659520627097648


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
未央播报 | 中国10亿参数规模以上大模型数量已超100个 Swift将推出央行数字货币互联平台ChatGPT 大更新曝光!免费用户自动升级 GPT-4 ,还能创建 GPTsHow I procrastinate清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航美国知名女模被房东赶走沦为游民!为防性侵曾1整年没洗澡,近况曝光(图)号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3跌惨了!CAIE官宣秋季成绩报告!A*率超10%的只有7个科目!马伯庸新书,美食X权谋X悬疑,[hào]吃有多了不起?ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义AI早知道|360智脑7B大模型开源;ChatGPT 的全球增长率逐渐下降鸿发超市「2000 万美元」买下82街前Walmart超市!开设第4家Hông Phát分店!不要热情过度!黎锦杨家真的来了湖南人GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源天工3.0正式开放!4000亿参数MoE开源,开启音乐生成ChatGPT时刻吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果ChatGPT有记忆了!OpenAI官宣记忆功能开启测试,奥特曼称GPT-5更智能7B开源数学模型干翻千亿GPT-4,中国团队出品ChatGPT惊艳更新!一个@让三百万GPTs为你打工苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报历代文人眼中最佳七律之我见参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?Meta无限长文本大模型来了:参数仅7B,已开源AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3电影《第二十条》爆火,事件原型被扒:“可怜之人必有可恨之处”,是世上最大的谬误ChatGPT实体化了!手机变身ChatGPT实体机器人,只需一个配件,能说话还会做梦,真的牛!微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小冰 花 作者 冰花 英译 柳湄国内AI绘画哪家强?十大免费工具横评,BAT参战,但不是最强今天起,这个重磅功能向 ChatGPT Plus 用户全面开放!GPT-4.5 疑似泄露, Altman 在线「吃瓜」ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿红豆酥神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。