Redian新闻
>
清华、智谱AI团队:Loss才是涌现的关键,而非模型参数

清华、智谱AI团队:Loss才是涌现的关键,而非模型参数

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | GLM大模型




大语言模型中的涌现能力(Emergent Ability)研究指出,伴随着模型参数的增大会出现能力涌现。但过去的观察却发现:1)小模型也可以在涌现出的能力上有较高的表现;2)用于衡量这些能力的指标存在非连续性。


为了更深刻地理解这个问题,我们训练了30多个不同模型参数和数据规模的语言模型,并评估了他们在 12 个英文和中文数据集上的表现。我们观察到,涌现现象与 pre-training loss 有比较密切的关系。


基于这些观察,我们认为应当从 Pre-training Loss 的角度重新定义“涌现能力”:只有当 Pre-training Loss 低于某个阈值时,模型才具有该能力。


论文链接:https://arxiv.org/abs/2403.15796

01
数据集


我们研究了语言模型在12个下游任务上的表现与Pre-training Loss之间的关系。实验中评估的英文和中文数据集见下表。


02
Pre-training Loss vs 性能


在第一个实验中,我们训练了三个参数为1.5B、6B和32B的模型。



我们评估了训练过程中 checkpoint 在12个下游任务上的性能表现,如下图所示:


图:1.5B、6B和32B模型的性能与损失曲线。每个数据点代表三个模型之一的中间 checkpoint 的损失(x轴)和性能(y轴)。我们用黑色虚线标记随机猜测的结果。


  • 通常情况下,随着训练损失的降低,任务性能会提高,这与模型大小无关。在MMLU、C-Eval、GSM8K和GSM8K-Chinese上,三种大小的模型在预训练损失降至约2.2之前都表现为随机水平,之后随着损失的减小,性能逐渐提高。

  • 不同模型大小的 performance-vs-loss  数据点落在同一条趋势曲线上。也就是说,忽略颜色差异(模型大小),不同模型的数据点是无法区分的。例如,当训练损失降至大约2.00时,TriviaQA上的绿色和橙色点是无法区分的。这表明,模型在下游任务上的性能在很大程度上与预训练损失相关,而与模型大小无关。

  • 我们发现不管是在中文,还是英文任务中,overall training loss 都是一个较好的指标。这说明,在多语言预训练中,英文和中文 tokens 的学习动态可能非常相似。

03
Tokens vs 性能


为了探究训练 tokens 量与模型性能之间的关系,我们用不同的tokens 量分别训练了 28 个相对较小的模型。



我们观察到的结果如下图所示:



  • 与上一个实验观察到的结果相似,不同模型大小和训练 tokens 的数据点在很大程度上落在同一条趋势曲线上。换句话说,无论 tokens 数量和模型大小如何,具有相同 pre-training loss 的模型在 12 个下游任务上表现出相同的性能。

  • MMLU、C-Eval、GSM8K和GSM8K-Chinese 上的性能曲线并没有显示出上升趋势,这意味着这些模型在这四个任务上的性能接近随机。


为了验证我们的观察结果的普遍性,我们也对 LLAMA 系列模型做了分析,观察到基本一致的现象。

04
涌现 vs 连续性指标


一种解释认为,涌现能力是由于研究者选择的非线性或不连续指标而产生的。


为此,我们针对MMLU 和 C-Eval 两个评测,选用三种不同的指标做实验,分别为 Accuracy、CorrectChoiceProb、BrierScore。其中:


  • Accuracy 是原始的指标,为非连续的指标;

  • CorrectChoiceProb 为预测正确答案的概率,是连续性的指标;

  • BrierScore 是《Are Emergent Abilities of Large Language Models a Mirage?》中使用的连续性指标,是一个根据正确答案和非正确答案概率计算出来的量。


实验结果如下图所示:



可以看到,不管是非连续指标,还是连续指标,当 pre-training loss 达到某个转折点时,语言模型的涌现能力就会出现。连续指标无法消除观察到的转折点。

05
不足


尽管我们做了以上研究,但仍存在不足。


首先,我们没有考虑不同的模型架构和训练算法。虽然我们验证在我们的模型和LLAMA 系列模型上成立,但我们不能保证在其他架构模型中依然有效。


其次以pre-training loss的视角研究涌现能力的缺点是,pre-training loss受到分词器和预训练语料库分布的影响。在不同语料库上训练的语言模型的pre-training loss值并不直接可比。一个可能的解决方案是在一个公共验证集上评估不同的语言模型,使用归一化的困惑度来考虑不同的词汇量。


另外,本文并不是在推动训练超出当前已有的参数规模和数据大小的模型。我们不能保证在更大规模的模型上会有新的转折点。此外,预训练也不是提高涌现能力的唯一途径。例如,指令微调也可以提高语言模型在未见任务上的零样本性能。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDC五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报优秀CEO成功的关键,在于这四种品质吴恩达:多智能体协作是新关键,软件开发等任务将更高效苹果将在WWDC公布AI战略;曝智谱AI参投清华系AI创企;百度升级7款大模型应用丨AIGC大事日报顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了谷歌、阿里、字节、科大讯飞、月之暗面、智谱等大模型落地实践案例集结完毕|AICon 北京 2024 议程上线美股Q1财报季:未来展望是关键,没有好消息就是坏消息告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业美图吴欣鸿:国产Sora竞争关键,在创意、工作流和垂直场景 | 中国AIGC产业峰会2月居民信贷再陷疲弱,房子仍是关键,消费贷也有新变化Hugo Boss高管谈调低增长预期:我们不愿做出我们无法兑现的承诺!让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述基于“期望值”的投资是过程,而非仅仅结果kiss是亲,ass是屁股,但kiss her ass可不是“亲她屁股”!每日原则:忠于共同的使命,而非对此三心二意之人外甥考了这个证AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿爆赚11亿,BOSS用不起BOSS直聘?父亲与京华火腿最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!《疏影横斜水清浅》HCSSA|哈佛学联百家谈|江忞懿 - Igniting Purpose, Passion & Profession爱Beats才会赢!假日限定 Beats Battle 线下比赛 @All Club叶檀回归社会;电车的阵痛;结婚要趁早,年龄越大越清醒越难结婚哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型特朗普发生反转:乌克兰生死对美国非常关键,欧洲快增加援助投入业绩突破的瓶颈首先在经营结构,而非管理2024神奇魔幻哥伦比亚(一)波哥大:盐矿大教堂巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024[日签] ​​​世人缺乏的是毅力,而非气力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。