Redian新闻
>
LLMs的魔法能力来自哪里

LLMs的魔法能力来自哪里

科技

生成式人工智能及其流行的Transformer模型如今无处不在,新模型每小时都在发布(参见人工智能的通货膨胀)。在这个迅速发展的人工智能领域,这些模型可能带来的价值似乎是无穷的。像chatGPT这样的大型语言模型(LLM)已经成为每个工程师资源堆中的一部分,作家们使用它们来支持他们的文章,设计师们利用它们创造初步视觉效果或从计算机视觉模型的结果中寻找灵感。

如果不是魔法,那是什么真正驱动这些令人印象深刻的Transformer模型的呢?

然而,尽管成就巨大且实用性强,生成性人工智能增强了生产力,但重要的是要记住,现代机器学习模型(如大型语言模型或视觉Transformer)根本没有进行任何魔法般的操作(这与机器学习或一般统计模型从未具有魔法性质的事实相似)。即使模型的卓越能力可能被视为类似魔法,一些领域专家甚至谈论模型的“幻觉”,但每个模型的基础仍然只是数学和统计概率(有时复杂,但仍然是数学)。这引出了一个根本性的问题:如果不是魔法,那么究竟是什么真正驱动了这些令人印象深刻的Transformer模型?

所有模型的基础是数据

在任何模型(统计或机器学习)中,对后期模型性能影响最大的是训练数据。如果你没有大量高质量的数据来反映你希望模型学习的关系,就没有东西可以训练,结果模型的表现会很差(著名的GIGO原则:垃圾进垃圾出)。数据建模的这一基本原则多年来一直没有改变。在每一个革命性的新型Transformer模型背后,首先就是一件事:数据。正是这些数据的数量、质量和上下文将驱动模型后续的性能。最近的研究(见下文)支持这一点,展示了最新的生成性AI模型在提供的上下文是训练分布的一部分时泛化得很好,但对于分布外的学习表现不佳。

在分布内学习与分布外学习

请记住,模型不过是一个巨大的网络、树状结构或关系图。机器学习模型基本上学习的是如何将给定输入转换为期望输出(见图1)。

图 1

上图是一个超简单神经网络的示意图,基于天气和其他上下文预测人流量。左侧是训练期间的输入(特征),而右侧是输出(目标)。中间可以有几个转换(层),它们学习复杂的输入输出关系。

当模型被训练(或者换句话说:当这些关系被更新时),输入的上下文和输出的信息量将决定模型擅长什么。就像人类擅长用母语回答问题一样,机器学习模型擅长回应它们见过很多次的输入数据。这被称为分布内学习。如果在训练期间,模型被提供了大量丰富的上下文,它可以依赖后来获得的这些知识,结果预测表现出准确的性能。

分布外学习则描述了一个模型需要基于它之前未见过的情境进行预测的情况。你可以想象一个从未学过挪威语的人突然回答用挪威语提出的问题。请查看图2以获取分布内和分布外学习的概览。

图 2

上图展示了分布内(左)与分布外(右)学习。左侧的模型对于未包含在原始训练数据中的新情境(在这个例子中是“政治”)表现不佳,而右侧的模型对于未见过的情境表现良好。机器学习模型通常属于左侧类别,并且在分布外学习中表现不佳。

现代大型语言模型(LLMs)和其他机器学习模型之所以表现出色,是因为原始训练数据中包含了大量的体量和上下文信息。由于这些模型进行了广泛的预训练,能够处理的问题范围非常广,属于分布内学习的问题非常多。这使得模型能够回答各种问题,对用户来说可能看起来像是魔法或者具有人类水平的智能,但实际并非如此。同样,模型给出错误或意外的答案也不是真正的幻觉,它基本上突显了原始训练数据中的上下文缺口,因此导致了分布外学习。总的来说,机器学习模型在分布外学习能力上非常有限,需要对基础模型进行大量的训练。

语言模型中预训练的力量

在谷歌DeepMind成员最近的一篇论文中,作者们加强了这样一个论点,即现代大型语言模型(LLMs)的上下文学习性能主要源自它们的预训练分布。这篇名为《Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models》的论文由Steve Yadlowsky、Lyric Doshi和Nilesh Tripuraneni(2023年)共同撰写,专注于探讨现代Transformer模型是如何获得它们令人印象深刻的上下文学习能力的(即它们对任何提示给它们的上下文都能给出答案的能力)。

论文:https://arxiv.org/abs/2311.00871

这些发现非常有洞察力。当Transformer模型在涵盖广泛上下文的数据上进行预训练时,它们在学习属于预训练上下文范围内的新任务时表现出令人印象深刻的性能。这种能力接近最优,展现了在训练分布内令人印象深刻的泛化和适应能力。然而,当这些模型遇到预训练领域之外的上下文时,性能受限且会发生失败。这表明了泛化能力降低和对分布外上下文的明显限制。

视觉Transformer:一个关于规模的案例研究

在另一项研究中(同样由谷歌DeepMind在2023年进行),题为“ConvNets Match Vision Transformers at Scale”,作者 Samuel L. Smith, Andrew Brock, Leonard Berrada, and Soham De挑战了一个在计算机视觉领域广泛存在的观点,即在大规模数据处理上,现代的视觉Transformer模型会胜过传统模型,如卷积神经网络(CNNs)。该研究对CNNs和视觉Transformer进行了相同计算预算下的训练,并比较了它们的性能。

论文:https://arxiv.org/abs/2310.16764

结果表明,在预训练中使用的计算预算与后续性能之间存在一个比例定律。在对ImageNet进行微调后,预训练的CNN在相当的预算下达到了与视觉Transformer相匹配的性能。

总结

这两项研究共同展示了现代Transformer模型令人印象深刻的性能。首先,性能的提升不仅仅是由模型架构驱动的,更多是由预训练的数量所驱动。其次,当预训练的上下文覆盖范围广泛时,得到的模型也将展现出广泛的上下文学习能力。

这些研究强调了一个关键原则:训练数据的数量、质量和上下文是任何基础机器学习模型最重要的部分。如果不了解预训练涵盖的上下文,就很难预先确定模型在哪些领域表现良好。基准测试可以帮助指出潜在的上下文限制。这些测试并不展示模型总体上的表现如何,它们主要展示了哪些上下文已经成为模型训练分布的一部分。

总之,在人工智能时代,随着开发机器学习模型的数据科学家和工程师数量的增加,通过广泛的上下文进行预训练不仅仅是过程的一部分;在很多方面,这已经是你所需要的全部。

原文:https://towardsdatascience.com/pre-training-context-is-all-you-need-f457ffa8a358

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023 LLM技术报告—— LLM的工具和平台《2023沃尔沃汽车·胡润校友会榜》| 揭秘成功企业家来自哪些最具财富创造力大学?EMNLP2023 | LLMs也许不擅长少样本信息提取,但可以为候选答案重新排序!让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent对话财通资管宫志芳:固收多策略基金的阿尔法来自哪里?写在跨年之前:聊聊LLM Agents的现状,问题与未来龙,你到底来自哪里?探寻西西里与马耳他的历史脚印(9)如何更好的使用 LLMs:Self-RAG“电子脊髓”要来啦,新疗法能让帕金森患者重获运动能力改变考试结果的魔法——试卷分析国家的安全挑战来自哪里?社会保持张力会导致结构性漏洞吗?不亦乐乎​你来自哪里?引人深思的种族主义对话L2级的LLMs→L3级的Copilot→L4级的Agents→L5级的EmbodiedAI台湾李宏毅:如何让LLMs更好评估文本质量?提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果陈丹琦新作:一个LLM的评估基准LLMBar今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!探寻西西里与马耳他的历史脚印(10)如何使用LLMs:Chain of Verification (CoVe)243枚剑桥大学录取!看看今年幸运儿来自哪些高中残雪:墙内开花,墙外香的文学巨匠Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!无奈的年龄段一餐一饭中藏着食物的魔法,让孩子收获生存技能和美好“食”光一次次灌醉小鼠后,他们找到了千杯不醉的魔法|科学60秒200刀Samsung C24FG70FQE 24" Full HD 1ms 144Hz Curved Quantum Dot 用魔法打败魔法,南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人法国初创公司SilMach的基于MEMS的技术或可彻底改变制表业【美食】三文鱼还要涨价!我们在法国吃的三文鱼都来自哪?港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐0.2美元微调就能让ChatGPT彻底破防!普林斯顿、斯坦福发布LLM风险预警:普通用户微调也影响LLM安全性
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。