Redian新闻
>
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」

参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」

公众号新闻



  新智元报道  

编辑:Cris
【新智元导读】谷歌的这项研究,很可能是我们迈向AGI的一大步。

由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。

当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。

如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。

解码器提示的 DALL-E

神奇的「突现」能力


自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游NLP任务的性能和样本效率。

在许多情况下,我们可以通过推断较小模型的性能趋势预测大型语言模型的性能。例如,规模对语言模型困惑的影响已被验证跨越超过七个数量级。

然而,某些其他任务的性能却并没有以可预测的方式提高。

例如,GPT-3的论文表明,语言模型执行多位数加法的能力对于从100M到13B参数的模型具有平坦的缩放曲线,近似随机,但会在一个节点造成性能的飞升。

鉴于语言模型在NLP研究中的应用越来越多,因此更好地理解这些可能意外出现的能力非常重要。

在近期发表在机器学习研究(TMLR)上的论文「大型语言模型的突现能力」中,研究人员展示了数十个扩展语言模型所产生的「突现」能力的例子。

这种「突现」能力的存在提出了一个问题,即额外的缩放是否能进一步扩大语言模型的能力范围。

某些提示和微调方法只会在更大的模型中产生改进

「突现」提示任务


首先,我们讨论在提示任务中可能出现的「突现」能力。

在此类任务中,预先训练的语言模型会被提示执行下一个单词预测的任务,并通过完成响应来执行任务。

如果没有任何进一步的微调,语言模型通常可以执行训练期间没有看到的任务。

当任务在特定规模阈值下不可预测地从随机性能飙升至高于随机性能时,我们将其称为「突现」任务。

下面我们展示了三个具有「突现」表现的提示任务示例:多步算术、参加大学水平的考试和识别单词的预期含义。

在每种情况下,语言模型的表现都很差,对模型大小的依赖性很小,直到达到某个阈值——它们的性能骤升。

对于足够规模的模型,这些任务的性能只会变得非随机——例如,算术和多任务NLU任务的训练每秒浮点运算次数(FLOP)超过10的22次方,上下文任务中单词的训练FLOP超过10的24次方。

「突现」提示策略


第二类「突现」能力包括增强语言模型能力的提示策略。

提示策略是用于提示的广泛范式,可应用于一系列不同的任务。当它们对小型模型失败并且只能由足够大的模型使用时,它们被认为是可「突现」的。

思维链提示是「突现」提示策略的一个典型示例,提示模型在给出最终答案之前生成一系列中间步骤。

思维链提示使语言模型能够执行需要复杂推理的任务,例如多步数学单词问题。

值得一提的是,模型无需经过明确培训即可获得思维链推理的能力,下图则显示了一个思维链提示的示例。

思维链提示的实证结果如下所示。

对于较小的模型,应用思维链提示并不会优于标准提示,例如当应用于GSM8K时,这是一个具有挑战性的数学文字问题基准。

然而对于大型模型,思维链提示在GSM8K上达到了57%的解决率,在我们的测试中性能显著提升。

研究「突现」能力的意义


那么研究「突现」能力,又究竟有什么意义呢?

识别大型语言模型中的「突现」能力,是理解此类现象及其对未来模型能力的潜在影响的第一步。

例如,由于「突现」小样本提示能力和策略没有在预训练中明确编码,研究人员可能不知道当前语言模型的小样本提示能力的全部范围。

此外,进一步扩展是否会潜在地赋予更大的模型「突现」能力,这个问题同样十分重要。
  • 为什么会出现「突现」能力?

  • 当某些能力出现时,语言模型的新现实世界应用会被解锁吗?

  • 由于计算资源昂贵,能否在不增加扩展性的情况下通过其他方法解锁突现」能力(例如更好的模型架构或训练技术)?

研究人员表示,这些问题尚且不得而知。

不过随着NLP领域的不断发展,分析和理解语言模型的行为,包括由缩放产生的「突现」能力,是十分重要的。

参考资料:

https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html

https://the-decoder.com/google-explores-emergent-abilities-in-large-ai-models/

https://the-decoder.com/deeper-insights-for-ai-language-models-chain-of-thought-prompting-as-a-key-factor/



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
元语AI(ChatYuan): ChatGPT中文版尝试?功能型对话大语言模型.beta版恐怖片的7个吓人秘技,学会了你就是今晚最可怕的鬼复旦邱锡鹏:语言模型即服务,走向大模型的未来“中日友好医院”要改名了-----怎么改好呢?Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍谷歌、OpenAI学者谈AI:语言模型正在努力「攻克」数学3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!麻州女神秘失踪 魔鬼老公开心被抓!谷歌搜索记录让人毛骨悚然...NeurlPS 2022 | 全新大模型参数高效微调方法:仅需训练0.3M的参数你需要知道的,成为心理咨询师的「必备技能」和「避坑指南」| 直播预告Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3我喜欢看的几个视频主微信版大语言模型来了:跨时空对话李白、教你高情商说话,API在线试玩全都有100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!Python 3.11 终于发布了,性能大提升!不可错过!普林斯顿陈丹琦最新《大语言模型理解》2022课程!全面讲述BERT、GPT、T5等大模型,附SlidesICML 2023禁止使用大型语言模型写论文!LeCun转发:中小型模型可以用吗?NeurlPS 2022 | 全新大模型参数高效微调方法SSF:仅需训练0.3M的参数,效果卓越谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍告别文化走廊颠覆三观!谷歌最新研究:用性能差的模型计算「相似度」反而更准?元宇宙更近一步!英伟达重磅更新Omniverse Enterprise,性能、体验跨代提升 | CES 2023被遗忘的天才— 他走时还不满45岁对预训练语言模型中跨语言迁移影响因素的分析微信推出自研NLP大规模语言模型WeLM:零/少样本即可完成多种NLP任务,匹敌大其25倍的模型ICML征稿禁止使用大型语言模型,LeCun转发:中小型模型可以用吗?【健康】世卫示警全球1/4人会有耳病!1招护耳秘技保听力专访深研生物:CGT,如何平衡质量提升与成本下降的矛盾?算力就这么点,如何提升语言模型性能?谷歌想了个新点子MIT造出薄如纸的太阳能电池板,单位重量发电量提升17倍通向 AGI 之路:大型语言模型(LLM)技术精要i-Weekends | 周末闲聊好对象:那些不可错过的大语言模型系统超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言几个抗通胀的家常美味(图)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。