Redian新闻
>
今日最佳NLP论文推荐:颠覆性Prompt-tuning新法

今日最佳NLP论文推荐:颠覆性Prompt-tuning新法

科技
夕小瑶科技说 原创
作者 | 赛博马良

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。

传送门:

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

引言:探索语言模型中的概念挖掘与级联校准

在自然语言处理领域,语言模型的有效性往往取决于其对概念的理解和利用能力。概念挖掘与级联校准是两种关键技术,它们能够增强模型对文本分类任务的处理能力。概念挖掘指的是从文本中提取与特定类别相关的概念,而级联校准则是在此基础上进一步优化这些概念与类别之间的映射关系。通过这两个步骤,我们可以构建出更加精准和高效的语言模型,以应对各种复杂的文本分类挑战。

在实际应用中,例如对于一句话“Apple is a giant electronic company.”,我们需要将其分类到“BUSINESS”类别。这就需要模型能够识别出“company”这一概念,并将其与“BUSINESS”类别联系起来。通过概念挖掘,我们可以从大量文本中提取出与“BUSINESS”相关的概念;而级联校准则帮助我们确定哪些概念是对分类任务最有帮助的,从而提升分类的准确性。

本文将深入探讨这两种技术的具体应用方法,以及它们如何共同作用于语言模型,提升模型的性能。

论文基本信息

标题:

A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer

作者:

Yong Ma, Senlin Luo, Yu-Ming Shang, Zhengjun Li, Yong Liu

机构:

Beijing Institute of Technology,Beijing University of Posts and Telecommunications, QAX Security Center,

论文解读链接:

https://www.saibomaliang.com/generate?session_id=a6ad3c3f-a814-4357-b76b-f97816a69a65

方法概述

ISCV方法的核心思想是通过结合概念查询和级联校准过程,将预训练语言模型(PLM)与特定场景下的概念相结合,以改进文本分类任务的效果。该方法主要分为两个步骤:概念查询过程和级联校准过程。

1. 概念查询过程

在概念查询过程中,首先随机选择一组特定任务数据集的训练实例作为支持集Tn。然后,从Tn中提取出的所有命名实体构成一个命名实体集Ns,作为概念查询的查询键。接下来,基于命名实体集Ns从外部概念库中获取相关概念作为标签词候选集Cv。这个过程可以分为三个步骤:

  1. 从候选集Ns中过滤掉不相关的命名实体,得到一个新的集合Ns'。
  2. 选择与查询键相关度较高的概念。
  3. 通过在支持集Tv上对Cv中的每个概念进行评分,选择前j个概念作为候选概念集Cv'。

2. 级联校准过程

在级联校准过程中,将带有标签信息的另一组样本集Tv输入到锚点创建步骤中,以获得特定任务的标准化指数锚点。同时,使用支持集Tv将其分为正样本集Ty和负样本集Ty'。对于特定类别y,计算每个概念作为类别y的合格标签词的得分。最后,基于支持集Tv和类别标签,使用公式12选择前l个概念作为类别的标签词集。对于k个类别的数据集,我们最终获得了k*l个概念的verbalizer。

任务定义

文本分类任务可以通过将输入文本转化为完形填空任务来实现。具体来说,假设M是一个预训练的语言模型,x = {w0, w1, ..., wn}是要分类的输入文本片段,y ∈ Y是类别标签,Y = {y0, y1, ..., yk}。输入文本x被包装成一个提示模板,其中xp被称为提示或上下文样本,输入模型M。然后,模型M给出词汇表中每个单词v填入"[MASK]"位置的概率。为了将标签词的概率映射到标签的概率,我们定义了一个verbalizer作为从词汇表中的几个单词到标签空间Y的映射,即f : V → Y。类别y的标签词集合表示为Vy = (v1, v2, ..., vn),其中g是一个函数,用于将Vy中标签词的概率转换为标签y的概率。如果P(y ∈ Y|xp)大于设定的阈值,则将标签y分配给输入文本x。

构建Verbalizer:详细解释概念挖掘和Verbalizer构建的过程

概念挖掘

概念挖掘是构建Verbalizer的第一步,它涉及到从特定数据集中随机选择一组训练实例作为支持集Tn。这个集合的大小n并不固定,而是取决于不同数据集的主题或情感极性分布。从Tn中提取出的所有命名实体构成了一个命名实体集Ns,用作概念查询的关键词。

接下来,概念查询过程从外部概念库中获取与命名实体集Ns相关的概念,形成候选的标签词集合Cv。这个过程可以分为三个步骤:首先,从候选集Ns中过滤掉不属于选定的十二种类型的命名实体,得到一个新的集合Ns'。然后,基于每个查询关键词,从概念库中检索相关概念。最后,通过选择与提示模板相关性最高的前50个概念,来优化候选集Cv。

Verbalizer构建

在Verbalizer构建过程中,首先需要确定支持集Tv的大小,这是一个超参数,表示Tv中样本的数量。然后,将Tv中带有标签y的样本标记为正样本,存储在集合Ty中;其他标签的样本作为负样本,包含在集合Ty'中。在计算特定概念作为类别y的合格标签词之前,需要计算属于该概念的每个词项的得分。

通过在候选集Cv'的每个概念上应用方程12,并基于支持集Tv和类别标签,选择前l个概念作为标签词集。对于k个类别的数据集,对于每个提示模板p,最终获得一个包含k*l个概念的Verbalizer。

实验结果:主要实验结果的展示和分析

主要实验结果

实验结果显示了不同数据集在不同设置下的性能表现。例如,在某个数据集上,使用ISCV方法可以获得75.1±6.2 (79.0)的结果,而在另一个数据集上,结果可以达到92.7±1.6 (94.5)。这些结果表明,ISCV方法在不同数据集上的性能具有一定的波动性,但在某些情况下可以达到非常高的准确率。

模板稳定性分析

模板稳定性分析关注的是不同模板在实验中的表现是否稳定。实验结果表明,不同的数据集可能需要不同大小的支持集Tv来覆盖标签词空间。例如,某些数据集可能需要1000个支持样本来获得令人满意的结果,而DBPedia和Yahoo数据集则需要不同数量的样本来达到最佳结果。这表明了模板稳定性与支持集大小之间存在正相关关系。

参数敏感性分析

参数敏感性分析专注于两个关键的超参数:支持集Tv的大小和每个类别的标签词数量。实验结果表明,支持集Tv的大小对标签词空间的覆盖有显著影响。不同的数据集需要不同的支持集大小以获得最佳性能,这表明在调整这些超参数时需要考虑数据集的特性。

少样本学习:探讨ISCV在少样本学习中的表现

在少样本学习领域,ISCV(Incorporating Scenario-specific Concepts into a Verbalizer)方法展现出了显著的性能。少样本学习是一种机器学习范式,旨在使模型能够从有限的数据样本中学习并做出准确的预测。这在实际应用中尤为重要,因为在许多情况下,获取大量标注数据既昂贵又耗时。

1. 实验结果

在实验中,ISCV在不同的数据集上进行了测试,以评估其在少样本学习环境下的表现。例如,在DBPedia数据集上,ISCV的表现随着样本数量的增加而提高,从83.7±3.5(84.6)的准确率提升至88.4±0.6(89.3)。这表明ISCV能够有效地利用少量的样本来提高模型的分类性能。

2. 参数敏感性

ISCV的性能受到支持集大小(即样本数量)的显著影响。研究表明,不同的数据集可能需要不同数量的样本来实现最佳结果。例如,有些数据集可能只需要1000个支持样本就能取得令人满意的结果,而其他数据集则可能需要更多的样本。这种参数敏感性的认识有助于在实际应用中为特定任务选择合适的样本大小,以优化模型的性能。

构建的Verbalizer分析:对构建的Verbalizer进行详细分析

Verbalizer是一种将标签词映射到类别标签的模块,它在使用预训练语言模型进行分类任务时起着至关重要的作用。在ISCV方法中,Verbalizer的构建是一个关键步骤,涉及到从支持集中提取概念并将其用作标签词候选集。

1. 概念挖掘

在Verbalizer的构建过程中,首先通过随机选择特定数据集的一组训练实例作为支持集Tn,然后从中提取命名实体作为概念查询的关键词。这些命名实体被用来从外部概念库中获取相关概念,形成标签词候选集Cv。

2. 级联校准

在级联校准步骤中,使用另一组带有标签信息的样本Tv来获取任务特定的归一化指数作为锚点。通过对Cv中的概念进行评分,并选择得分最高的前j个概念作为候选概念集Cv'。然后,根据支持集Tv和类别标签,选择顶级的l个概念作为该类的标签词集。

3. 实际案例

例如,在主题分类任务中,ISCV构建的Verbalizer可能包含如下标签词:“national terrorist”、“international conflict”、“corporation software company”、“campus facility”等。这些标签词能够准确地反映出文本的主题类别,从而提高分类的准确性。

4. 超参数设置

ISCV方法包含四个主要的超参数:支持集Tn的大小(用n表示)、级联校准的支持集Tv的大小(用q表示)、语言模型校准后选择的概念数量(用j表示)以及类别校准过程的数量。为了确保在具有k个类别的数据集中为每个类别保持一致数量的l个标签词,我们将j设置为l×k×系数。经验表明,系数值为10是合适的。

通过对Verbalizer的这种详细分析,我们可以看到ISCV方法如何通过精心设计的过程来构建有效的Verbalizer,从而在少样本学习环境中实现高性能的分类任务。

超参数设置:介绍影响模型性能的关键超参数

在构建有效的自然语言处理模型时,超参数的设置对模型性能有着决定性的影响。在本研究中,我们关注了几个关键的超参数,它们对于模型的性能有显著的影响。

1. 支持集大小(Tv)支持集Tv的大小,即Tv中样本的数量,对于覆盖标签词空间至关重要。实验结果表明,不同的数据集需要不同大小的支持集。例如,在某些情况下,可能需要1000个支持样本来获得令人满意的结果,而在DBPedia和Yahoo数据集上,则需要不同数量的样本来实现最佳结果。此外,结果与支持集Tv的大小之间存在正相关关系。

2. 类别标签词数量每个类别的标签词数量也是一个重要的超参数。这个参数直接影响到模型能够识别和区分不同类别的能力。在实验中,我们发现对于不同的数据集,每个类别的标签词数量也需要相应地调整以达到最佳性能。

3. 概念选择数量(top-j)在语言模型校准后,选择的概念数量(top-j)对于构建有效的标签词集合同样至关重要。在我们的案例中,我们选择了前50个项目作为候选概念集Cv。这些概念的选择基于与查询关键词的相关度,以及它们在特定任务场景下的表现。

4. 类别校准过程中的概念数量(top-l)在类别校准过程中,我们基于支持集Tv和一个类别标签,选取前l个概念作为该类的标签词集。对于k个类别的数据集,我们最终为每个提示模板p获得了k*l个概念的标签器。

通过对这些超参数的细致调整,我们能够为特定的数据集和任务构建出更加精确和有效的模型。这些超参数的设置需要根据具体的数据集和任务需求进行调整,以确保模型能够达到最佳性能。

总结:ISCV方法的贡献与未来研究方向

ISCV方法通过引入场景特定概念到标签器中,为自然语言处理任务提供了一种新颖的提示调整方法。本研究的贡献主要体现在以下几个方面:

  • 提出了一种新的概念查询和级联校准过程,这使得我们能够为特定任务生成更为精确的标签器。
  • 实验结果表明,ISCV方法在多个数据集上都取得了显著的性能提升,特别是在少量样本学习场景中。
  • 超参数的敏感性分析揭示了支持集大小和类别标签词数量对模型性能的重要影响,为未来研究提供了调整方向。

未来的研究可以在以下几个方向进行探索:

  1. 进一步优化超参数设置,以适应更广泛的数据集和任务类型。
  2. 探索更多的概念查询和校准策略,以提高模型在不同场景下的适应性和鲁棒性。
  3. 将ISCV方法与其他模型结合,例如将其应用于不同的预训练语言模型,以探索其在更广泛应用中的潜力。

总之,ISCV方法为利用预训练语言模型进行有效的提示调整提供了一种新的视角,其贡献和未来的研究方向为自然语言处理领域带来了新的启示和挑战。

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

传送门

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了《歌德堡变奏曲1454》为何同性恋没有在进化中消失?张建之/宋斯亮团队揭示双性恋基因有助于繁衍后代|让大脑做做白日梦,有助于学习和记忆|本周论文推荐吕良伟海上放生感性PO文 网猜:暗自思念旧爱周海媚…Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型想抗老,要趁早!《自然-衰老》:禁食的延寿好处只在年轻时拥有;美国首次发现“吸血鬼”病毒,竟源自本科生的课程|本周论文推荐每5个中国人就有3个感染这种病菌!不仅致癌还可能伤脑;GPT-4变笨的原因,有了新解释|本周论文推荐今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损“换脸诈骗”、“逝人复活”相继冲上热搜:颠覆三观的时代还是来了《自然》确认:牛羊肉的这种成分可以抗癌;GPT-4作弊被抓|本周论文推荐忆青春OpenAI、斯坦福大学提出Meta-Prompting,有效提升语言模型的性能首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集Diving Controversy Prompts Sports Fandom Criticism悼大学同学汤奕平今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!自动生成prompt:Automatic prompt engineering纯爱小说﹕ 风云赋 (54) 人各有缘今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!独居的人做好这件事,能减少对大脑健康的伤害;GPT-4选股回报超40%?|本周论文推荐“细嚼慢咽”吃不胖的秘诀,终于被解释清楚了;意外,这些行为都会促进心脏代谢健康,哪怕是多睡觉!|本周论文推荐今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?無題大模型RAG问答技术架构及核心模块回顾:从Embedding、prompt-embedding到Reranker今日Arxiv最热NLP大模型论文:LLM化身符号逻辑大师,智能体文本游戏新纪元难怪减肥难!《自然》子刊:肥胖让你的线粒体碎成渣,加速脂肪堆积;近5万人研究发现:常吃这类食物的女性,更健康长寿|本周论文推荐今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜今日Arxiv最热NLP大模型论文:AllenAI最新研究:让AI从简单学起,竟然能解决难题?GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板三消巨头King新游开测,火速入局!与腾讯,Zynga,Voodoo开启大战
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。