Prompt Tuning已经全面超越 Fine Tuning了?
目录
二. 为什么需要提示学习
三. 提示学习是什么
四. 常见的提示学习方法
五. 总结
一. NLP的训练范式有哪些
第一范式:基于「传统机器学习模型」的范式,如 tf-idf 特征+朴素贝叶斯等机器算法; 第二范式:基于「深度学习模型」的范式,如 word2vec 特征 + LSTM 等深度学习算法,相比于第一范式,模型准确有所提高,特征工程的工作也有所减少; 第三范式:基于「预训练模型 + finetuning」的范式,如 BERT + finetuning 的NLP任务,相比于第二范式,模型准确度显著提高,但是模型也随之变得更大,但小数据集就可训练出好模型; 第四范式:基于「预训练模型 + Prompt + 预测」的范式,如 BERT + Prompt 的范式相比于第三范式,模型训练所需的训练数据显著减少。
二. 为什么需要提示学习为什么呢?
三. 提示学习是什么
Prompt Learning 的本质
设计预训练语言模型的任务 设计输入模板样式(Prompt Engineering) 设计label 样式 及模型的输出映射到label 的方式(Answer Engineering)
Prompt Learning 的形式
四. 常见的提示学习方法
1. 硬模板方法
在少量监督数据上,给每个 Prompt 训练一个模型; 对于无监督数据,将同一个样本的多个 prompt 预测结果进行集成,采用平均或加权(根据acc分配权重)的方式,再归一化得到概率分布,作为无监督数据的 soft label ; 在得到的soft label上 finetune 一个最终模型。
2. 软模板方法
不依赖人工设计 要优化的参数极少,避免了过拟合(也可全量微调,退化成传统 finetuning)
初始化一个模板:The capital of [X] is [mask] 替换输入:[X] 处替换为输入 “Britian”,即预测 Britain 的首都 挑选模板中的一个或多个 token 作为 soft prompt 将所有 soft prompt 送入 LSTM,获得每个 soft prompt 的「隐状态向量 h」 将初始模板送入 BERT 的 Embedding Layer,「所有 soft prompt 的 token embedding用 h 代替」,然后预测mask。
输入表示为 Z = [ prefix ; x ; y ] Prefix-tuning 初始化一个训练的 矩阵 P,用于存储 prefix parameters 前缀部分 token,参数选择设计的训练矩阵,而其他部分的token,参数则固定 且为预训练语言模型的参数
五. 总结
提示模板:根据使用预训练模型,构建 完形填空 or 基于前缀生成 两种类型的模板 类别映射/Verbalizer:根据经验选择合适的类别映射词、3. 预训练语言模型
硬模板方法:人工设计/自动构建基于离散 token 的模板
1)PET 2)LM-BFF软模板方法:不再追求模板的直观可解释性,而是直接优化 Prompt Token Embedding,是向量/可学习的参数
1)P-tuning 2)Prefix Tuning
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章