CLUE社区最新神器！PromptCLUE：大规模多任务Prompt预训练中文开源模型

公众号新闻

2022-10-30 06:10

新智元报道

编辑：LRS 好困

【新智元导读】CLUE社区又发布了一个新神器PromptCLUE，中文NLP也实现了Train Once，Run Everywhere！

PromptCLUE支持几十个不同中文类型的任务，具有较好的零样本学习能力和少样本学习能力。

针对理解类任务，如分类、情感分析、抽取等，可以自定义标签体系；针对生成任务，可以进行采样自由生成。

千亿中文token上大规模预训练，亿级中文任务数据上完成训练，训练任务超过150+。

比base版平均任务提升7个点+；具有更好的理解、生成和抽取能力，并且支持文本改写、纠错、知识图谱问答。

promptCLUE实现了中文上的三大统一：统一模型框架，统一任务形式，统一应用方式。

统一模型框架：采用Text-to-Text的生成式预训练模型进行统一建模。

统一任务形式：Prompt统一不同的NLP任务间的差异，转化为统一的text-to-text数据形式。

统一应用方式：对目标任务形成拿来即用的模型，下游应用时都可转化为统一的prompt自适应方式，进行zero-shot/few-shot测试。

项目地址: https://github.com/clue-ai/PromptCLUE

DEMO地址: www.CLUEbenchmarks.com/clueai.html

在线DEMO

效果对比：16类中文任务

任务类型	Base版	Large版
分数	63.47	70.5 5(+7.08)
参数	220M	770M
理解任务（acc / 10类）
分类 classify	89.56	92.89
情感分析	80.55	85.64
相似度计算	70.94	78.47
自然语言推理	78.00	86.67
指代消解	30.00	64.00
阅读理解 mrc	71.69	84.78
关键词提取	41.44	47.78
信息抽取 ner	63.02	70.09
知识图谱问答	-	53.11
中心词提取	66.50	71.50
生成任务（rouge/ 6类）
翻译-英中/中英	55.92	59.67
摘要	31.71	34.48
问答 qa	21.18	27.05
文章/问题生成	35.86	39.87
改写	-	57.68
纠错	-	93.35

License（许可证）

1）PromptCLUE-base可直接下载和使用；

2）PromptCLUE-large版的非商用License

使用方法

安装需要的项目和包


git clone https://github.com/huggingface/transformers.gitpip install ./transformerspip install sentencepiece

加载模型


from transformers import AutoTokenizer, AutoModelForSeq2SeqLMtokenizer = AutoTokenizer.from_pretrained("ClueAI/PromptCLUE-base")model = AutoModelForSeq2SeqLM.from_pretrained("ClueAI/PromptCLUE-base")

使用模型进行预测


import torchfrom transformers import AutoTokenizer# 修改colab笔记本设置为gpu，推理更快device = torch.device('cuda')model.to(device)def preprocess(text):return text.replace("\n", "_")def postprocess(text):return text.replace("_", "\n")def answer(text, sample=False, top_p=0.6):'''sample：是否抽样。生成任务，可以设置为True;top_p：0-1之间，生成的内容越多样、'''text = preprocess(text)encoding = tokenizer(text=[text], truncation=True, padding=True, max_length=768, return_tensors="pt").to(device)if not sample: # 不进行采样out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=128, num_beams=4, length_penalty=0.6)else: # 采样（生成）out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=128, do_sample=True, top_p=top_p)out_text = tokenizer.batch_decode(out["sequences"], skip_special_tokens=True)return postprocess(out_text[0])

支持的任务（部分）

意图分类, 新闻分类, 情感分析, 自然语言推理, 阅读理解, 阅读理解-自由式, 摘要, 翻译-中英, 翻译-英中, 通用信息抽取, 简历信息抽取, 医疗信息抽取电商客户需求分析, 医疗语义相似度, 问题生成, 指代消解, 关键词抽取, 情感倾向, 根据标题文章生成, 知识图谱问答, 相似句子生成/改写, 纠错, 中心词提取.....

使用自定义数据集进行训练-PyTorch实现

使用pCLUE数据集进行训练、预测和效果验证。

pCLUE基准上的效果

示例输入

新闻分类(classify)

Input:分类任务：折价率过低遭抛售基金泰和跌7.15%，证券时报记者 朱景锋本报讯 由于折价率在大盘封基中处于最低水平，基金泰和昨日遭到投资者大举抛售，跌幅达到7.15%，远超大盘。盘面显示，基金泰和随大盘高开，之后开始震荡走低，午后开始加速下行，几乎没有像样反弹。截至收盘时，在沪深300指数仅下跌2.56%的情况下，基金泰和收盘跌幅高达7.15%，在所有封基中跌幅最大，而昨日多数封基跌幅在2%左右。选项：财经，娱乐，时政，股票答案：
Model output:财经

意图分类(classify)

Input:意图分类：帮我定一个周日上海浦东的房间选项：闹钟，文学，酒店，艺术，体育，健康，天气，其他答案：

Model output:酒店

情感分析(classify)

Input:情感分析：这个看上去还可以，但其实我不喜欢选项：积极，消极答案：

Model output:消极

推理(generate)

Input:请推理出上下文的关系：前提：对不起事情就是这样。假设：事情就是这样，不需要道歉。选项：中立，蕴涵，矛盾答案：

Model output:矛盾

阅读理解(generate)

Input:阅读文章，给出答案：段落：港汇指数，全称港元实际汇兑指数（Effective Exchange Rate Index for the Hong Kong Dollar）是由香港政府统计处编制的一项指数，以反映港元与香港主要贸易伙伴之货币的名义有效汇率加权平均数的变动情况。加权比重是按1999年至2000年平均贸易模式所制定，但政府并未有公布详细的计算公式。旧港汇指数基准日为2000年1月1日，基数为100点。由2012年1月3日起，新系列港汇指数 (包括15种货币及以2010年1月 = 100) 已取代旧港汇指数系列。港汇指数的作用，主要是用于反映香港的货品及服务的价格相对于其主要贸易伙伴的变动，并通常被视作反映香港价格竞争力的指标。问题：港汇指数的加权比重如何制定？答案：

Model output:按1999年至2000年平均贸易模式所制定

阅读理解-自由式(generate)

Input:阅读以下对话并回答问题。男：今天怎么这么晚才来上班啊？女：昨天工作到很晚，而且我还感冒了。男：那你回去休息吧，我帮你请假。女：谢谢你。问题：女的怎么样？选项：正在工作，感冒了，在打电话，要出差。答案：

Model output:感冒了

摘要(generate)

Input:为下面的文章生成摘要：北京时间9月5日12时52分，四川甘孜藏族自治州泸定县发生6.8级地震。地震发生后，领导高度重视并作出重要指示，要求把抢救生命作为首要任务，全力救援受灾群众，最大限度减少人员伤亡答案：

Model output:四川甘孜发生6.8级地震

翻译-中英(generate)

Input:翻译成英文：议长去了台湾，中国人民很愤怒。答案：

Model output:The secretary went to Taiwan and the Chinese people were angry.

翻译-英中(generate)

Input:翻译成中文：This is a dialogue robot that can talk to people.答案：

Model output:这是一台可以与人交谈的对话机器人。

通用信息抽取(generate)

Input:信息抽取：据新华社电广东省清远市清城区政府昨日对外发布信息称,日前被实名举报涉嫌勒索企业、说“分分钟可以搞垮一间厂”的清城区环保局局长陈柏,已被免去清城区区委委员问题：机构名，人名，职位答案：

Model output:机构名：新华社，清城区政府，清城区环保局，清城区区委人名：陈柏职位：局长，区委委员

简历信息抽取(generate)

Input:阅读文本抽取关键信息：张玄武2000年出生中国国籍无境外居留权博士学历现任杭州线锁科技技术总监。问题：机构，人名，职位，籍贯，专业，国籍，学历，种族答案：

Model output:人名：张玄武职位：杭州线锁科技技术总监国籍：中国国籍学历：博士学历

医疗信息抽取(generate)

Input:从文本中抽取信息：我胃部不舒服，前几天去医院做B超，医生说我有胃炎问题：症状，检查，身体，疾病答案：

Model output:检查：B超身体：胃部

电商客户需求分析(classify)

Input:电商客户诉求分类：收到但不太合身，可以退换吗选项：买家咨询商品是否支持花呗付款，买家表示收藏关注店铺，买家咨询退换货规则，买家需要商品推荐答案：

Model output:买家咨询退换货规则

医疗语义相似度(classify)

Input:下面句子是否表示了相同的语义：文本1：糖尿病腿麻木怎么办？文本2：糖尿病怎样控制生活方式选项：相似，不相似答案：

Model output:不相似

问题生成(generate)

Input:问题生成：中新网2022年9月22日电 22日，商务部召开例行新闻发布会，商务部新闻发言人束珏婷表示，今年1-8月，中国实际使用外资1384亿美元，增长20.2%；其中，欧盟对华投资增长123.7%(含通过自由港投资数据)。这充分表明，包括欧盟在内的外国投资者持续看好中国市场，希望继续深化对华投资合作。答案：

Model output:1、商务部发言人束珏婷表示，中国去年1-8月实际使用外资1384亿美元,增长20.2%，其中欧盟对华投资增长多少？2、欧盟对华投资的增长是否达到预期？3、欧盟在对华投资合作方面取得什么样的成果？

指代消解(generate)

Input:指代消解：段落：少平跟润叶进了她二爸家的院子，润生走过来对他（代词）说：“我到宿舍找了你两回，你到哪里去了？”问题：代词“他”指代的是？答案：

Model output:少平

关键词抽取(generate)

Input:抽取关键词：当地时间21日，美国联邦储备委员会宣布加息75个基点，将联邦基金利率目标区间上调到3.00%至3.25%之间，符合市场预期。这是美联储今年以来第五次加息，也是连续第三次加息，创自1981年以来的最大密集加息幅度。关键词：

Model output:美联储，利率目标区间，加息，基点

情感倾向(classify)

文字中包含了怎样的情感：超可爱的帅哥，爱了。。。选项：厌恶，喜欢，开心，悲伤，惊讶，生气，害怕答案：

Model output:喜欢

技术交流和问题反馈

参考资料：

https://mp.weixin.qq.com/s/Ms8LzcvVhz4GasbVC3mvXA

点击阅读原文，进入在线DEMO！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章